Как замечательно смотрится учебник по терверу на службе у отдела маркетинга!
"Теорема Байеса как раз позволяет посчитать в данном случае условную вероятность."
Вероятность, извините, чего позволяет рассчитать теорема Байеса (приводящаяся в первых 20-30 страницах любого учебника по терверу для ВУЗов)? И почему эта условная вероятность является пресловутой серебряной пулей против спама? Хочется напомнить, что байесовский классификатор основан на некоей модели представления документа, которая упрощает сам классификатор (снимает проблему комбинаторного взрыва при вычислениях), но к самому документу, по сути, не имеет никакого отношения. Байесовский классификатор, несмотря на то, что оперирует красивым термином "условная вероятность", является эвристическим методом, потому что сведение всей информации о документе к независимым характеристикам является, по сути, решением известной задачи о сферических конях в ваккуме.
Причем сам по себе метод как раз хорош: прост в реализации, эффиктивен. Но только вот не надо приводить ссылки на высокую математику в качестве подвтерждения сказочных характеристик конкретного продукта.
Вообще, фильтров основанных на Байесе чуть-ли не сотни. И если выделить среди них самые известные и популярные (spambayes, bogofilter, spamassassin, popfile), то можно заметить, что они имеют все характеристики представленного Агавой продукта и притом являются бесплатными.
Мало того, за последние пару лет среди перечисленных фильтров явно намечается переход от использования теоремы Байеса (как метода с существенным количеством ложных срабатываний) к использованию критерия Хи-квадрат (или, точнее, метода подсчета комбинированной вероятности для результатов экспериментов, предложенным Фишером еще в середине 50-х годов), где количество ложных срабатываний уменьшилось. Этот переход имеет под собой еще меньше оснований, чем упрощение документа до модели исходного байесовского классификатора, но работает лучше.
Заявленные характеристики, действительно, нереальны. Впрочем, тут, как обычно, проблема в том, что нам абсолютно неизвестно, как именно разработчики считали количество ложных срабатываний, на каких коллекциях писем обучали и тестировали. Обычно такие результаты получаются когда набор писем, на которых обучали, совпадает с набором писем, на которых производили тестирование классификатора.
Вообще же, лично мне кажется некорректным со стороны разработчиков _продавать_ фильтр, основанный только на простых методах с обучением. Тем самым они заранее снимают с себя всякую ответственность за ложные срабатывания у пользователя (всегда есть "отмазка", мол, неверно обучил). Да и, опять же, наличие бесплатных фильтров этого класса на любой цвет и вкус...
"Наша система также обладает очень высокой производительностью (1 миллион сообщений в сутки на Intel Pentium 2,4 GHz)."
Стоит ли хвастать производительностью в 11 сообщений в секунду на Intel Pentium 2,4 GHz ?
Про скорость обработки в пике они молчат.
"классифицирует сообщения с вероятностью >99%"... 0,001–0.005% ложных срабатываний
Для фильтров построенных на баесовских/вероятностных алгоритмах, это нереально. За такой алгоритм просто должны Нобелевскую премию дать.
Как пример, ошибки из-за цитирования в спаме Шекспира или какой-нибудь энциклопедии, увеличение ложных срабатываний при старении базы.
Сегодняшний качественный спам неподготовленный человек не всегда отличает, я они гарантируют почти 100% эффективность работы робота.