РАЗДЕЛЫ

Архив

Компания Agava рассказывает про SpamProtexx

Вебпланета

≡ | архивная статья | 02.03.2005 12:03

Компания Agava на днях анонсировала новый, несвойственный ей продукт — антиспамовый фильтр SpamProtexx. «Вебпланета» решила расспросить «Агаву» подробнее.

Посмотреть статью полностью

02.03.2005 13:18 | пишет Максим | ссылка

"Наша система также обладает очень высокой производительностью (1 миллион сообщений в сутки на Intel Pentium 2,4 GHz)."

Стоит ли хвастать производительностью в 11 сообщений в секунду на Intel Pentium 2,4 GHz ?
Про скорость обработки в пике они молчат.

"классифицирует сообщения с вероятностью >99%"... 0,001–0.005% ложных срабатываний

Для фильтров построенных на баесовских/вероятностных алгоритмах, это нереально. За такой алгоритм просто должны Нобелевскую премию дать.

Как пример, ошибки из-за цитирования в спаме Шекспира или какой-нибудь энциклопедии, увеличение ложных срабатываний при старении базы.

Сегодняшний качественный спам неподготовленный человек не всегда отличает, я они гарантируют почти 100% эффективность работы робота.

02.03.2005 16:33 | пишет Студент-двоечник | ссылка

Как замечательно смотрится учебник по терверу на службе у отдела маркетинга!

"Теорема Байеса как раз позволяет посчитать в данном случае условную вероятность."

Вероятность, извините, чего позволяет рассчитать теорема Байеса (приводящаяся в первых 20-30 страницах любого учебника по терверу для ВУЗов)? И почему эта условная вероятность является пресловутой серебряной пулей против спама? Хочется напомнить, что байесовский классификатор основан на некоей модели представления документа, которая упрощает сам классификатор (снимает проблему комбинаторного взрыва при вычислениях), но к самому документу, по сути, не имеет никакого отношения. Байесовский классификатор, несмотря на то, что оперирует красивым термином "условная вероятность", является эвристическим методом, потому что сведение всей информации о документе к независимым характеристикам является, по сути, решением известной задачи о сферических конях в ваккуме.

Причем сам по себе метод как раз хорош: прост в реализации, эффиктивен. Но только вот не надо приводить ссылки на высокую математику в качестве подвтерждения сказочных характеристик конкретного продукта.

Вообще, фильтров основанных на Байесе чуть-ли не сотни. И если выделить среди них самые известные и популярные (spambayes, bogofilter, spamassassin, popfile), то можно заметить, что они имеют все характеристики представленного Агавой продукта и притом являются бесплатными.

Мало того, за последние пару лет среди перечисленных фильтров явно намечается переход от использования теоремы Байеса (как метода с существенным количеством ложных срабатываний) к использованию критерия Хи-квадрат (или, точнее, метода подсчета комбинированной вероятности для результатов экспериментов, предложенным Фишером еще в середине 50-х годов), где количество ложных срабатываний уменьшилось. Этот переход имеет под собой еще меньше оснований, чем упрощение документа до модели исходного байесовского классификатора, но работает лучше.

Заявленные характеристики, действительно, нереальны. Впрочем, тут, как обычно, проблема в том, что нам абсолютно неизвестно, как именно разработчики считали количество ложных срабатываний, на каких коллекциях писем обучали и тестировали. Обычно такие результаты получаются когда набор писем, на которых обучали, совпадает с набором писем, на которых производили тестирование классификатора.

Вообще же, лично мне кажется некорректным со стороны разработчиков _продавать_ фильтр, основанный только на простых методах с обучением. Тем самым они заранее снимают с себя всякую ответственность за ложные срабатывания у пользователя (всегда есть "отмазка", мол, неверно обучил). Да и, опять же, наличие бесплатных фильтров этого класса на любой цвет и вкус...

02.03.2005 17:29 | пишет Не знаю, не знаю | ссылка

Но факт тот, что работает SpamProtexx. Спам фильтрует хорошо, и ложных срабатываний очень и очень мало (если не сказать, что по большим праздникам). При этом сами ложные срабатывания никаких проблем не доставляют - письмо я не потеряю в любом случае.

02.03.2005 17:48 | пишет Студент-двоечник | ссылка

Погодите-погодите. Я только сейчас понял, что имеется в виду под "письмо я не потеряю в любом случае". Цитата с их сайта, "стратегия использования", http://www.spamprotexx.ru/features/strategy.shtml :

"Когда большинство спам-сообщений помечены как спам и перемещёны в специальную папку почтового клиента, то они не беспокоят Вас в течение дня. Позже, когда у Вас будет несколько свободных минут, Вы сможете быстро просмотреть сообщения, помеченные как спам. Если среди них окажется письмо, ошибочно классифицированное Spamprotexx, Вы сможете представить его для обучения как не-спам."

Это что, такое тонкое издевательство - заставлять читать спам?

Тому, кто "не знает" - забавно, что Ваше письмо мне напоминает типичный спам на форумах про туристические фирмы. Тем не менее, интересно, чем Вам не нравится, к примеру, SpamBayes? Делает тоже самое и естественно что может не удалять спам (это умеет делать любой фильтр, даже встроенный в Outlook, Thunderbird или TheBat). Только SpamBayes денег не стоит (ну совсем). И можете читать спам в отдельной папке сколько влезет.

На самом деле, конечно же, это бред, что человек может читать спам и быстро выделять оттуда ложные срабатывания фильтра. В случае когда все завалено спамом (к примеру, я получаю под несколько сотен спамерских писем в день) человек не может быстро выявить среди них "не спам". Просто физически не может. А уж тем более когда этот "не спам" похож на "спам" внешне (не зря же за него фильтр схватился, верно?)

02.03.2005 17:56 | пишет Студент-двоечник | ссылка

Да, и еще. В своем первом сообщении я как раз писал про отмазки - вот они! То есть, разработчики утверждают, что если случилось ложное срабатывание, это проблема не фильтра (точнее, разработчиков), а проблема обучения! И во всем виноват пользователь. Ну а дальше, легким движением мышки, он переобучивает свой фильтр до тех пор, пока не будет ему "щасте".

Причем, разработчики фильтра все в белом - они же как раз рекомендуют пользователю читать свой спам и подметать за фильтром, использующим сложную формулу?

Отлично, просто отлично.

02.03.2005 18:26 | пишет Ашманов | ссылка

"Кстати интересно было бы узнать формулу, по которой считается результирующая вероятность по совокупности найденных признаков при помощи технологии «Спамтест». "

Извините, ребята, а) "формулы" нет, потому что бизнес этот сложный и у нас 15 методов детекции используется, и решающие правила многслойные; б) узнать принципы - нельзя. По очевидным причинам.
Именно потому, что байесовские фильтры все на одно лицо и алгоритм их известен каждой собаке, спамеры из довольно легко замусоривают и обходят.

Наиболее интересны всё-таки ложные срабатывания, потому цифра 99,(9)% - неитересна. Её пишут все, кто производит байесовские фильтры - видимо, обучая и тестируя на одинковых или на похожих выборках. По крайней мере, великий отец-основатель байесовской истерии Грэм делал именно так.
Вопрос такой - байесовские фильтры имеют свойство переобучаться, захлёбываться данными, так что потом качество резко падает - см.статью Андрея Калинина на Спамтест.ру:
"Применимость Байесовского классификатора для задачи определения спама".

Именно поэтому мы не включаем байесовские методы в Спамтест, хотя дважды в 2002 и 2004 гг. по мере развития этих методов делали такой модуль и тщательно тестировали его. Результат был не очень, Байес точно не улучшал качество Спамтеста. А на сервере вообще резко ухудшал.

Так вот, каким образом удалось победить этот недостаток метода? Ведь пока он не побеждён, пользователя фактически вводят в заблуждение - он начинает пользоваться, учит-учит, а потом всё отказывает. Если забесплатно, то это ещё туда-сюда...

02.03.2005 19:42 | пишет Vladimir Panfilovich | ссылка

Игорь, естественно у нас модифицированный байес. А как именно модифицированный мы не расскажем, ровно также как и ты не рассказываешь деталей о своих медотах.

Насчет цифр. Вот данные из моего личного Протеха. К нему попадает почта vladp at agava.ru , а также col at agava.ru и adv at agava.ru

получено спама 20188
получено не спама 71709
ошибок на нормальных письмах (их приняли за спам) 8
ошибок на спаме (его приняли за нормальные письма) 341

Вероятности думаю легко посчитать.

Естественно фильтр до этого был обучен на почте приходившей на эти адреса до этого.

02.03.2005 19:44 | пишет Vladimir Panfilovich | ссылка

конечно спама я получил 71709 , а нормальных писем 20188.

в остальном все так.

02.03.2005 20:08 | пишет Vetal | ссылка

В статье ошибка форматирования текста. Первые два абзаца по поводу преимуществ перед Спамтестом следует читать так (все что в кавычках взято с сайта spamtest.ru, со страницы http://www.spamtest.ru/products.html):

— "Уровень определения спама составляет более 85–95%."

Обученный фильтр SpamProtexx классифицирует сообщения с вероятностью >99%.

— "Мы добились крайне низкого уровня ложных срабатываний — в пределах 0,001–0.005% (1–5 сообщений на 100 тыс., причём в основном страдают маргинальные рекламные рассылки)."

В SpamProtexx имеется возможность установки требуемого порога срабатывания фильтра, что позволяет пользователям выбирать собственную стратегию классификации.

- "Наша система также обладает очень высокой производительностью (1 миллион сообщений в сутки на Intel Pentium 2,4 GHz). "

Для клиентского фильтра это не является критичным параметром. Но тем не менее скорость скачивания сообщений с фильтром очень незначительно отличается от скорости без фильтра.

02.03.2005 20:12 | пишет Дмитрий Луценко | ссылка

К сожалению, так представлен материал на странице "(1 миллион сообщений в сутки на Intel Pentium 2,4 GHz)" и "0,001–0.005% ложных срабатываний" это выдержки с сайта spamtest.ru, а Вы невольно приписали их нам. Наши ответы идут после них.

02.03.2005 22:41 | пишет Vetal | ссылка

> пишет Ашманов: на тему: Магическая формула
> "Кстати интересно было бы узнать формулу, по которой считается
> результирующая вероятность по совокупности найденных признаков при
> помощи технологии «Спамтест». "
>
> Извините, ребята, а) "формулы" нет, потому что бизнес этот сложный и
> у нас 15 методов детекции используется, и решающие правила
> многслойные; б) узнать принципы - нельзя. По очевидным причинам.

Ну какая бы сложная формула ни была, в любом случае она все таки есть.
Потому как все критерии в конечном итоге должны быть сведены к
простому ответу - спам или не спам. И вопрос по поводу формулы возник
из-за высказывания о неприменимости Байесовского метода. Дело в том,
что основа метода это замечательная по своей внешней простоте теорема
Байеса из теории вероятностей, которая служит источником довольно
большого количества следствий и трактовок. Приложение этой теоремы к
ситуации с классификацией писем по некоторому количеству критериев
(правил, методов) может выглядеть следующим образом:

Есть совокупность признаков с известными априорными вероятностями
выполнения условий каждого признака для спама и нормальных писем.
Требуется посчитать вероятность того, что письмо является спамом при
условии что некоторое количество признаков найдено, а некоторые не
выполнились. Правильно до сего момента?
Вот тут и можно использовать следствие из формулы Байеса, которое
позволяет найти апостериорную вероятность того что получен спам на
основе априорных условных вероятностей найденных для полученного
письма признаков.

Теория вероятностей у нас одна на всех. И если в Спамтесте все
считается именно так, то ваш метод это тот же байесиан. Отличие только
в выборе признаков. Но если считается не так.. Извините, но
эвристические чудо-формулы и "удачно подобранные" коэффициенты в них
рассматривать в данном случае бессмысленно. Менять можно критерии, а
вот для подсчета общей вероятности есть известная точная формула. (на
самом деле есть в этом следствии из теоремы есть изъян, но если
считать что вероятности получения спама и нормальных писем равны, то
можно считать что им можно принебречь).

> Именно потому, что байесовские фильтры все на одно лицо и алгоритм
> их известен каждой собаке, спамеры из довольно легко замусоривают и
> обходят.
>
> Наиболее интересны всё-таки ложные срабатывания, потому цифра
> 99,(9)% - неитересна. Её пишут все, кто производит байесовские
> фильтры - видимо, обучая и тестируя на одинковых или на похожих
> выборках. По крайней мере, великий отец-основатель байесовской
> истерии Грэм делал именно так.
>
> Вопрос такой - байесовские фильтры имеют свойство переобучаться,
> захлёбываться данными, так что потом качество резко падает -
> см.статью Андрея Калинина на Спамтест.ру:
>
> "Применимость Байесовского классификатора для задачи определения
> спама".

Безусловно, сам метод классификации абстрактных текстов на основе
теоремы Байеса известен давно и используется во множестве продуктов.
"naive Bayesian classifier" известен уже более 40 лет. Согласен что
простейшие реализации легко выводятся из строя неправильным обучением.
Но даже упомянутый Пол Грэхем в своих статьях не обещал счастья при
использовании метода "в лоб". Наша реализация использует совокупность
методов, которая дает _суммарно_ точность классификации >99%. То есть
false positives + false negatives для обученного фильтра составляют
меньше одного процента. И это выполняется не только на тестовых
выборках. Эти цифры демонстрирует статистика у пользователей, которым
приходит огромное количество писем ежедневно.

По поводу указанной статьи. Суть сделанных выводов сводится к одному
куску текста:

"Проблема заключается в том, что до сих пор не появилось способов
оценки базы НБК на ее 'переобученность', не говоря уж о выделении
неактуальных или ложных ее элементов. "

Это неверное утверждение. Оно ничем не обосновано. И алгоритм
SpamProtexx это доказывает.

>
> Именно поэтому мы не включаем байесовские методы в Спамтест, хотя
> дважды в 2002 и 2004 гг. по мере развития этих методов делали такой
> модуль и тщательно тестировали его. Результат был не очень, Байес
> точно не улучшал качество Спамтеста. А на сервере вообще резко
> ухудшал.
>

Классификатор нужно обучать, иначе действительно результаты будут
плохими. А обучение серверного фильтра это вообще крайний случай
сложности, поскольку у каждого пользователя свои представления о том
что является спамом, а что нет. Соответственно если база фильтра
общая, то результат всегда будет компромиссом.

> Так вот, каким образом удалось победить этот недостаток метода? Ведь
> пока он не побеждён, пользователя фактически вводят в заблуждение -
> он начинает пользоваться, учит-учит, а потом всё отказывает. Если
> забесплатно, то это ещё туда-сюда...

Удалось, и действительно ничего не отказывает. Поэтому и не бесплатно
:)

02.03.2005 23:16 | пишет Vetal | ссылка

> пишет Студент-двоечник: на тему: Re: Высокая математика
> Как замечательно смотрится учебник по терверу на службе у отдела маркетинга!
>
>
> "Теорема Байеса как раз позволяет посчитать в данном случае условную
> вероятность."
>
> Вероятность, извините, чего позволяет рассчитать теорема Байеса
> (приводящаяся в первых 20-30 страницах любого учебника по терверу
> для ВУЗов)? И почему эта условная вероятность является пресловутой
> серебряной пулей против спама?

см. предыдущий пост по поводу что именно можно посчитать. Во-первых не
стоит вырывать фразы из контекста, а во-вторых про "серебряную пулю"
говорится только на сайте "Спамтест" (чудо-вероятность ложных
срабатываний в 0,001–0.005%).

> Хочется напомнить, что байесовский классификатор основан на некоей
> модели представления документа, которая упрощает сам классификатор
> (снимает проблему комбинаторного взрыва при вычислениях), но к
> самому документу, по сути, не имеет никакого отношения. Байесовский
> классификатор, несмотря на то, что оперирует красивым термином
> "условная вероятность", является эвристическим методом, потому что
> сведение всей информации о документе к независимым характеристикам
> является, по сути, решением известной задачи о сферических конях в
> ваккуме.

Да, все именно так (в отношении классификатора абстрактных текстов
методом наивного байеса). Никто и не утверждает что итоговая цифра
точна в _общем_ случае. И речь не о наивной реализации Байесовского
классификатора и абстрактных текстах, а о результатах тестов на
почтовых сообщениях модифицированного алгоритма, который к наивному
Байесу имеет отношение только в смысле расчета итогового коэффициента
для отдельных токенов.

>
> Причем сам по себе метод как раз хорош: прост в реализации,
> эффиктивен. Но только вот не надо приводить ссылки на высокую
> математику в качестве подвтерждения сказочных характеристик
> конкретного продукта.

Где ж тут высокая математика :) А характеристики не такие уж
сказочные, потому что ошибки есть, хоть их и мало. Больше чем
0,001–0.005% у Спамтеста, но меньше чем у большинства аналогов.

>
> Вообще, фильтров основанных на Байесе чуть-ли не сотни. И если
> выделить среди них самые известные и популярные (spambayes,
> bogofilter, spamassassin, popfile), то можно заметить, что они имеют
> все характеристики представленного Агавой продукта и притом являются
> бесплатными.

Работа со всеми почтовыми клиентами, фильтрация POP3, IMAP, обучение
через SMTP, прозрачная фильтрация SSL соединений, отсутствие
необходимости каких либо изменений в настройках почтового клиента.
Назовите хоть один фильтр, который умеет то же самое. Плюс алгоритм,
но это уже обсуждалось.

>
> Мало того, за последние пару лет среди перечисленных фильтров явно
> намечается переход от использования теоремы Байеса (как метода с
> существенным количеством ложных срабатываний) к использованию
> критерия Хи-квадрат (или, точнее, метода подсчета комбинированной
> вероятности для результатов экспериментов, предложенным Фишером еще
> в середине 50-х годов), где количество ложных срабатываний
> уменьшилось. Этот переход имеет под собой еще меньше оснований, чем
> упрощение документа до модели исходного байесовского классификатора,
> но работает лучше.

А с какой стати интересно вы сравниваете саму теорему Байеса и метод
подсчета общей вероятности? Они используются на разных этапах рассчета
и друг другу не противоречат.

>
> Заявленные характеристики, действительно, нереальны.

99%? Ваше право иметь свое мнение.

> Впрочем, тут, как обычно, проблема в том, что нам абсолютно
> неизвестно, как именно разработчики считали количество ложных
> срабатываний, на каких коллекциях писем обучали и тестировали.
> Обычно такие результаты получаются когда набор писем, на которых
> обучали, совпадает с набором писем, на которых производили
> тестирование классификатора.

У каждого пользователя свой набор писем и естественно бессмысленно
пытаться обучить фильтр так, чтобы он сразу выдавал отличные цифры
качества классификации для всех. Но в том что указанные цифры достижимы
можно легко убедиться.

>
> Вообще же, лично мне кажется некорректным со стороны разработчиков
> _продавать_ фильтр, основанный только на простых методах с
> обучением. Тем самым они заранее снимают с себя всякую
> ответственность за ложные срабатывания у пользователя (всегда есть
> "отмазка", мол, неверно обучил). Да и, опять же, наличие бесплатных
> фильтров этого класса на любой цвет и вкус...

Что за новое передергивание, где вы прочли о простом методе???
Покажите хоть один фильтр без ложных срабатываний. У всех они есть, но
везде с разной вероятностью. Если вероятности для бесплатных известных
фильтров вас устраивают, то вы не являетесь нашим потенциальным
клиентом, вот и все.

02.03.2005 23:30 | пишет Vetal | ссылка

> пишет Студент-двоечник: на тему: Re: Знаю! Или, "слышу глас Божий!"
> Погодите-погодите. Я только сейчас понял, что имеется в виду под "письмо я не потеряю в любом случае". Цитата с их сайта, "стратегия использования", http://www.spamprotexx.ru/features/strategy.shtml :
>
>
> "Когда большинство спам-сообщений помечены как спам и перемещёны в специальную папку почтового клиента, то они не беспокоят Вас в течение дня. Позже, когда у Вас будет несколько свободных минут, Вы сможете быстро просмотреть сообщения, помеченные как спам. Если среди них окажется письмо, ошибочно классифицированное Spamprotexx, Вы сможете представить его для обучения как не-спам."
>
>
> Это что, такое тонкое издевательство - заставлять читать спам?

Можно этого не делать если вас не интересует некий процент писем, по ошибке распознанных как спам. Вероятность ошибки есть всегда и никакой фильтр в мире вас от нее не избавит.

>
> Тому, кто "не знает" - забавно, что Ваше письмо мне напоминает типичный спам на форумах про туристические фирмы. Тем не менее, интересно, чем Вам не нравится, к примеру, SpamBayes? Делает тоже самое и естественно что может не удалять спам (это умеет делать любой фильтр, даже встроенный в Outlook, Thunderbird или TheBat). Только SpamBayes денег не стоит (ну совсем). И можете читать спам в отдельной папке сколько влезет.

Ваше право выбора не оспаривается ни единой фразой.

> На самом деле, конечно же, это бред, что человек может читать спам и быстро выделять оттуда ложные срабатывания фильтра. В случае когда все завалено спамом (к примеру, я получаю под несколько сотен спамерских писем в день) человек не может быстро выявить среди них "не спам". Просто физически не может. А уж тем более когда этот "не спам" похож на "спам" внешне (не зря же за него фильтр схватился, верно?)

Прочтите, пожалуйста, о стратегии еще раз. Там говорится о том, что без фильтра приходится отвлекаться на пришедшие письма спама и заниматься сортировкой ежеминутно, а с фильтром можно просматривать отфильтрованные в спам сообщения один раз в конце дня. Если для вас и это не подходит, то извините, но вам не поможет ни один из существующих фильтров. В реальности со временем точность классификации вырастает настолько, что можно в папку со спамом и не заглядывать. Но об этом речь не идет опять же во избежание возможных обвинений во лжи. Проверьте и убедитесь сами если есть желание. Во всяком случае это выглядит более конструктивным чем строить предположения и писать длинные тирады на их основе.

03.03.2005 00:16 | пишет Игорь | ссылка

Сейчас зашёл на сайт этой программы и посмотрел цену - 277 рублей. Как два раза помыть машину. :) Наверно куплю этот антиспам, при всей моей нелюбви к Агаве за её хостинг.

03.03.2005 03:29 | пишет Андрей Черезов | ссылка

Плохо в ней то, что она лезет на TDI-уровень (драйвер ставит). Слишком много желающих последнее время "работать на системном уровне", конфликтовать начинают. Почему не сделать классический POP3/IMAP-прокси.

03.03.2005 03:31 | пишет Андрей Черезов | ссылка

Игорь Ашманов пишет:
>Вопрос такой - байесовские фильтры имеют
>свойство переобучаться, захлёбываться
>данными, так что потом качество резко
>падает - см.статью Андрея Калинина на
>Спамтест.ру
>Именно поэтому мы не включаем байесовские
>методы в Спамтест, хотя дважды в 2002 и
>2004 гг. по мере развития этих методов
>делали такой модуль и тщательно
>тестировали его. Результат был не очень,

Если у вас не получилось, то не значит, что у всех так. У нас за 3 года PopFile не "захлебнулся". Чтобы не быть голословным - обученную реальную базу (50Мб) я Андрею Калинину выслал, программы для тестирования тоже (см. дискуссию на вашем сайте
spamtest.ru/document.html?context=1&discuss=19230 )

Фильтрация >99.99% спама (и вирусов!) при ложных срабатываниях 1 на 100 000 писем - в PopFile достижима. Почему бы и SpamProtexe того же не достичь. Тем более что они не для mail.ru предлагают свою программу за $10 :), а для индивидуальных пользователей. А на такой почте, как известно, Байес показывает превосходные результаты у всех (свежий обзор 15 байесовых антиспамов см. по ссылкам с eserv.ru/AntiSpamNews ).

10 писем в секунду - вполне хороший результат. Лучше, чем у PopFile. Правда там не сказано, при каком объеме байесовых словарей это достигается.

03.03.2005 03:35 | пишет Андрей Черезов | ссылка

А что здесь за фильтр стоит злодейский? Пока урлы не изуродовал - не давала постинг отправить. Правда на пользу пошло :) Пока отправлял - скачал Spamporotexx и уже понял её главный недостаток (TDI). Ложка дёгтя! :(

03.03.2005 12:08 | пишет Vladimir Panfilovich | ссылка

Андрей, а чем вам так не нравится TDI?

Конфликты безусловно есть. Но подавляющее их большинство было исправлено на фазе тестирования. Если у кого-то из зарегистрированных пользователей будет конфликты - исправим специально для их конфигурации.

03.03.2005 16:37 | пишет Andrew Okunev | ссылка

"Чтобы не быть голословным - обученную реальную базу (50Мб) я Андрею Калинину выслал..."

Размер моей базы протеха - 4 Мб. Последний сборс статистики - 12 июля 2004, т.е. она точно старше полугода. Это говорит о двух вещах: 1) быстродействии; 2) о том, что база не "пухнет". Плюс это позволяет нам поставлять протех с уже обученной базой на основе мерджа моей базы с базами нескольких людей в комании, которые наиболее активно работают с разнообразной бизнес-почтой.

03.03.2005 20:56 | пишет Андрей Черезов | ссылка

Про TDI: расскажу грустную историю, уже с участием SpamProtexx. Поставил я его сегодня ночью... Поигрался. Исходящую почту он видит, в т.ч. направляемую классификатору, хорошо. А вот входящую (Thunderbird/IMAP/SSL) - не увидел. Так что проверить антиспам не смог. Ну ладно, лёг спать. Утром будет жена "что такое, не могу получить почту, окошки какие-то выскакивают, таймауты, и т.д." Я обрадовался, Spamprotexx работает :) - и точно, в его логе письма из её Inbox'а (Outlook 2000/IMAP/без SSL), ровно 30% ложных срабатываний (30 писем из 100 проверенных), хотя в аутлуке это не видно никак, никаких пометок [SPAM] в теме этих писем нет. Соответственно, как найти эти письма и отправить на переобучение - я сходу не нашел. Ну это ладно. Факт в том, что после деактивации Spamprotexx проблемы с таймаутами в аутлуке ушли, и она смогла нормально получить остаток почты.

03.03.2005 21:09 | пишет Андрей Черезов | ссылка

Очепятка "будет" -> "будит" :) Кстати, эти 100 писем SP потрошил почти час - наверное из-за таймаутов в аутлуке.

Далее, про базу. У меня тоже в PopFile за последние полгода распухла не сильно. 50 мег набралось за 3 года.

В каком файле, кстати, исходная база лежит?

Сегодня написал мне коллега, прочитал про вашу программу в наших антиспам новостях. У него Spamprotexx увидел почту через IMAP/SSL, так что это только у меня пока не заработало. Возможно из-за Thunderbird - что-то в его манере работы с IMAP протеху не нравится?

ОК, дальнейшее обсуждение можно перенести в почту. Вижу ваше письмо, Андрей.

03.03.2005 22:25 | пишет Dima | ссылка

А мне никто писем не пишет. Только спам приходит. Я люблю читать спам. И иногда заказываю что нибудь - потому что прикольно бывает. Без спама мне было бы грустно.

03.03.2005 22:28 | пишет Vetal | ссылка

По поводу работы с IMAP - для этого протокола сообщения в subject не помечаются. Создается на сервере папка, которая по умолчанию называется SPAM. В нее перемещаются все сообщения, распознанные как спам. Thunderbird эту созданную папку судя по всему сразу не отображает как и большинство других почтовых клиентов. Поэтому требуется снова закачать список папок с сервера и выбрать эту новую для синхронизации. Это кстати один из типичных вопросов и он освещен в справке и FAQ (http://spamprotexx.ru/support/faq.shtml).
По поводу таймаутов - действительно, на медленных каналах при приеме больших писем может случиться что значение по умолчанию для почтового клиента будет превышено, потому что SpamProtexx не отдает сообщение пока не примет его полностью. Нужно просто увеличить таймаут для учетной записи до максимального значения.
По поводу ложных срабатываний - сразу после включения фильтра они можно сказать неизбежны. Начните обучать фильтр и следите за статистикой. Нужные значения будут достигнуты очень быстро.

04.03.2005 07:50 | пишет Андрей Черезов | ссылка

> Thunderbird эту созданную папку судя по всему сразу не отображает как и большинство других почтовых клиентов.

Моих Thunderbir'овских SSL-сессий Spamprotexx вообще не видит. А у жены Outlook.

> Создается на сервере папка, которая по умолчанию называется SPAM. В нее перемещаются все сообщения, распознанные как спам.

В какой момент он это делает? На сервере папка spam есть и так. Но попыток перемещения туда сообщений в логе сервера не вижу. Идут сплошные FETCH - в том порядке, в котором они и в логе Спампротекса указаны, и между ними нет команд COPY или других намеков на попытку перемещения писем. И в аутлуке письма остались в inbox'е.

> По поводу таймаутов - действительно, на медленных каналах при приеме больших писем

Канал у меня хороший (мы в нашем городе - старейшие провайдеры, дома толстая выделенка :), письма небольшие. И после отключения Спампротекса почта прилетела на ура.

> По поводу ложных срабатываний - сразу после включения фильтра они можно сказать неизбежны. Начните обучать фильтр и следите за статистикой. Нужные значения будут достигнуты очень быстро.

А это я и сам знаю, три года счастлив с байесом :)

04.03.2005 07:54 | пишет Андрей Черезов | ссылка

Кстати, о таймаутах. PopFile для борьбы с таймаутами выдает клиенту спец-заголовки в начале письма, чтобы клиент не отключался, пока PopFile принимает и классифицирует письмо. Это при работе в режиме Pop3proxy.

04.03.2005 08:19 | пишет Андрей Черезов | ссылка

Ашманов> "Именно потому, что байесовские фильтры все на одно лицо и алгоритм их известен каждой собаке, спамеры из довольно легко замусоривают и обходят."

Игорь, против этого есть столь же легкий детский прием: перед переклассификацией сообщения в категорию "спам" провести классификацию "а не является ли это УЖЕ спамом при текущем состоянии словарей". И не трогать базы, если письмо уже и так считается спамом. Конечно, в моей 50мб базе мусора полно (полезного! :), но рост базы экспоненциально снижается со временем. В обсуждении на вашем сайте я показал - для обучения PopFile распознавать 180 вирусов не нужно все 180 писем крошить и засовывать в базу, т.к. уже после 6й переклассификации все оставшиеся файлы уже классифицируются как вирусы! У меня вообще ни на байт не увеличился размер базы во время этой операции - видно PopFile просто увеличивал счетчики, не добавляя слов, или у SQLite хватило места в пределах выделенных страниц. (Притом что суммарный объем этих вирусов аж 58 мег - большие вирусы были в 2001м году :) Более того, база у меня с января не выросла ни на байт.

У нас секретов нет, базу вы получили, можете сами попробовать.

Вам не спамеры базы замусоривают, а вы сами себе - не проверяя текущую классификацию перед добавлением письма.

04.03.2005 13:41 | пишет Ашманов | ссылка

"Игорь, против этого есть столь же легкий детский прием: перед переклассификацией сообщения в категорию "спам" провести классификацию "а не является ли это УЖЕ спамом при текущем состоянии словарей".

Да не может быть? неужели сами придумали такой тонкий ход?!
"Вам не спамеры базы замусоривают, а вы сами себе - не проверяя текущую классификацию перед добавлением письма".

Вы смеётесь, что ли, такие детские советы давать? Андрей, прежде чем советовать, подумайте о том, что мы тут не развлекаемся, как Вы, со своим ящиком, а занимаемся делом, у нас клиентских ящиков больше 25 миллионов.

04.03.2005 15:20 | пишет Ашманов | ссылка

Андрей,
вы лучше расскажите, как байесовким фильтром победить вот такой приём спамеров:
берётся будущее спам-письмо. Каждому слову в письме сопоставляются синонимы, штук этак пять-десять. И при рассылке писем синонимы подставляются по кругу, или случайно, так что каждое письмо уникально. Слова, естественно, в среднем самые обычные. Все специальные термины тоже имеют взаимозаменяемые синонимы.
Главным образом делается это против сигнатур, но и байесовские базы это тоже путает.

04.03.2005 17:09 | пишет Матвеев Андрей | ссылка

> Игорь Ашманов

Дабы не быть голословными, Вы проведеите, простой тест:
возьмите эти письма (думаю у Вас есть несколько десятков экземпляров) одного письма клонированного вышеописанным образом, и пошлите на на адрес Андрея (Черезова) или мой (у меня так же PopFile на сервере работает). И посмотрим, сколько дойдет до адресата, а сколько вернется вам.

04.03.2005 19:52 | пишет Vetal | ссылка

> пишет Ашманов: на тему: Re:
> Андрей,
>
> вы лучше расскажите, как байесовким фильтром победить вот такой приём спамеров:
>
> берётся будущее спам-письмо. Каждому слову в письме сопоставляются синонимы, штук этак пять-десять. И при рассылке писем синонимы подставляются по кругу, или случайно, так что каждое письмо уникально. Слова, естественно, в среднем самые обычные. Все специальные термины тоже имеют взаимозаменяемые синонимы.
>
> Главным образом делается это против сигнатур, но и байесовские базы это тоже путает.

Одна из особенностей байесовского метода в том, что неизвестные слова на классификацию не влияют. Достаточно того чтобы было найдено одно слово, которое часто упоминается в спаме, а все остальные могут быть неизвестными или встречаться одинаково как в нормальных письмах, так и в спаме.
Ну вот такой пример - предположим что в письме 10 слов, каждое из которых может быть представлено одним из 5 синонимов. Как бы эти слова не выбирались, все равно с высокой долей вероятности хотя бы одно из слов каждой группы синонимов встречалось в спаме чаще чем в нормальных письмах. Ну или просто на одном таком письме обучили фильтр, а все остальные слова неизвестны и никогда не встречались. Тогда фильтр распознает одну из вариаций такого письма как спам если встретит хотя бы одно знакомое спамное слово. Вероятность этого для указанных чисел будет 1 - (4/5)^10, что приблизительно составляет 90%. Конечно реальные ситуации сложнее. Но и приведенный пример это такой крайний случай, который на практике не встречался.

04.03.2005 22:33 | пишет Андрей Черезов | ссылка

В общем, часть своих "баг-репортов" беру назад и приношу извинения! Я разобрался, почему он не увидел мою SSL-сессию в Thunderbird: просто на момент запуска SpamProtexx эта IMAP-сессия была уже установлена, и SP не имел шансов внедрить свой поддельный серверный сертификат. Сегодня сначала запустил SP, потом TB, и всё получилось! :)

Два замечания:
1) SP не угадал, какой разделитель IMAP-иерархии используется в моем сервере: используется "/", а папку он создал INBOX.SPAM
(www.eserv.ru/download/spamprotexx_OK.png)
2) Когда я перезапустил TB, чтобы он показал эту папку, какое-то время TB не мог соединиться (www.eserv.ru/download/spamprotexx_conflict.png), хотя гарантирую, что на сервере нет ограничений на к-во подключений с моего IP. Раньше такие сообщения от TB я видел только в отношении серверов новостей fido7.ru. Вот аналогичные сообщения выдавал в первом тесте Outlook.

04.03.2005 22:46 | пишет Андрей Черезов | ссылка

Ашманов> "берётся будущее спам-письмо. Каждому слову в письме сопоставляются синонимы, штук этак пять-десять. И при рассылке писем синонимы подставляются по кругу, или случайно, так что каждое письмо уникально. Слова, естественно, в среднем самые обычные. Все специальные термины тоже имеют взаимозаменяемые синонимы."

Да, примерно этим спамеры и занимаются все эти годы - заменяют свои виагры и прочие "специальные термины" на плохочитабельные "синонимы". Если в письме только такие новоязы, и байесу больше не за что в письме зацепиться, то может это и сработает. Один раз. Но попадет под переклассификацию, и в следующий раз уже сработает против спамера. Поскольку количество _продавабельных_ синонимов у рекламируемых продуктов и услуг все же ограничено, простора тут у спамеров не много - все синонимы уже наверняка попали в базу за 3 года. Мы ведь вручную никаких спам-слов в базу не вставляем - байес именно так и обучается. Он не знает, что его пытаются обмануть, что это какие-то трюки с синонимами - он просто считает свои вероятности. Редкие слова, кстати, _повышают_ шансы письма быть правильно узнанным! Так что трюки с синонимами полезны байесу - чем быстрее трюкач переберет свой словарь, тем быстрее он обучит наш фильтр :)

04.03.2005 23:00 | пишет Андрей Черезов | ссылка

Вот, нашел пример раскраски (сделана PopFile) спам-письма.

www.eserv.ru/download/spam_color.html

цвет класс
magenta SPAM
red PERSONAL
green CLEAR
blue ESERV
black UNCLASSIFIED
brown FORTH (разработка)
orange NEWS

PopFile не учитывает русские словоформы и кодировки, и это тоже, как ни странно, плюс.

Особенно мне понравилось в этом примере - слова "торговое, промышленное, сельскохозяйственное предприятия"! :-)) Прямо социальные выводы можно делать:
торговцы - спамеры
промышленники - нет
сельское хозяйство - вообще не использует email, байес за три года такого слова не увидел :)

05.03.2005 09:12 | пишет Ашманов | ссылка

Нет, Андрей, не всё так просто. То есть, конечно, ответ на любой вопрос "байес всё превозмогёт" - это абсолютный аргумент. Но я не про иделогию велия байеса, а про реальную ситуацию в рунетовской посчте - мы видим чуть не половину всей почты в Рунете.

Так вот, речь не о плохо читаемых "синонимах" с удвоенными буквами, их-то как раз легко засечь - ибо у них характеристическая функция очень хорошая - они не встречаются в нормальной почте. А речь об использовании обычных слов для создания уникальных писем.

Каждое новое письмо приходит с новой комбинацией ОБЫЧНЫХ слов, статистика которых в данный момент не отличается от обычных текстов, в этом-то и проблема. Как только вы обучитесь этому письму, данные слова станут считаться спамерскими.
Но а) вообще-то они не спамерские, б) в новом письме - совершенно другие слова, тоже обычные. И нужна другая статистика, а её как раз нет. И так далее.

05.03.2005 10:19 | пишет Андрей Черезов | ссылка

Не могу понять я вашу мысль, пока не увижу в своем инбоксе такой поток спама...

Байес не знает - обычные это слова или необычные, он еще не настолько очеловечился... А о том, что ожно и то же слово он у меня относит в три разные категории одновременно - см. слово "бюджет" в раскраске по урлу выше.

Спамеру нужно уважить клиента - продать товар, и сильно заумные пере-синонимные послания он слать не будет, т.к. получатель не поймет, и ничего не купит. Чтобы пробить мой фильтр ему нужно написать что-нибудь с сельскохозяйственными синонимами (см. выше), например. "Наш продукт на букву Ви..ра поднимет удои вашей сельскохозяйственной коровы или еще чего-нибудь промышленное ниже пояса"... Но продаст ли это виагру - еще вопрос. Если будут писать такой спам, то будет даже интересно его почитать :) Давненько народ не читал эзопов язык.

Собственно я сюда зашел по другому поводу: играл сегодня всю ночь со SpamProtexx'ом (без TDI, через API :) - хорошая вещь. Он еще себя покажет.

05.03.2005 10:33 | пишет Андрей Черезов | ссылка

Лучше так: "Муж на час устойчиво подавит адаптивный хаос плановой сельскохозяйственной неопределенности." (из примера www.eserv.ru/download/files/spam_color.html) - такое тоже должно пройти, даже без синонимов :)

Жалко что спамеры не используют эти попфайловые раскраски, ссылки на которые Eserv выдает им ежедневно тысячами. Почта была бы веселее.

05.03.2005 10:40 | пишет Андрей Черезов | ссылка

Мне кажется, все эти разговоры о суперпрофессиональных спамерах, упорно ищущих новые лазейки в антиспамах - это больше страшилки для покупателей антиспамов. На самом деле, если бы спамеры _действительно_ взялись за дело серьезно, нам бы не было так легко это фильтровать... Но разве те, кто _действительно_ умеет работать, не найдут себе более оплачиваемого менее криминального занятия?

05.03.2005 12:34 | пишет Андрей Калинин, он же студент-двоечник | ссылка

Однако, какая острая дискуссия...

Боюсь, что я сейчас просто зрительно что-то пропустил и заранее извинияюсь, если кому что не ответил.

Про сложную формулу
=====================

В спамтесте нет сложной формулы; точнее, веса-то конечно как-то считаются, только это совершенно неинтересно общественности и, честно говоря, не влияет на качество распознавания; само программное обеспечение фильтра в нашем случае не важно. Тут явно путают два вида классификаторов: самообучающиеся классификаторы, и классификаторы основанные на инженерии знаний. Вот в случае спамтеста используется инженерия знаний, где в качестве инженера знаний выступают специально обученные лингвисты. Естественно, что кроме лингвистических знаний, они имеют еще и дополнительные знания о почте, но все-таки лингвистическое образование у нас считается приоритетным, потому что, в конце-концов, они работают с текстом и именно текст требует наиболее бережного обращения с собой. Инженер знаний имеет свое рабочее место, которое позволяет ему тонко настраивать громадное количество параметров собственно классификатора. Поэтому "формула спамтеста", на самом деле, достаточно проста: мы опираемся прежде всего на "естественный интеллект" своих лингвистов, которые используют ПО фильтра для описания своих знаний о спаме в _нашем_ его понимании.

Исторически, классификаторы, основанные на самообучении, появились от бедности: для некоторых задач и некоторых условий, требующих первичной автоматической классификации документов, было дорого нанимать инженера знаний (то есть, специалиста как в предметной области, так и в построении правил для классификатора), потому разрабатывались классификаторы, не требующие специальной подготовки для их настройки. Обучение классификатора, на самом деле, это использование в качестве инженера знаний эксперта в предметной области (в данном случае, обладателя тайного знания о том, что является спамом, а что --- нет). При этом, понятно, что классификатор, кропотливо подготовленный инженером знаний, будет дороже (как по цене его создания, так и по цене его дальнейшей поддержке), но будет точнее. Классификатор, построенный с использованием самообучения, будет сильно дешевле, но при этом менее точным.

Точность классификации
=========================

Таким образом, в обсуждаемой статье содержется утверждение, что появилась некоторая магическая формула, которая позволяет присваивать категории документам с точностью 99.(9)%. Такого быть не может, по достаточно простой причине: сам объект классификации, то есть человеческий текст, не поддается машинной обработке с такой точностью. Точнее, среди лингвистов так же существуют разные мнения на этот счет, но мнение прагматическое заключается прежде всего в том, что достичь подобной точности можно только в случае полной эмуляции человеческого сознания, куда входит его воспитание, память за все прожитые годы, прочитанные книги, окружение и т.п. Вот такой классификатор будет работать с заявленной точностью.

Причем любая задача, связанная с обработкой текста, будет упираться в этот предел: 100%-ная точность достижима только при построении полной и точной копии человека, так сказать, его электронного клона.

При этом, я, конечно же, признаю, что могут существовать самые разнообразные флуктуации на конкретных почтовых ящиков. И разработчики spamprotexx'а это подтверждают следующими цитатами:

"Никто и не утверждает что итоговая цифра точна в _общем_ случае."

Так для какого же случая была дана оценка "более 99%"?

Или вот эта цитата:

"У каждого пользователя свой набор писем и естественно бессмысленно пытаться обучить фильтр так, чтобы он сразу выдавал отличные цифры качества классификации для всех. Но в том что указанные цифры достижимы
можно легко убедиться."

Подчеркну слово "достижимы". А меня интересуют именно средние числа, по которым можно оценивать применимость метода. Всегда и везде будут существовать потоки почты, которые можно защитить хотя бы одним простым правилом, верно? Если есть пользователь Петя, и у него 10 друзей, с которыми он договорился об особенном коде в сабжекте (допустим), или вообще об электронном подписывании всех писем, которыми они обмениваются, то они получат 100%-ную фильтрацию спама при отсутствии ложных срабатываний. Но этот метод нельзя рекомендовать всем, потому что ситуация в каждом почтовом ящике своя.

Опять же, использование формальных признаков в почте (технической информации), которая не обладает тяжелыми свойстами обычного текста, повысит точность классификатора, но не настолько, потому что сложные случаи сами по себе составляют громадную часть спама: приглашения на семинары, предложения туристических фирм и т.д.

Далее, ссылки на алгоритм SpamProtexx'а несколько удивительны --- он мне неизвестен. Потому приводить его в качестве аргумента очень странно --- сказали, что Байесовский, на это и опираемся.

Свойства продукта
====================

Все перечисленные Вами достоинства продукта (поддержка SSL-соединений, к примеру), опять же вытекают исключительно из его архитектуры. Устроен как прокси? Значит, действительно, встает проблема SSL-соединений. Но ведь среди громадного количества байесовских фильтров существуют попросту плагины в почтовые клиенты. Для них проблемы SSL-соединений, насколько я понимаю, нет.

То есть, Вы пытаетесь представить свойства выбранной архитектуры продукта как его достоинства? Еще более удивительно.

Синонимы
==========

Вот пример одного из спамеров, которыми пугают пользователей антиспамерских программ:

http://www.spamtest.ru/weblog.html?discuss=19781

Severa, по слухам, есть один из ведущих спамеров. Во всяком случае, человек под этим ником ведет самый известный спамерский форум.

Зачем им это надо --- другой вопрос. Я думаю, что неправильно ставить себя на их место, ведь мы этим не занимаемся? Спамеры пишут свое специализированное ПО, развивают его (скорость рассылки за последнее время увеличилась), заказывают разработку троянских коней... Думаю что это просто такое воспитание, культура, образ мыслей, который нам не понять из-за принципиальных отличий :-)

Возвращаясь к проблеме с синонимами. Она заключается, в конечном итоге, именно в том, что НБК действительно будет обучаться на всей лексике, используемой спамерами. А так как они имеют возможность обучить спамерский фильтр более богато, чем обычная почта (просто количественно), то из-за этого будут расти и ложные срабатывания. Я так думаю, что рассылаемые спамерами время от времени письма, содержащие в себе просто цитаты текстов, появляются не только из-за простоя мощностей, но именно направлены на замусоривание самообучающхся классификаторов. Опять же, умный пользователь не будет обучать свой фильтр таким письмом; глупый (или просто не понимающий, что делает) --- обучит и получит в дальнейшем ложные срабатывания.

Еще раз про применимость НБК
================================

Коллеги, я хочу еще раз повторить свое мнение про НБК и вообще про любые методы с автоматическим обучением. Я считаю их полезными средствами персональной защиты от спама, но только в составе более сложной, многокритериальной антиспамерской системы. Среди бесплатных фильтров таким является SpamAssassin.

05.03.2005 13:21 | пишет Олег | ссылка

Эту дискуссию интересно читать, много математических подробностей. Странно, что такой критерий для оценки антиспама как "удобство для пользователя" просто позабыт. А по этому критерию антиспам на клиенте не идет ни в какое сравнение с антиспамом на сервере.
Чем меньше спама и вирусов будет доходить до пользователя, тем меньше смысла будет в их рассылке. Конечно, как очередная программка-игрушка персональный антиспам имеет спрос, но для очень ограниченного круга людей. В большинстве своем рядовые пользователи справедливо считают, что сбрасывая на них проблему спама, вирусов и хакеров, провайдеры, что называется, перекладывают с больной головы на здоровую.

05.03.2005 14:23 | пишет Ашманов | ссылка

Вот дословно пример из постинга спамера Северы в наш форум на Спамтесте, чтобы по ссылке не ходить:

"...
Ну вот например шаблон, который я использую. Я не претендую на носителя языка, да и число вариантов можно увеличить в каждой позиции. И шаблонов сделать много и менять их часто. Важно - сама идея. Считаю себя ее создателем на практике, нигде о ней не писал еще, но думаю вы ее предугадывали, да и конкуренты все равно не дремлют, дойти до нее не сложно. Русского спама по ней еще не делал, ибо лень, рынок в десятки раз меньше.
Могу нанять пару лингвистов и начать. Надо ?

`These Our` `pills lozenges tablets` are `merely simply just only` `like similar equal` `typical standard regular usual normal` `pills lozenges tablets` but they
are `specially especially` `explicated formulated developed` to be `soft coddled pampered spoiled pliable pliant supple` and `dissolvable soluble`
`under below` the `tongue lingua glossa clapper`. The `pills lozenges tablets` is `absorbed sorbed took_up` at the `mouth oral_cavity oral_fissure rima_oris`
and `enters comes_in gets_into gets_in goes_into goes_in moves_into` the `bloodstream blood fluid` `directly straight direct instantly straightaway in_real_time at_once` `rather instead alternatively` of `going moving running acting advancing proceeding progressing rising`
`through through_with` the `stomach tummytum breadbasket`. This `results effects` in a `faster quicker speedy` `more much_more`
`powerful strong mighty vigorous potent` `consequence effect outcome result event issue upshot` which `still run even yet` up to `2 3 4``1 2 3 4 5 6 7 8 9` hours!

Welcome to hell. Напишите мне в ответ что-нибудь полезное, плиз. Я за обмен информацией, это позволит вам лучше фильтровать, а я буду очень рад за вас.

ЗЫ. По нормальным базам процент доставки, при котором спаммер окупается и получает прибыль, составляет 1-2%. Обеспечить такое качество фильтрации, чтобы вытеснить его из зоны окупаемости, теоретически невозможно.
..."

05.03.2005 14:53 | пишет Экспериментатор | ссылка

To Андрей Калинин: Человеческий мозг не обладает 100% точностью, более того уровень ошибок сильно зависит от внешних факторов, как то настроение, утомление, головная боль, погода за окном.

Если посадить человека и дать 1000 писем в которых спам явно выделяется из нормальной почты (для чистоты эксперимента, письма со спамом могут содержать SPAM, нормальные - MAIL), то уровнь ошибок в конечном итоге будет заметен. При том, что для каждого конкретного письма точность определения 100%. Неужели, вы сами не ловили себя на том, что отправляйте письмо без спама в спам папку, прекрасно понимая, что это не спам, но совершая ошибку, которую осознаете после совершения действия.

Для чистоты эксперемента, письма со спамом могут содержать SPAM, нормальные - MAIL.

05.03.2005 17:52 | пишет Виталий Сидоров, он же Vetal :) | ссылка

> пишет Андрей Калинин, он же студент-двоечник: на тему: Re: Однако
> Про сложную формулу
>
> =====================
>
>
> В спамтесте нет сложной формулы; точнее, веса-то конечно как-то считаются, только это совершенно неинтересно общественности и, честно говоря, не влияет на качество распознавания; само программное обеспечение фильтра в нашем случае не важно. Тут явно путают два вида классификаторов: самообучающиеся классификаторы, и классификаторы основанные на инженерии знаний. Вот в случае спамтеста используется инженерия знаний, где в качестве инженера знаний выступают специально обученные лингвисты. Естественно, что кроме лингвистических знаний, они имеют еще и дополнительные знания о почте, но все-таки лингвистическое образование у нас считается приоритетным, потому что, в конце-концов, они работают с текстом и именно текст требует наиболее бережного обращения с собой. Инженер знаний имеет свое рабочее место, которое позволяет ему тонко настраивать громадное количество параметров собственно классификатора. Поэтому "формула спамтеста", на самом деле, достаточно проста: мы опираемся прежде всего на "естественный интеллект" своих лингвистов, которые используют ПО фильтра для описания своих знаний о спаме в _нашем_ его понимании.
>
>
> Исторически, классификаторы, основанные на самообучении, появились от бедности: для некоторых задач и некоторых условий, требующих первичной автоматической классификации документов, было дорого нанимать инженера знаний (то есть, специалиста как в предметной области, так и в построении правил для классификатора), потому разрабатывались классификаторы, не требующие специальной подготовки для их настройки. Обучение классификатора, на самом деле, это использование в качестве инженера знаний эксперта в предметной области (в данном случае, обладателя тайного знания о том, что является спамом, а что --- нет). При этом, понятно, что классификатор, кропотливо подготовленный инженером знаний, будет дороже (как по цене его создания, так и по цене его дальнейшей поддержке), но будет точнее. Классификатор, построенный с использованием самообучения, будет сильно дешевле, но при этом менее точным.

Черт. 3 раза перечитал текст выше, все равно не доходит. У вас что, каждое пришедшее письмо вручную классифицируется, лингвистами? :) Да, наверное самый надежный спамфильтр это отдел из чернорабочих, которые проверяют письма перед отправкой пользователям.
Есть конечно методы, которые не считают вероятность, а выдают дискретные значения. На сколько я понимаю у вас экспертная система на основе правил. Средств понапридумано много - нейронные сети, методы на основе цепей Маркова, всякие комбинированные модификации из нескольких методов. Какие уж тут могут быть секреты. Работают эти методы весьма хорошо, но обладают и своими недостатками. Например обучаемый классификатор на цепях Маркова у нас выдавал даже лучшие результаты чем байес. С ним была только одна проблема – большой размер базы. На одной и той же тестовой совокупности результаты сравнения с байесом отличались на несколько процентов в пользу цепей. Но размер базы был раз в 10 больше. Для клиентского решения это очень важный параметр, поэтому было решено этими процентами пожертвовать. Для серверного решения это не вопрос, но, как уже было упомянуто, серверными фильтрами мы не занимались. Пока не занимались :)

>
> Точность классификации
>
> =========================
>
>
> Таким образом, в обсуждаемой статье содержется утверждение, что появилась некоторая магическая формула, которая позволяет присваивать категории документам с точностью 99.(9)%. Такого быть не может, по достаточно простой причине: сам объект классификации, то есть человеческий текст, не поддается машинной обработке с такой точностью. Точнее, среди лингвистов так же существуют разные мнения на этот счет, но мнение прагматическое заключается прежде всего в том, что достичь подобной точности можно только в случае полной эмуляции человеческого сознания, куда входит его воспитание, память за все прожитые годы, прочитанные книги, окружение и т.п. Вот такой классификатор будет работать с заявленной точностью.
> Причем любая задача, связанная с обработкой текста, будет упираться в этот предел: 100%-ная точность достижима только при построении полной и точной копии человека, так сказать, его электронного клона.

Довольно спорное утверждение о преимуществе фильтрации с использованием методов на основе здравого смысла. Скажем спам в котором предлагают какой-нибудь Adobe Photoshop за $10 или предлагают установить апдейт к Windows из аттача. С точки зрения здравого смысла вроде как все нормально, вдруг действительно хорошее предложение от честных людей :) Ан нет, злой спам. С другой стороны такое же коммерческое предложение только от нормального вендора может быть ожидаемым и никакого отношения к спаму не иметь. Ох и сложная это задача, ловить оттенки смысла и пытаться сделать такой вот умный классификатор вручную.

> При этом, я, конечно же, признаю, что могут существовать самые разнообразные флуктуации на конкретных почтовых ящиков. И разработчики spamprotexx'а это подтверждают следующими цитатами:
>
>
> "Никто и не утверждает что итоговая цифра точна в _общем_ случае."
>
>
> Так для какого же случая была дана оценка "более 99%"?

Для обученного фильтра на письмах _конкретного_ пользователя. На письмах другого пользователя без дополнительного обучения та же база классификатора может давать другие результаты.

>
> Или вот эта цитата:
>
>
> "У каждого пользователя свой набор писем и естественно бессмысленно пытаться обучить фильтр так, чтобы он сразу выдавал отличные цифры качества классификации для всех. Но в том что указанные цифры достижимы
>
> можно легко убедиться."
>
>
> Подчеркну слово "достижимы". А меня интересуют именно средние числа, по которым можно оценивать применимость метода. Всегда и везде будут существовать потоки почты, которые можно защитить хотя бы одним простым правилом, верно? Если есть пользователь Петя, и у него 10 друзей, с которыми он договорился об особенном коде в сабжекте (допустим), или вообще об электронном подписывании всех писем, которыми они обмениваются, то они получат 100%-ную фильтрацию спама при отсутствии ложных срабатываний. Но этот метод нельзя рекомендовать всем, потому что ситуация в каждом почтовом ящике своя.

Задача об усреднении стоит только для серверных решений без обучения. Вы ими занимаетесь, вот и решайте :)

>
> Далее, ссылки на алгоритм SpamProtexx'а несколько удивительны --- он мне неизвестен. Потому приводить его в качестве аргумента очень странно --- сказали, что Байесовский, на это и опираемся.

А для меня удивительны попытки рассуждать о характеристиках алгоритма, который вам неизвестен, так же как и сами характеристики. Впрочем не важно, ваша позиция понятна. Я изначально написал, что у нас _клиентское_ решение и постановки задачи у нас с вами разные.

>
> Свойства продукта
>
> ====================
>
>
> Все перечисленные Вами достоинства продукта (поддержка SSL-соединений, к примеру), опять же вытекают исключительно из его архитектуры. Устроен как прокси? Значит, действительно, встает проблема SSL-соединений. Но ведь среди громадного количества байесовских фильтров существуют попросту плагины в почтовые клиенты. Для них проблемы SSL-соединений, насколько я понимаю, нет.

У нас тоже нет :) Кроме того, не все почтовые клиенты поддерживают плагины. Скажу больше, только Outlook позволяет получать через свой интерфейс всю необходимую для качественной фильтрации информацию. А это ведь не единственный популярный почтовый клиент.

> То есть, Вы пытаетесь представить свойства выбранной архитектуры продукта как его достоинства? Еще более удивительно.

Да, есть в этой архитектуре вполне очевидные достоинства. Одно из них – возможность обучения через посылку в аттаче сообщений на определенные адреса. Удобнее, чем как в POPFile лазить в его гуй чтобы переобучить фильтр.

>
> Синонимы
>
> ==========
>
> Возвращаясь к проблеме с синонимами. Она заключается, в конечном итоге, именно в том, что НБК действительно будет обучаться на всей лексике, используемой спамерами. А так как они имеют возможность обучить спамерский фильтр более богато, чем обычная почта (просто количественно), то из-за этого будут расти и ложные срабатывания. Я так думаю, что рассылаемые спамерами время от времени письма, содержащие в себе просто цитаты текстов, появляются не только из-за простоя мощностей, но именно направлены на замусоривание самообучающхся классификаторов. Опять же, умный пользователь не будет обучать свой фильтр таким письмом; глупый (или просто не понимающий, что делает) --- обучит и получит в дальнейшем ложные срабатывания.

Ошибаетесь. От обучения на таком письме проблема будет только с наивной реализацией. Более умное решение поправит коэффициенты для неспамных писем так, чтобы база не испортилась. Впрочем зря я это пишу. Наверное :)

05.03.2005 18:34 | пишет Виталий Сидоров | ссылка

> 05.03.2005 13:23
> пишет Ашманов: на тему: Письма -мутанты
>Вот дословно пример из постинга спамера Северы в наш форум на Спамтесте, чтобы по ссылке не ходить:
>"...
>Ну вот например шаблон, который я использую. Я не претендую на носителя языка, да и число … “

Алгоритм на моей базе распознал это письмо как спам с вероятностью 98%. Вот лог:

Word: these, Spam prob: 0,546548, Ns-Nh: 35-29
Word: pills, Spam prob: 0,934783, Ns-Nh: 3-0
Word: lozenges, Spam prob: 0,500000, Ns-Nh: 0-0
Word: tablets, Spam prob: 0,500000, Ns-Nh: 0-0
Word: merely, Spam prob: 0,775229, Ns-Nh: 4-1
Word: simply, Spam prob: 0,528389, Ns-Nh: 37-33
Word: just, Spam prob: 0,776912, Ns-Nh: 112-32
Word: only, Spam prob: 0,574435, Ns-Nh: 212-157
Word: like, Spam prob: 0,591251, Ns-Nh: 165-114
Word: similar, Spam prob: 0,543668, Ns-Nh: 6-5
Word: equal, Spam prob: 0,155172, Ns-Nh: 0-1
Word: typical, Spam prob: 0,844828, Ns-Nh: 1-0
Word: standard, Spam prob: 0,256839, Ns-Nh: 4-12
Word: regular, Spam prob: 0,500000, Ns-Nh: 2-2
Word: usual, Spam prob: 0,500000, Ns-Nh: 5-5
Word: normal, Spam prob: 0,106987, Ns-Nh: 1-10
Word: they, Spam prob: 0,517153, Ns-Nh: 45-42
Word: specially, Spam prob: 0,155172, Ns-Nh: 0-1
Word: especially, Spam prob: 0,500000, Ns-Nh: 3-3
Word: explicated, Spam prob: 0,500000, Ns-Nh: 0-0
Word: formulated, Spam prob: 0,908163, Ns-Nh: 2-0
Word: developed, Spam prob: 0,828407, Ns-Nh: 25-5
Word: soft, Spam prob: 0,500000, Ns-Nh: 0-0
Word: coddled, Spam prob: 0,500000, Ns-Nh: 0-0
Word: pampered, Spam prob: 0,500000, Ns-Nh: 0-0
Word: spoiled, Spam prob: 0,500000, Ns-Nh: 0-0
Word: pliable, Spam prob: 0,500000, Ns-Nh: 0-0
Word: pliant, Spam prob: 0,500000, Ns-Nh: 0-0
Word: supple, Spam prob: 0,844828, Ns-Nh: 1-0
Word: dissolvable, Spam prob: 0,500000, Ns-Nh: 0-0
Word: soluble, Spam prob: 0,500000, Ns-Nh: 0-0
Word: under, Spam prob: 0,439210, Ns-Nh: 7-9
Word: below, Spam prob: 0,627625, Ns-Nh: 76-45
Word: tongue, Spam prob: 0,500000, Ns-Nh: 0-0
Word: lingua, Spam prob: 0,500000, Ns-Nh: 0-0
Word: glossa, Spam prob: 0,500000, Ns-Nh: 0-0
Word: clapper, Spam prob: 0,500000, Ns-Nh: 0-0
Word: absorbed, Spam prob: 0,844828, Ns-Nh: 1-0
Word: sorbed, Spam prob: 0,500000, Ns-Nh: 0-0
Word: took_up, Spam prob: 0,500000, Ns-Nh: 0-0
Word: mouth, Spam prob: 0,978469, Ns-Nh: 10-0
Word: oral_cavity, Spam prob: 0,500000, Ns-Nh: 0-0
Word: oral_fissure, Spam prob: 0,500000, Ns-Nh: 0-0
Word: rima_oris, Spam prob: 0,500000, Ns-Nh: 0-0
Word: enters, Spam prob: 0,500000, Ns-Nh: 0-0
Word: comes_in, Spam prob: 0,500000, Ns-Nh: 0-0
Word: gets_into, Spam prob: 0,500000, Ns-Nh: 0-0
Word: gets_in, Spam prob: 0,500000, Ns-Nh: 0-0
Word: goes_into, Spam prob: 0,500000, Ns-Nh: 0-0
Word: goes_in, Spam prob: 0,500000, Ns-Nh: 0-0
Word: moves_into, Spam prob: 0,500000, Ns-Nh: 0-0
Word: bloodstream, Spam prob: 0,500000, Ns-Nh: 0-0
Word: blood, Spam prob: 0,724719, Ns-Nh: 3-1
Word: fluid, Spam prob: 0,500000, Ns-Nh: 0-0
Word: directly, Spam prob: 0,834572, Ns-Nh: 11-2
Word: straight, Spam prob: 0,500000, Ns-Nh: 0-0
Word: direct, Spam prob: 0,660643, Ns-Nh: 8-4
Word: instantly, Spam prob: 0,275281, Ns-Nh: 1-3
Word: straightaway, Spam prob: 0,500000, Ns-Nh: 0-0
Word: in_real_time, Spam prob: 0,500000, Ns-Nh: 0-0
Word: at_once, Spam prob: 0,500000, Ns-Nh: 0-0
Word: rather, Spam prob: 0,595694, Ns-Nh: 6-4
Word: instead, Spam prob: 0,451100, Ns-Nh: 9-11
Word: alternatively, Spam prob: 0,500000, Ns-Nh: 0-0
Word: moving, Spam prob: 0,532362, Ns-Nh: 8-7
Word: running, Spam prob: 0,439077, Ns-Nh: 25-32
Word: acting, Spam prob: 0,500000, Ns-Nh: 0-0
Word: advancing, Spam prob: 0,500000, Ns-Nh: 0-0
Word: proceeding, Spam prob: 0,500000, Ns-Nh: 0-0
Word: progressing, Spam prob: 0,500000, Ns-Nh: 0-0
Word: rising, Spam prob: 0,844828, Ns-Nh: 1-0
Word: through, Spam prob: 0,643266, Ns-Nh: 11-6
Word: through_with, Spam prob: 0,500000, Ns-Nh: 0-0
Word: stomach, Spam prob: 0,949438, Ns-Nh: 4-0
Word: tummytum, Spam prob: 0,500000, Ns-Nh: 0-0
Word: breadbasket, Spam prob: 0,500000, Ns-Nh: 0-0
Word: results, Spam prob: 0,494008, Ns-Nh: 41-42
Word: effects, Spam prob: 0,500000, Ns-Nh: 1-1
Word: faster, Spam prob: 0,595694, Ns-Nh: 6-4
Word: quicker, Spam prob: 0,500000, Ns-Nh: 1-1
Word: speedy, Spam prob: 0,500000, Ns-Nh: 0-0
Word: more, Spam prob: 0,385932, Ns-Nh: 15-24
Word: much_more, Spam prob: 0,500000, Ns-Nh: 0-0
Word: powerful, Spam prob: 0,934783, Ns-Nh: 3-0
Word: mighty, Spam prob: 0,500000, Ns-Nh: 0-0
Word: vigorous, Spam prob: 0,500000, Ns-Nh: 0-0
Word: potent, Spam prob: 0,844828, Ns-Nh: 1-0
Word: consequence, Spam prob: 0,500000, Ns-Nh: 0-0
Word: effect, Spam prob: 0,355072, Ns-Nh: 1-2
Word: outcome, Spam prob: 0,934783, Ns-Nh: 3-0
Word: result, Spam prob: 0,434319, Ns-Nh: 13-17
Word: event, Spam prob: 0,311543, Ns-Nh: 13-29
Word: issue, Spam prob: 0,429329, Ns-Nh: 18-24
Word: upshot, Spam prob: 0,844828, Ns-Nh: 1-0
Word: which, Spam prob: 0,536731, Ns-Nh: 29-25
Word: still, Spam prob: 0,704499, Ns-Nh: 17-7
Word: run, Spam prob: 0,259036, Ns-Nh: 3-9
Word: even, Spam prob: 0,577580, Ns-Nh: 37-27
Word: hours, Spam prob: 0,155172, Ns-Nh: 0-1

Results: Spam = 0,982972, NonSpam = 0,017028

05.03.2005 19:55 | пишет Andrew Okunev | ссылка

"Исторически, классификаторы, основанные на самообучении, появились от бедности: для некоторых задач и некоторых условий, требующих первичной автоматической классификации документов, было дорого нанимать инженера знаний (то есть, специалиста как в предметной области, так и в построении правил для классификатора), потому разрабатывались классификаторы, не требующие специальной подготовки для их настройки."

Это утверждение равносильно утверждению о том, что НТР появился от бедности. Да, было дорого платить людям - придумали машины. Возможно, оба утверждения верны, но какой из этого надо сделать вывод я не понял.

"При этом, понятно, что классификатор, кропотливо подготовленный инженером знаний, будет дороже (как по цене его создания, так и по цене его дальнейшей поддержке), но будет точнее. Классификатор, построенный с использованием самообучения, будет сильно дешевле, но при этом менее точным."

Почему дороже - понятно (автор аккуратно объяснил выше). Почему точнее - непонятно.

"Таким образом, в обсуждаемой статье содержется утверждение, что появилась некоторая магическая формула, которая позволяет присваивать категории документам с точностью 99.(9)%. Такого быть не может, по достаточно простой причине: сам объект классификации, то есть человеческий текст, не поддается машинной обработке с такой точностью. Точнее, среди лингвистов так же существуют разные мнения на этот счет, но мнение прагматическое заключается прежде всего в том, что достичь подобной точности можно только в случае полной эмуляции человеческого сознания, куда входит его воспитание, память за все прожитые годы, прочитанные книги, окружение и т.п. Вот такой классификатор будет работать с заявленной точностью."

Это полемика. У нас есть конкретные результаты, которые мы здесь приводим.

"То есть, Вы пытаетесь представить свойства выбранной архитектуры продукта как его достоинства? Еще более удивительно."

Виталий отвечал на конкретную реплику, где было сказано, что продуктов на базе баеса - сотни, и что все они такие же хорошие, как протех. На что Виталий справедливо возразил, перечислив ОБЪЕКТИВНЫЕ достоинства нашего фильтра, ни слова не сказав про архитектуру. Цитирую:

"Работа со всеми почтовыми клиентами, фильтрация POP3, IMAP, обучение через SMTP, прозрачная фильтрация SSL соединений, отсутствие необходимости каких либо изменений в настройках почтового клиента. Назовите хоть один фильтр, который умеет то же самое."

Пожалуйста, назовите.

А почему нельзя свойства архитектуры представлять как достоинства продукта я не понял. Объясните плиз.

"Думаю что это просто такое воспитание, культура, образ мыслей, который нам не понять из-за принципиальных отличий :-)"

Кроме того, я уверен на 100%, что это безумно выгодно.

"Подчеркну слово "достижимы". А меня интересуют именно средние числа, по которым можно оценивать применимость метода."

Нет их на данный момент. Мы статистику с инсталляций не собираем и не уверен, что будем это делать. Есть данные о конкретных инсталляциях, которые приводились выше.

Вот мои цифры:

False Positives: 0,13%
False Negatives: 0,29%

Статистика ведется с июля прошлого года, когда продукт еще ходил в бетах. Всего 281 тысяча писем.

Укладывается в 99%? Вроде бы да. При этом раз в день я дообучаю фильтр штуках этак на 10 спамов (порог срабатывания установлен на 85%). Почта самая разная - и техническая, и бизнес, и личная.

Это конкретные цифры. Никакой теории и полемики. Я даже толком не знаю, как там вся эта математика работает. :)

И последнее. Лично мне в клиентском решении нравится то, что именно я и только я решаю, что есть спам, а что нет. Это четкое, вполне устойчивое преимущество клиентского обучаемого решения, которое мы готовы аргументировать.

06.03.2005 01:13 | пишет Ашманов | ссылка

Виталий, это было не письмо, а пример шаблона для генерации писем - набор синонимов. Причём синонимов к наугад взятому всем известному спамерскому письму. Вы посмотрите на веса - зачастую первый синоним распознаётся с высоким весом, а остальные - по нулям. Об этом и речь.

06.03.2005 01:31 | пишет Андрей Черезов | ссылка

Андрей Калинин: "100%-ная точность достижима только при построении полной и точной копии человека, так сказать, его электронного клона"

В том-то и дело, что при этом будет достигнута точность всего лишь 98%, т.к. именно такова точность ручной фильтрации спама средним внимательным человеком на больших потоках почты. Об этом неоднократно писалось в западных обзорах автоматических атиспамерских техник.

А вы на 100% уверены в 100% точности ваших ночных лингвистов? ;)

06.03.2005 01:36 | пишет Андрей Черезов | ссылка

Олег> "Странно, что такой критерий для оценки антиспама как "удобство для пользователя" просто позабыт. А по этому критерию антиспам на клиенте не идет ни в какое сравнение с антиспамом на сервере. Конечно, как очередная программка-игрушка персональный антиспам имеет спрос, но для очень ограниченного круга людей. В большинстве своем рядовые пользователи справедливо считают, что сбрасывая на них проблему спама, вирусов и хакеров, провайдеры, что называется, перекладывают с больной головы на здоровую."

Олег, из всех обсуждаемых здесь антиспамов, сервероной версии не было только у SpamProlexx. Но она уже тоже есть, со вчерашего дня. Так что о пользователях мы и сами заботимся, и другим помогаем :)

06.03.2005 07:47 | пишет Андрей Черезов | ссылка

Черт, опять webplanet'а прибила длинный постинг из-за того что URL в письме попался (не на мой сайт, а на спамтестовый! :) А кнопка "назад" увела вообще на предыдущий сайт. Злодеи!

06.03.2005 14:43 | пишет Andrew Okunev | ссылка

"Черт, опять webplanet'а прибила длинный постинг из-за того что URL в письме попался (не на мой сайт, а на спамтестовый! :) А кнопка "назад" увела вообще на предыдущий сайт. Злодеи!"

Бывает. Я, например, выработал у себя привычку выделять весь пост перед сабмитом и копировать в буфер. Сорри за офтоп.

06.03.2005 16:21 | пишет Андрей Черезов | ссылка

У меня тоже такая привычка (иначе бы я многие из предыдущих сообщений не отправил бы :), но перед отправкой этого все-таки скопировал туда еще цитату с урлом, и вот только они и остались в клипборде :(

По теме:
прикрутил ваш SpamProtexx (без TDI) на наш Eserv, учеником к PopFile. Пока полет нормальный. Скоро отчитаюсь подробнее.

07.03.2005 13:47 | пишет Андрей Черезов | ссылка

Отработал SpamProtexx на сервере почти сутки. На пару с PopFile за это время они отклассифицировали 2,169 письма (каждое письмо классифицировали оба), пришедших на 62 адреса в наших доменах. PopFile дал 66 подзатыльников ученику - когда классификация не совпадала, он автоматически обучал SpamProtexx. Распределились эти переобучения так:
SP->PF
unclassified->spam 33
unclassified->clear 15
clear->spam 12
spam->clear 6
Т.е. формально ложных срабатываний SP было 6/2169 (нормальная почта попала бы в спам, если бы SP работал один), "ложных несрабатываний" (пропусков спама) можно считать (33+12)/2169. Итого на конец первого дня обучения в реальных условиях - фильтрация 97% спама, ложных срабатываний 0.3% (перед установкой на сервер фильтру было скормлено 4000 писем из недавней почты, т.е. он был предварительно немножко уже обучен; "родную" базу SP я не ставил).

Время для обучения, правда, выбрано не очень удачно - в выходные мало нормальной почты (в среднем с начала марта не-спама у нас около 14%). Так что погоняем еще несколько дней в таком режиме. На таком к-ве почты рано делать выводы.

Кстати, из этих 66 "обучающих воздействий" PF не везде был прав - пару раз он ошибся. Например, посчитал спамом подробный почтовый лог, который был приложен к письму - PF сработал на спамерский вес доменов в адресах, указанных в логе, а SP считал это не-спамом, т.к. таких доменов еще не видел (базе PF почти 3 года, а базе SP меньше двух дней :).

Главный вывод этих суток - с надежностью у SP все в порядке - ни сбоев в многопоточной работе, ни утечек памяти, ни проблем производительности (размер базы пока 200 килобайт против 50 мег у PF :). Я в этом в общем-то уже и не сомневался, т.к. перед установкой на сервер новых компонентов делаю им жесткие стресс-тесты.

07.03.2005 15:50 | пишет Андрей Черезов | ссылка

Неправильно, конечно, посчитал! Ведь не один спам был сегодня :) Так что ложных срабатываний было больше. И степерь фильтрации тоже. Сейчас пересчитаю с учетом не-спама.

07.03.2005 16:06 | пишет Андрей Черезов | ссылка

Вот на текущий момент, переобучения:
SP, PF
unclassified->spam 33
unclassified->clear 18
clear->spam 13
spam->clear 9
73

Классификация PopFile, всего писем, ошибки SP:
spam 2334 46п
clear 56 27п

Итого ложных срабатываний пока аж 16% - при работе SP без надзора учителя, в спам попали бы 9 из 56 нормальных писем!

08.03.2005 16:22 | пишет mikh | ссылка

что то вы фигню тут понаписали,
для просто пользователя типо меня, все ваши программы борьбы со спамом не приносят должного результата, да и возиться с их обучением влом.
на 100 письм только 2 нужных:
~50% определяются как спам.
1 одно письмо нужное оказывается в спаме.
остальные 50% писем + 1 нужное - в спам не попадают :)
нафига такая программа?
я знаю способ эффективнее - раз в 6 месяцев менять мыло :)

09.03.2005 13:54 | пишет Андрей Черезов | ссылка

Да, мы "эту фигню" не для простого пользователя написали ;)

От дальнейших комментариев про SpamProtexx на сервере воздержусь до окончания тестирования, оно продолжается. Пока через него у нас прошло 6,618 писем для 90 наших ящиков. Этого все еще маловато для надежных выводов.

31.03.2005 07:25 | пишет Андрей Черезов | ссылка

Собственно, отчитываюсь. Все хорошо :) Серверная версия SpamProtexx встроена в текущую версию Eserv/3.20 - www.eserv.ru/EservEproxy320

13.04.2005 19:36 | пишет Прохожий | ссылка

при помощи использования теоремы Байеса более чем оправдано. Уже год на фирме пользователи используют локально спамбайес, все жутко довольны: спам естественно никто не читает, проглядываются только заголовки, это не занимает реально меньше времени, чем чистка спама руками. А процент ложных срабатываний -- несрабатываний субъективно достаточен. Разницы между нажатием кнопки удалить или удалить как спам нет в принципе, поэтому фсе фильтр обучают без напряга. В общем ставим все тот же Байесовский фильтр от мелкомягких на сервер и живем щастливо.:)

29.06.2006 23:47 | пишет | ссылка

<h1>vats?returns factions decrementing admiringly bloodhound - Tons of interesdting stuff!!! </h1>

30.06.2006 01:39 | пишет | ссылка

<h1>repeals derivation?hotness Thursdays bucolic pinnacle implementors - Tons of interesdting stuff!!! </h1>

30.06.2006 11:19 | пишет | ссылка

<h1>intraprocess shots breveting bombarding Houdaille reefer!alginate </h1>

30.06.2006 11:25 | пишет | ссылка

<h1>festively screeches patronage,nineties peacetime pantry affirmative.coarsely, </h1>

30.06.2006 11:29 | пишет | ссылка

<h1>Apetalous,monitors past McDermott Jakes tastefulness </h1>

30.06.2006 16:23 | пишет | ссылка

<h1>Anthony Nikko!liberators boxed unites gleaner!Dallas - Tons of interesdting stuff!!! </h1>

30.06.2006 16:28 | пишет | ссылка

<h1>vindication:wiry!fiery hive.parking attacker skyrockets. </h1>

30.06.2006 16:29 | пишет | ссылка

<h1>healers skyscraper woodchucks:auditioned Ernest Auckland Greenbriar - Tons of interesdting stuff!!! </h1>

30.06.2006 16:32 | пишет | ссылка

<h1>Hilbert spaded:evaluators:context perpetrators disciplines ghastly </h1>

30.06.2006 16:33 | пишет | ссылка

<h1>avoids.sayers:mentally buildups incitement ... Thanks!!! </h1>

30.06.2006 19:13 | пишет | ссылка

<h1>candy?greeted:thyself picosecond?replays recomputing acculturation, </h1>

01.07.2006 02:22 | пишет | ссылка

<h1>taxied,revile sinews invertebrates patriarchal.corporately chunks grassers </h1>

01.07.2006 02:24 | пишет | ссылка

<h1>barnyard Throneberry.ordinariness deliriously!juggles prospers ... </h1>

01.07.2006 02:30 | пишет | ссылка

<h1>hale camouflaging?individualize prohibitive.stammerer suitcase! </h1>

01.07.2006 08:54 | пишет | ссылка

<h1>theorizer Moonlike obstacles amalgamating?planners!shelving bottomless ... </h1>

01.07.2006 08:56 | пишет | ссылка

<h1>reinterpreting inmates intentional Parmesan?vacationer codeine,politically Mollie, </h1>

01.07.2006 09:18 | пишет | ссылка

<h1>garlic blankest quirk reproductions churned effectively martyrdom </h1>

01.07.2006 13:09 | пишет | ссылка

<h1>poets clauses discontinued:humanitarian:engaging musicals starch insightful?redefining </h1>

01.07.2006 13:15 | пишет | ссылка

<h1>degradable Slav Tammanyizes Italianizations Buxton intemperate mane characters postprocess </h1>

01.07.2006 15:31 | пишет | ссылка

<h1>slug backside:mentally revolution appallingly autoindex successively ... Thanks!!! </h1>

01.07.2006 17:25 | пишет | ссылка

<h1>conjugal pragmatist minimizer perusal?sudsing dynasties!speller.Hutchinson Wendy </h1>

01.07.2006 17:26 | пишет | ссылка

<h1>timidity conditioner:terrestrials Ivan Abel chokers . </h1>

01.07.2006 17:57 | пишет | ссылка

<h1>medians declarers figurings equalizers tableau Omaha reconstructs gamble penchant </h1>

02.07.2006 02:14 | пишет | ссылка

<h1>seriousness reassembles chartering dishonest ejaculates bowman helpfully </h1>

02.07.2006 02:46 | пишет | ссылка

<h1>simulators protocol daze barrack.inlets bug - Tons of interesdting stuff!!! </h1>

02.07.2006 03:52 | пишет | ссылка

<h1>perceivable verse McGinnis congregation looker!sport:. </h1>

02.07.2006 04:35 | пишет | ссылка

<h1>essayed envisages.Poland doughnuts,people inexplicable!Yorick </h1>

RSS

Последние комментарии

alexbeast про "Яндекс.Почта" может разжечь межнациональные конфликты (10)

alexbeast про Apple придушил магазин детской одежды (3)

alexbeast про Пылесос поджег атомную станцию (6)

alexbeast про Создатель CSS хочет убить скроллбары (9)

Гость про Суд велел "Твиттеру" сдать сторонников WikiLeaks (12)

Гость про Книгоиздатели начали судиться с торрентами (2)

l_e_x_a про "ВКонтакте" принудительно протестирует пользователей (35)

andrey_kadetov про Google назвал Facebook "ловушкой без выхода" (6)

volv про День папуасского робошахтёра (14)

l_e_x_a про Русские кликботы признаны самыми активными (11)

все комментарии

Вопросы и ответы

задать вопрос

looli спрашивает: Земля вампиров смотреть онлайн в HD качестве

looli спрашивает: Зеленый Фонарь смотреть онлайн в HD качестве

looli спрашивает: Защитник смотреть онлайн в HD качестве

looli спрашивает: Запретная зона смотреть онлайн в HD качестве

looli спрашивает: Замечательная жизнь смотреть онлайн в HD качестве

looli спрашивает: Закон доблести смотреть онлайн в HD качестве

looli спрашивает: Заклинательница акул смотреть онлайн в HD качестве

looli спрашивает: Вышибала смотреть онлайн в HD качестве

looli спрашивает: Встречный ветер смотреть онлайн в HD качестве

looli спрашивает: Все любят китов смотреть онлайн в HD качестве

только вопросы | только ответы
все вопросы и ответы