Потребителям нужен продукт для реальной жизни, а не теоретическая модель

≡ Архив | архивная статья | 31.05.2005 12:34

Евгений Альтовский, координатор проекта «АнтиСпам», комментирует комментарий Игоря Ашманова на предварительную версию отчета о результатах тестирования спам-фильтров «Спамооборона» («Яндекс») и «Спамтест» («Ашманов и Партнеры»).

Публикуя предварительную версию отчета о результатах тестирования спам-фильтров «Спамооборона» и «Спамтест» мы были готовы к тому, что методика и результаты вызовут неоднозначную реакцию.

Кто-то из комментаторов выразил поддержку, кто-то, напротив, раскритиковал отчет. Собственно, в публичном обсуждении и был смысл публикации его предварительной версии. Теперь методика тестирования будет скорректирована с учетом замечаний экспертов, что, впрочем, совсем не гарантирует окончательной версии отчета всеобщего признания.

Однако, в предварительной версии отчета было особо оговорено, что тестирование производилось на реальных сообщениях электронной почты, а не некоем эталонном массиве, который часто используется в подобных целях. Поэтому некоторые замечания, прозвучавшие, скажем в материале "Игорь Ашманов о полевых испытаниях «Спамообороны» и «Спамтеста»", можно объяснить в лучшем случае невнимательностью их авторов.

Комментировать такие упреки, как якобы имеющую место нестыковку приведенных в отчете цифр, особого смысла нет. В задачи авторов отчета не входит чтение курса математики для средней школы. Остановимся лишь на распространенных логических ошибках в интерпретации методики и результатов тестирования.

1. Ашманов в тексте: «пересылка — в любом случае не годится для тестирования, поскольку очень многие правила как в „Спамообороне“, так и в „Спамтесте“ связаны с реальными адресами отправителей и реальным видом письма»

Читаем на сайте «Спамтеста»: "наша технология («Спамтест») на сегодня включает лингвистические методы, основанные на анализе содержания, … лингвистические сигнатуры, … формальные методы, основанные на анализе оформления технических заголовков писем и на наиболее надёжных чёрных списках, … специальные методы детектирования массовых рассылок, … методы распознавания типичных спам трюков, … обработку графических вложений в письма.

Вывод: Ашманов делает упор на том, что технология «Спамтест» в первую очередь использует логический подход (содержание письма и его оформление), затем уже формальный (служебные заголовки и черные списки). Однако на практике оказывается достаточно усложнить заголовок (sic! — именно усложнить, а не подделать) чтобы письмо оказалось в папке «Спам». Возможно, «Спамтест» и разрабатывался для работы в вакууме с дистиллированными письмами, но реальным потребителям нужен продукт для реальной жизни, а не теоретическая модель.

2. Ашманов говорит «насколько можно понять из данного текста, практически все ложные срабатывания на Mail.Ru были связаны с попаданием легитимных рассылок в папку „Сомнительные“ … так вот, скорее всего это — проблема организации пересылки при тестировании».

Здесь Ашманов просто передергивает — в отчете было сказано, что одни и те же рассылки попадали как в папку Сомнительные, так и в папку Входящие. При прочих равных (адрес и IP отправителя, заголовки, схема пересылки) напрашивается вывод, что дело в лингвистическом анализе.

Кроме того, почтовый сервер IFAP.ru не изменяет заголовков пересылаемых сообщений. В результате пересылки корреспонденции появляется только дополнительный заголовок Received (на что прямо указано в тексте отчета), после отсечения которого письмо становится «идеальным» по версии Ашманова. Если спам-фильтр не способен учесть возможность пересылки, то как он учитывает куда более сложные выкрутасы спамеров?

Однако, интереснее всего было бы услышать мнение Ашманова по поводу бесплатной версии сервиса «Спамтест», который построен именно по принципу пересылки — сначала на адрес в домене www.spamtest.ru, затем на реальный адрес получателя. Следуя логике Ашманова, письма, прошедшие через этот сервис, рискуют быть отсеянными спам-фильтрами в дальнейшем.

3. Ашманов: «Тестирование проводилось по уже отфильтрованному потоку, что неправильно, так как смазывает картину».

Безусловно смазывает, так как не позволяет спам-фильтру отсекать сообщения, почти со 100% вероятностью являющиеся спамом уже по формальным признакам и заставляет работать чистую лингвистику, которая и показала себя несколько двусмысленно.

4. Ашманов считает, что "авторы явно не отличают «точно спам», уничтоженный фильтром, от папки «сомнительные»".

В связи с этим авторы считают необходимым напомнить Ашманову, что назвать сообщение «точно спамом» может только его получатель. Реализация же «авторской» точки зрения на этот вопрос в виде спам-фильтра и послужила причиной его «полевых испытаний», которые лишний раз подтвердили: «точно спама» не бывает по определению.

В то же время ряд замечаний, высказанных к отчету экспертами, вполне справедлив. В частности, по новой методике тестируется уже не почтовая служба Mail.Ru, а сам сервис «Спамтест», первые результаты испытаний которого действительно отличаются от результатов Mail.Ru. В какую сторону — покажет время.

комментарии(0)

разделы: Архив