Порнофильтры Google никуда не годятся

≡ Архив | архивная статья | 11.04.2003 13:03

Дети, использующие функцию SafeSearch, которая разработана Google для фильтрации ссылок на веб-сайты взрослого содержания, вероятно, ограждены от большего, чем их родители могли желать. На прошлой неделе Центром Беркмана «Интернет и общество» (Berkman Center for Internet & Society) при Гарвардской юридической школе был выпущен доклад, в котором сказано, что SafeSearch (сервис можно включить и отключить через «Настройки»), отбраковывает вполне невинные вещи, включая страницы Белого Дома, IBM, Американской библиотечной ассоциации и текстильной компании Liz Claiborne.

Этот недостаток объясняется самим принципом, по которому производится отбор: Google использует собственный алгоритм автоматического анализа сайтов. Весь процесс происходит без человеческого вмешательства. Эта технология позволяет уменьшить стоимость сервиса, зато результаты могут оказаться самыми странными — не слишком вероятно, чтоб человек стал классифицировать репортаж BBC о Восточном Тиморе или раздел домашней страницы Нэшвиллской публичной библиотеки, посвященный вопросам здоровья подростков (слово teen в заголовке), как вредные для несовершеннолетних.

«Если бы Google предложил соответствующее задание своим находчивым специалистам, — заявил CNET Бен Эдельман (Ben Edelman), студент-стипендиат, который проводил исследование для центра Беркмана, — то все работало бы получше, чем сейчас. У них ведь полно высококлассных, изобретательных работников! Для меня было бы шоком, если бы эти великолепные инженеры оказались не в состоянии усовершенствовать сортировщик. Другое дело, насколько в этом заинтересованы владельцы».

Представители Google, в то же время, не соглашаются с выводами изыскания, свидетельствующими о том, что для пользователей SafeSearch многие безопасные результаты оказываются невидимыми. Компания подвергает сомнению корректность используемых средств исследования, и предлагает свое объяснение факту: некоторые сайты используют средство, называемое «robots.txt», специально придуманное для ограничения работы поисковых пауков. Такой файл как бы направляет пауку просьбу не обращаться к определенной области сайта, так как слишком большое количество посещений существенно замедляет работу сервера. Согласно неписаным правилам хорошего тона, пауки указаниям файла robots.txt должны подчиняться. Таким образом, в Google приняли решение не включать ссылки на непроверенные сайты в список результатов, так как никто не может отвечать за их содержание.

Эдельман не имел подобной информации, когда занимался изучением вопроса, поэтому в четверг он пересмотрел свой отчет с целью внести в него соответствующие коррективы. Оказалось, что только 11,3% сайтов из списка Эдельмана используют robots.txt. Среди них IBM, Apple Computer, Городской университет Нью-Йорка и Библиотека Конгресса. Остальные же выбраковываются по каким-то другим причинам. «Совершенно неважно, почему именно сайт оказывается недоступным для глаза серфера — из-за собственной защиты или несовершенства системы. Важно, что он соответствует параметрам запроса, но все же не появляется среди результатов», — заявил в своем интервью исследователь.

Руководство поисковой службы приводит свои аргументы в пользу того, почему сортировщик перестраховывается. Дэйвид Друммонд (David Drummond), вице-президент Google по развитию бизнеса, говорит: «Мы остановились именно на этой разработке, потому что решили: если человек пользуется такой дополнительной функцией, то он, скорее, может быть озабочен тем, чтобы к нему не просочилось ничего лишнего, а не тем, что фильтр окажется слишком „осторожным“».

Нужно сказать, существует довольно мало сайтов, которые SafeSearch последовательно блокирует при каждом новом поиске. Однако страница, посвященная исследованию Эдельмана, которое обнаруживает проблемы фильтров, именно в их числе. «Видимо, системе с искусственным интеллектом никак не удается уяснить, что этот сайт только рассказывает о регулировании порнографии в Сети, а не сам является порноресурсом», — объясняет автор доклада.

комментарии(0)

разделы: Архив