РАЗДЕЛЫ
Архив
|
Тезисы о поисковых машинах≡ Архив | архивная статья | 05.05.2006 18:30 Игорь Ашманов, кандидат технических наук, прочитал на КИБе доклад про поисковые машины, который выигрывает у научных публикаций практическим подходом. Нарушение хронологии рассказа потребовалось для того, чтобы всяческих привычных на оптимизаторских конференциях обсуждений формулы релевантности отечественных искалок далее не последует. Всех, кого это не смущает, предлагаю следовать канве рассказа, где обозначено, как можно улучшать поиск на всех его этапах. Ашманов начал свой доклад с метафоры про аутизм поисковиков. Хотя он подразумевал под этим лишь их неспособность общаться, данную метафору можно сделать развернутой. Классическая поисковая машина умеет найти по запросу из нескольких слов все документы, в которые входят данные слова, и предъявить их, то есть работает «как текстовой брокер» в терминах Игоря. Поисковики не знают темы запроса и смысла запроса, не знают типа и темы возвращаемых документов, показывают в сниппетах не свои аннотации, а только фрагмент того, что есть на сайте. Следствием научного склада умов разработчиков стала бесконечная лента, имеющая «невразумительные заголовки, аннотации, ненужные даты, URL, размер». А пользователя заставляют заниматься либо перебором ссылок, либо мелким программированием- подбором слов и операторов. Запросы же на естественном языке (лидер здесь - AskJeeves) Ашманов назвал «старой басней» поисковых систем. Игорь Ашманов упрекнул ведущие поисковики в «безудержной портализации» при флегматичном сохранении перечисленных недостатков. А также - в нерациональной трате сил на персонализацию поиска. Казалось бы, пример вялотекущего существования сайта Excite.com, который одним из первых поисковиков в середине девяностых вступил на неверный путь портализации и персонализации, уже должен был стать уроком тому же Mail.ru, который два года последних года пытался запоминать запросы немногочисленных посетителей Поиска@Mail.ru и предлагать какие-то ненужные подсказки и уточнения. Тематическую кластеризацию (Clusty, Нигма, Quintura) Ашманов также считает в целом тупиковым направлением. Кластеризация, разумеется, помогает структурировать выдачу. Но тут возникает чисто практическая проблема. Стоит взять реальный список запросов, как оказывается, что никакой искусственный или человеческий интеллект обычно не в силах догадаться, что же на самом деле имел ввиду пользователь, который вводил в окно поисковой системы одно или два слова… Правда, я был свидетелем, как деятелей, которые проверяют новые искалки исключительно на нарцисстическом запросе, впечатляло как Nigma кластеризировала их по всем прежним должностям и профессиональным интересам. Однако для обычных запросов Nigma.ru своими возможностями кластеризации Игоря не впечатляет. Несколько отвлеченным от нити рассказа, но зато удачным примером кластеризации можно считать пресс-портреты в Яндекс.Новостях. Как объяснил мне технический директор Яндекса Илья Сегалович, пресс-портреты не склеиваются (или плохо склеиваются), потому что на начальном этапе важнее было, чтобы разные люди не собрались в один пресс-портрет. А то, что один человек представлен в десяти лицах - это нормально (вот любимый пример Ильи Сегаловича). Итак, по мнению Ашманова большие поисковики ориентированы не столько на преодоление аутичности поиска, сколько на борьбу друг с другом; у них доминируют бизнес-идеи, в частности, борьба за Рабочий Стол между Google и Miscrosoft, в которой может поучаствовать и Yahoo! Основным преимуществом здесь будет не функциональность, а совместимость с операционной системой Windows и офисными программами. Крупные игроки резко замедлились в части собственно поиска и возятся с инфраструктурой, продажами, большими индексами, большим персоналом, новыми офисами. Между тем в прошлое должны уйти такие вещи, как мерянье размерами индекса, учет ссылочного ранжирования, и главное учет только одной из трех сил, имеющихся вокруг поиска - разработчиков поисковиков, которых интересует поток посетителей и показ рекламы, и неучет самих пользователей, которым быстро найти нужный сайт, и сайтовладельцов:, которых интересует первые места и поток посетителей к ним. Игорь начал с самого очевидного - отбора сайтов для обхода. Данный прием используют как вертикальные поисковики (по блогам, по новостям, по товарных предложениям), так и обычные поисковые системы, в которых происходит распознавание типа документа и/или распознавание темы страницы (семантическое индексирование). Перспективны «семантический разбор текстов» и «разные индексы для разных типов сайтов… Большие поисковики этим занимаются, но во вторую очередь». Дорвейный спам за первые месяцы 2006 года сравним со всем, что было сделано в этом жанре за предыдущие 5-6 лет. Нынешние способы борьбы с дорвеями – это главным образом бескорыстные и корыстные сигналы в службу модерации. Предварительный выбор сайтов может решить проблему замусоривания индекса и генерации дорвеев. Особенно, если этот предварительный выбор отдан сообществу (или отдельным пользователям, как в Персональном поиске Новотеки). Под «поиск» инвесторы охотно дают деньги, а под поиск с социальными сетями – вообще практически не глядя :) Сообществу можно поручить почти весь цикл настройки поисковой машины: от отбора сайтов и создания сниппетов до оценки результатов поиска. Перспективна и графическая выдача и навигация – в Quintura Search и Тропе (вторая из них пока в стадии проекта), и кардинально – в Vizzy (там можно искать, «летая» над архивом). Перспективен вывод данных по типам в одном окне (наиболее наглядно он сделан в A9). Как видим, был продемонстрирован крайне здравый подход к теме. Надо только отметить, что этого конкретного докладчика интересует не только извлечение смысла, но и необходимость в извлечении знаний посредством поиска. Конечно, такая точка зрения уместна при продаже поисковиков для аналитических отделов корпораций или спецслужб, при разработке товарных поисковиков. Для большинства же людей поиск – это скорее подбор информации, чем извлечение знаний. В части достоверности никто обычно не ждет от выдачи поисковиков больше, чем от Википедии. комментарии(47) разделы: Архив Другие |
Последние комментарии
Гость про Суд велел "Твиттеру" сдать сторонников WikiLeaks (12)
Гость про Книгоиздатели начали судиться с торрентами (2)
l_e_x_a про "ВКонтакте" принудительно протестирует пользователей (35)
andrey_kadetov про Google назвал Facebook "ловушкой без выхода" (6)
volv про День папуасского робошахтёра (14)
l_e_x_a про Русские кликботы признаны самыми активными (11)
все комментарии looli спрашивает: Земля вампиров смотреть онлайн в HD качестве looli спрашивает: Зеленый Фонарь смотреть онлайн в HD качестве looli спрашивает: Защитник смотреть онлайн в HD качестве looli спрашивает: Запретная зона смотреть онлайн в HD качестве looli спрашивает: Закон доблести смотреть онлайн в HD качестве looli спрашивает: Вышибала смотреть онлайн в HD качестве looli спрашивает: Встречный ветер смотреть онлайн в HD качестве looli спрашивает: Все любят китов смотреть онлайн в HD качестве |
Copyright © 2001-2020 «Вебпланета». При перепечатке ссылка на «Вебпланету» обязательна.