Самое горячее: Европа признала соцсети опасными (50); "Фобос-Грунт" уже не спасти (11); Мобильники убивают детей (26); ЕЩЕ >>
РАЗДЕЛЫ
Архив
« июль 2020  
пн вт ср чт пт сб вс
    1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31    
19.04.2004 19:30 | пишет Игорь Ашманов | ссылка

Не вполне верно утверждение статьи, что поиск с применением машинной морфологии русского языка имеет смысл только для Рунета, а следовательно, что Яндекс, что Гугл на Mail.ru ищут по одним и тем же сайтам, и фактически Mail.ru просто слегка приблизилось снизу к Яндексу по функциональности.

На самом деле, сайтов на русском языке в мировой сети всё-таки больше, чем индексирует Яндекс. США, Израиль и т.п. А мировой поисковик Гугл индексирует их все (ну, или почти все). Так что область "морфологизированного" поиска на "Мыле" безусловно шире.
А вот какие несомненные технические факты стоило бы отметить:

а) напротив, полнота индексирования Гугла именно по Рунету в любом случае ниже, чем у Яндекса. Просто потому, что Яндекс лучше знает Рунет, чем Гугл. Это легко проверить, поискав какие-нибудь редкие слова на русском (тестировать лучше именно на редких словах, это нагляднее).

б) Расширение запроса словофомами у Г. - не то же самое, что учёт словоизменения сразу на этапе индексирования страниц, как у Я. Первый способ в принципе не может быть избавлен от ошибок омонимии, ибо не работает с текстом страницы, а второй - может (и у Яндекса это делается).

в) сложный запрос вместо простого (наподобие "человек или человека или человеком или... или люди или людей или...) -очень нагружает поисковик, и заведомо не равносилен запросу "морфологизованного" поисковика типа Яндекса, где лексема "человек" сразу хранится в словаре со всеми морфологическими параметрами и сведениями о супплетивизме "люди".

г) Последнее время поисковики используют уже на этапе индексации так называемый поверхностный синтаксис - разбор некоторых простых конструкций ВОКРУГ индексируемого слова - для разрешения омонимии и т.п. Поскольку собственно гуглорожденный поисковик Mail.ru ничего не индексирует, текст страницы ему здесь, в России недоступен. Поэтому здесь ничего улучшить уже нельзя.

д) Ну и последнее: вообще говоря тестировать поисковики по полноте не вполне правильно. Какая разница, сколько вам дадут результатов - 250 тысяч или 370 тысяч ссылок? Вы их не только не прочтёте, вам их даже не покажут - попробуйте получить 250,000-чную ссылку!

А вот как повлияло на ТОЧНОСТЬ поиска это добавление словоизменительного расширения запроса в Гугл на "Мыле", сказать трудно, нужно тщательно тестировать.

19.04.2004 21:06 | пишет Денис Денисов | ссылка

Игорь, спасибо за хороший комментарий ;-)

20.04.2004 11:29 | пишет Виталий | ссылка

Я думаю для Яндекса данные деяния Майлру не страшны, а вот Рамблеру не позавидовать. Мало того что у них яндекс все больше и больше аудитории отъедает, теперь и майл к этому процесс присоединился.

Понятно, что разработки Майла пока еще не дотягивают до серьезных поисковых систем, но думают они явно в правильном направлении.

21.04.2005 19:03 | пишет Огарок Андрей | ссылка

Имеются некоторые ошибки и в статье и в комментарии Игоря Ашманова.
В статье читаем: "Поиск@Mail.Ru стала «единственной в мире поисковой системой», которая осуществляет поиск информации во всем интернете с учетом морфологии русского языка".
Комментарий. Многие поисковые ситемы работают с морфологией русского языка, особенно отечественные.
Что касается охвата индексируемых сайтов, то у Googla он шире. Однако можно использовать метапоиск и охват окажется еще шире, чем у отдельно взятой поисковой системы. Например, на сайте www.stocona.ru имеется метапоисковый движок, доступный для поиска с использованием пока что 6 поисковиков.
Игорь Ашманов ошибается в "п. б)" своего комментария. Метапоисковик может работать с ответами от других поисковиков, в том числе и с ответами на запросы, расширеные словоформами. Решение проблемы омонимии достигается на уровне синтаксического разбора, а не морфологического. Не надо это путать. Когда мы говорим о словоформах - это морфология, а когда о омонимах - то это синтаксис. Хотите убедиться в том, что проблема омонимов может быть решена. Посмотрите как "на лету" обрабатываются тексты ответов от поисковиков в метапоисковой системе Stocona Global Search. Ну а что касается ренеия проблемы омнимии в Яндексе, то она там НЕ РЕШЕНА! Спросите у Яндекса "Где купить мыло". И что вы получите? Почувствуйте разницу как говорится. Якобы интеллектуальный Яндекс ответит словоформами моя, моющий и т.п. чушью: Где купить мою книгу, Где купить моющий пылесос, Где купить Мой гризли, где купить моя девушка.
Задайте тоже самое в поисковик от Стоконы и посмотрите как нужно решать проблему омонимии.
В "п. в)" комментария Ашманова также небольшая неточность. Морфология практически не нагружает поисковик. Это подтверждено тем, что можно работать с морфологией, синтаксисом и семантикой без особых усилий компьютера на этапе ПОИСКА. А вот на этапе ИНДЕКСАЦИИ, тут конечно поисковому индексатору и его лингвистическому процессору придется попотеть.
В "п. д)" Игорь лукавит. Конечно все ответы вам не выдаст ни один поисковик. Однако, чем больше зона охвата поисковика, тем больше вероятность того, что он наткнется на информацию, более полно соответствующую Вашему запросу.
С уважением технический директор компании Стокона.

Последние комментарии
об издании | тур по сайту | подписки и RSS | вопросы и ответы | размещение рекламы | наши контакты | алфавитный указатель

Copyright © 2001-2020 «Вебпланета». При перепечатке ссылка на «Вебпланету» обязательна.

хостинг от .masterhost