Самое горячее: Европа признала соцсети опасными (50); "Фобос-Грунт" уже не спасти (11); Мобильники убивают детей (26); ЕЩЕ >>
РАЗДЕЛЫ
Архив
« июнь 2020  
пн вт ср чт пт сб вс
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30          

Nigma считает, специалисты комментируют

Анатолий Ализар
| архивная статья | 18.05.2005 13:02

Поисковая система Nigma.Ru опубликовала статистику о количестве русскоязычных документов в интернете. Ведущий разработчик поисковой системы «Рамблер» Владислав Шабанов объясняет, насколько корректными являются эти расчеты.

Nigma.Ru является метапоисковой системой, которая получает результаты от пяти поисковых провайдеров: Google, Yahoo, MSN, Yandex и Rambler. Поскольку поисковые базы этих провайдеров пересекаются лишь частично, то результаты поиска Nigma.Ru оказываются намного полнее, чем на каждом из них по отдельности. Вкупе с интеллектуальной обработкой и фирменными алгоритмами ранжирования это позволяет Nigma.Ru называть себя «самой умной поисковой системой».

Так вот, вчера «самая умная» поисковая система опубликовала свою оценку суммарного объема русскоязычных документов в поисковых системах. По состоянию ня 16-е мая 2005 г. индексы всех поисковиков содержат примерно 1.052.227.229 русскоязычных документов, то есть чуть более миллиарда.

Прокомментировать достоверность этих цифр мы попросили Владислава Шабанова, руководителя группы разработчиков поисковой системы Rambler.

— Наш поисковый робот по состоянию на 15.05.2005 скачал (и периодически перекачивает) 714.879.454 страниц. Из 714 млн. скачанных страниц доступны для поиска лишь 642.334.812, остальные — полные дубликаты и «мусор».

При этом общий размер очереди на скачивание в несколько раз больше: 2.232.256.897 страниц. Данный список растет быстрее первого: когда мы скачиваем страницу, мы узнаем по ссылкам о существовании еще нескольких других страниц. Оба списка периодически проходят фильтрацию на поисковый спам, дубликаты и зеркала.

Таким образом, в Рунете есть как минимум 2 млрд. страниц, среди которых, конечно же, много дублей и страниц с несущественными различиями. По нашим оценкам, количество различающихся страниц в Рунете 1,4 млрд.

Таким образом, заявления о том, что «Рунет преодолел миллиард страниц» несколько устарели. На самом деле он преодолел этот рубеж довольно давно. Просто далеко не все страницы включены в индекс. По расчетам Nigma, не более 20–30% документов Рунета являются непроиндексированными ни одной из поисковой машин. Но с этой оптимистичной оценкой не согласен Владислав Шабанов: «Из приведенной выше оценки видно, что непроиндексированных документов даже больше», — говорит он. 

Это вторая попытка разработчиков Nigma.Ru посчитать размер Рунета — первая окончилась неудачно, т.к. предложенный тогда алгоритм не обладал т.н. «устойчивостью» — при изменении некоторых параметров, оценка количества документов не колебалась около т.н. «равновесного решения», а резко изменялась. Новый алгоритм лишен этого недостатка — он основывается на «закачивании» случайных запросов, созданных на базе частотного словаря, и сравнении общего объема выданных результатов со всех поисковых машин, с которыми работает Nigma.Ru, и эталонной поисковой машины, о которой известен размер ее базы.

Комментарий Владислава Шабанова: «Методики оценки размера сети, основанные на анализе выдачи поисковиков, известны давно. Многие, например, методика Лоуренса, не останавливаются на анализе самой выдачи, а скачивают найденные поисковиками страницы и анализируют результат. Это здорово помогает уточнить оценку».

Ну что ж, можно сделать вывод. Точное количество русскоязычных документов узнать невозможно. Однако использование статистических методов дает возможность сделать приблизительную оценку. По данным Nigma.Ru, все поисковые машины в сумме проиндексировали чуть более 1 млрд русскоязычных страниц, а «неохваченными» остались еще 20–30%, то есть общий объем Рунета не превышает 1,2–1,3 млрд страниц. По оценке же «Рамблера», объем Рунета составляет примерно 1,4 млрд.

разделы:

Другие

Последние комментарии
об издании | тур по сайту | подписки и RSS | вопросы и ответы | размещение рекламы | наши контакты | алфавитный указатель

Copyright © 2001-2020 «Вебпланета». При перепечатке ссылка на «Вебпланету» обязательна.

хостинг от .masterhost