РАЗДЕЛЫ
Архив
|
Nigma считает, специалисты комментируютАнатолий Ализар ≡ Nigma | архивная статья | 18.05.2005 13:02 Поисковая система Nigma.Ru опубликовала статистику о количестве русскоязычных документов в интернете. Ведущий разработчик поисковой системы «Рамблер» Владислав Шабанов объясняет, насколько корректными являются эти расчеты. Nigma.Ru является метапоисковой системой, которая получает результаты от пяти поисковых провайдеров: Google, Yahoo, MSN, Yandex и Rambler. Поскольку поисковые базы этих провайдеров пересекаются лишь частично, то результаты поиска Nigma.Ru оказываются намного полнее, чем на каждом из них по отдельности. Вкупе с интеллектуальной обработкой и фирменными алгоритмами ранжирования это позволяет Nigma.Ru называть себя «самой умной поисковой системой». Так вот, вчера «самая умная» поисковая система опубликовала свою оценку суммарного объема русскоязычных документов в поисковых системах. По состоянию ня Прокомментировать достоверность этих цифр мы попросили Владислава Шабанова, руководителя группы разработчиков поисковой системы Rambler. — Наш поисковый робот по состоянию на 15.05.2005 скачал (и периодически перекачивает) 714.879.454 страниц. Из 714 млн. скачанных страниц доступны для поиска лишь 642.334.812, остальные — полные дубликаты и «мусор». При этом общий размер очереди на скачивание в несколько раз больше: 2.232.256.897 страниц. Данный список растет быстрее первого: когда мы скачиваем страницу, мы узнаем по ссылкам о существовании еще нескольких других страниц. Оба списка периодически проходят фильтрацию на поисковый спам, дубликаты и зеркала. Таким образом, в Рунете есть как минимум 2 млрд. страниц, среди которых, конечно же, много дублей и страниц с несущественными различиями. По нашим оценкам, количество различающихся страниц в Рунете 1,4 млрд. Таким образом, заявления о том, что «Рунет преодолел миллиард страниц» несколько устарели. На самом деле он преодолел этот рубеж довольно давно. Просто далеко не все страницы включены в индекс. По расчетам Nigma, не более 20–30% документов Рунета являются непроиндексированными ни одной из поисковой машин. Но с этой оптимистичной оценкой не согласен Владислав Шабанов: «Из приведенной выше оценки видно, что непроиндексированных документов даже больше», — говорит он. Это вторая попытка разработчиков Nigma.Ru посчитать размер Рунета — первая окончилась неудачно, т.к. предложенный тогда алгоритм не обладал т.н. «устойчивостью» — при изменении некоторых параметров, оценка количества документов не колебалась около т.н. «равновесного решения», а резко изменялась. Новый алгоритм лишен этого недостатка — он основывается на «закачивании» случайных запросов, созданных на базе частотного словаря, и сравнении общего объема выданных результатов со всех поисковых машин, с которыми работает Nigma.Ru, и эталонной поисковой машины, о которой известен размер ее базы. Комментарий Владислава Шабанова: «Методики оценки размера сети, основанные на анализе выдачи поисковиков, известны давно. Многие, например, методика Лоуренса, не останавливаются на анализе самой выдачи, а скачивают найденные поисковиками страницы и анализируют результат. Это здорово помогает уточнить оценку». Ну что ж, можно сделать вывод. Точное количество русскоязычных документов узнать невозможно. Однако использование статистических методов дает возможность сделать приблизительную оценку. По данным Nigma.Ru, все поисковые машины в сумме проиндексировали чуть более 1 млрд русскоязычных страниц, а «неохваченными» остались еще 20–30%, то есть общий объем Рунета не превышает 1,2–1,3 млрд страниц. По оценке же «Рамблера», объем Рунета составляет примерно 1,4 млрд. комментарии(15) разделы: Nigma Материалы по теме Виктор Лавренко: «Мы прежде всего создаем новые технологии» Другие |
Последние комментарии
Гость про Суд велел "Твиттеру" сдать сторонников WikiLeaks (12)
Гость про Книгоиздатели начали судиться с торрентами (2)
l_e_x_a про "ВКонтакте" принудительно протестирует пользователей (35)
andrey_kadetov про Google назвал Facebook "ловушкой без выхода" (6)
volv про День папуасского робошахтёра (14)
l_e_x_a про Русские кликботы признаны самыми активными (11)
все комментарии looli спрашивает: Земля вампиров смотреть онлайн в HD качестве looli спрашивает: Зеленый Фонарь смотреть онлайн в HD качестве looli спрашивает: Защитник смотреть онлайн в HD качестве looli спрашивает: Запретная зона смотреть онлайн в HD качестве looli спрашивает: Закон доблести смотреть онлайн в HD качестве looli спрашивает: Вышибала смотреть онлайн в HD качестве looli спрашивает: Встречный ветер смотреть онлайн в HD качестве looli спрашивает: Все любят китов смотреть онлайн в HD качестве |
Copyright © 2001-2020 «Вебпланета». При перепечатке ссылка на «Вебпланету» обязательна.