РАЗДЕЛЫ

Архив

Илья Сегалович: «Мы „умеем“ обходить, строить и отвечать на запросы примерно по 1 миллиарду документов»

Денис Крючков

≡ Архив | архивная статья | 06.02.2006 17:47

комментарии (84)

версия для печати

Илья Сегалович: «Мы „умеем“ обходить, строить и отвечать на запросы примерно по 1 миллиарду документов» (Фото Дмитрия Юрова, <a href=

www.yurov.ru)" vspace="10" hspace="10">

Илья Сегалович, создатель и разработчик поисковой машины «Яндекс», ныне директор по технологиям и разработке в одноименной компании, в интервью «Вебпланете» рассказывает о «Яндексе», поисковых технологиях, и не только об этом.

В декабре 2005-го «Яндекс» выпустил бесплатную утилиту для полнотекстового поиска документов на персональном компьютере. Когда вы решили «пойти в офлайн»? Когда появилась мысль создать такую утилиту?

Мысль о ней возникла очень давно, наверное сразу же после появления приложения для веб-серверов («Яндекс.Сайт»), но сконцентрироваться на этой задаче не удавалось, так как все силы разработчиков поиска были тогда направлены на веб-поиск.

Ситуация упростилась, когда у нас в ходе разработки веб-поиска (то есть, попутно) появились парсеры форматов документов: компоненты, необходимые для настольного поиска.

Это случилось в течение 2003-2004 гг. («Яндекс копает глубже», «Теперь Яндекс ищет документы в формате MS Word (doc)», «Яндекс индексирует Flash»).

Вот тогда мы впервые реально задумались о настольном приложении. Долго думать нам не дали западные конкуренты, выпустившие в конце 2004 года бета-версии своих настольных поисков.

Собственно разработка заняла не так уж много времени, гораздо труднее было добиться работоспособности в многообразных настольных окружениях.

Сколько людей в «Яндексе» занимаются поисковыми технологиями?

Точно сказать трудно, так как мы не ограничиваем жестко сферу деятельности разработчиков. Вчера человек мог писать что-то для поиска, а сегодня пишет для антиспама или рекламных технологий. (Например, автор парсеров форматов делает «Спамооборону», автор части кода робота занят «Директом», и т.д.). Кроме того, почти во все проекты «Яндекса» в той или иной форме встроен поиск, зачастую довольно сильно отличающийся от основной ветви разработки. Достаточно назвать «Почту» или «Блоги», где число документов в индексе составляет многие десятки и даже сотни миллионов. Но разработку этих поисков ведут сотрудники не отдела поисковых, а отдела коммуникационных технологий. А поиск по объявлениям «Директа» делается в отделе инфраструктуры и т.д.

Конечно, число разработчиков поиска растет. Особенно в последнее время, когда в разработку и менеджмент приходят целыми группами и компаниями.

Сколько сейчас людей работает в «Яндексе»?

Более трехсот.

Сколько компаний, проектов, используют xml-выдачу результатов поиска «Яндекса»?

Около двух десятков коммерческих клиентов, среди них преобладают поисковые и метапоисковые машины, еще несколько компаний заняты детальным анализом результатов поиска.

Некоммерческих посчитать труднее: так, например, зарегистрированных пользователей, задавших не менее 3-х XML-запросов, около полутора тысяч, а тех, кто делает это регулярно в ощутимых масштабах (более сотни запросов) — более трехсот.

А если говорить языком цифр, сколько запросов ежедневно обрабатывает «Яндекс», когда используют его xml-выдачу?

Примерно 10% от числа запросов к «Яндексу».

Сейчас, судя по всему, самый крупный «xml-клиент» на выдачу — это Mail.Ru?

Да.

На какой срок заключен контракт с «Мейлом» об использовании поиска «Яндекса»?

По условиям нашего соглашения мы не разглашаем подробности.

В последнее время в Рунете все чаще появляются новые поисковые стартапы. Как вы думаете, каковы их шансы, скажем, повторить путь «Яндекса»?

Шансы есть. Не исключено, что для этого им придется поднабраться терпения, да и старички тоже не будут сидеть сложа руки, но интернет-индустрия мне кажется достаточно живой и динамичной.

Идея мета-поиска, заложенная в «Нигме», имеет право на жизнь и дальнейшее развитие? Либо это тупик, потому что мета-поиск — это несерьезно?

Мета-поиск — в принципе, хороший сервис, хотя бы потому, что ему доступны ответы всех поисков и есть шанс не испортить их, а улучшить. Непонятно лишь, почему поисковые системы допустят существование метапоиска, более успешного и посещаемого, чем они сами?

Посмотрите, те поисковые системы, которые служили источником для портальных поисков и метапоисков (Inktomi, Fast), не стремились к посещаемости, к наличию своего портала, вымерли или слились с порталами. В руках команды должны быть знания, поступающие с двух сторон: и со стороны пользователей, и со стороны интернета. Как показывает опыт Yahoo, даже из социальной сети портала извлекаются полезные для поиска знания.

Что касается Nigma — мне очень симпатичны их эксперименты.

Вы можете сказать уверенно: у нас, в «Яндексе», сейчас лучший поиск в Рунете?

Я — не могу. Я вообще не могу себя представить в позе фанфарона и зазнайки. То есть представить могу, и, наверное, иногда оказываюсь, но все же стараюсь этого не делать.

Лучший или не лучший — решать не мне.

Существует мнение, что поисковая оптимизация сайтов есть шаманство. Как вы сейчас относитесь к оптимизаторам? Как сильно «шаманы» усложняют вам жизнь?

Поисковая оптимизация в технологическом смысле вполне интересная алгоритмическая задача, шаманство конечно, но не намного более шаманство, чем разработка поиска.

Что касается отношения: если нет перехода этических границ, нет «обманных» технологий и т.д., то я не вижу повода считать оптимизацию «средоточием вселенского зла».

Конечно, мне как разработчику поиска чертовски обидно понимать, что из-за борьбы с оптимизацией приходится снижать влияние очень полезных, но слишком легко подвергаемых накрутке факторов. От чего неизбежно снижается качество веб-поиска (избирательность, точность и т.д.), то есть страдают пользователи.

Это злит и подстегивает к созданию более изощренных алгоритмов и техник.

Но в целом, как мне кажется, массовая часть сервиса страдает не так сильно: частотные запросы имеют достаточную для корректного ранжирования естественную социальную сеть, есть множество запросов на неоптимизированные темы и т.д. Оптимизация в этих ситуациях не оказывает серьезного влияния на поиск.

Вы сказали «злит и подстегивает к созданию более изощренных алгоритмов и техник». Другими словами, оптимизаторы в каком-то смысле помогают вам эволюционировать?

Именно что в каком-то: это «эволюция» щита и меча. Отнюдь не помогающая пользователю.

Иногда, конечно, анализ способов оптимизации помогает лучше понимать природу «информационного шума».

В последнее время все чаще и чаще звучат мнения о том, что «Яндекс» очень сильно захламлен дорвеями. Я понимаю, это обратная сторона популярности, но все же…

Действительно, разработчики в области поискового спама и оптимизации концентрируются на самых популярных поисковых системах. Наша популярность работает против нас.

К счастью, в алгоритмической области мы сделали далеко ещё не все, что запланировали для чистки и подавления спама. Изменения в алгоритмах все время идут, причем как очевидные, так и гораздо менее очевидные. Я надеюсь, что результат их заметен всё сильнее.

Каков сейчас «технологический потолок» «Яндекса»? Скажем, когда-нибудь могут возникнуть технические проблемы, например, с размером индекса, или что-то такое еще…

У каждой конкретной технологии (даже в целом по отрасли) в каждый конкретный момент времени есть потолок.

Об этом свидетельствует, например, застой в размерах индексов мировых поисковых систем конца 90-х годов, когда несколько систем держали в индексе по 100-150 миллионов документов чуть ли не три года. Да и последние цифры Google и Yahoo тоже долго не менялись. (Как раз сейчас, кажется, наконец поползли вверх.)

Если говорить про «Яндекс», то сегодня мы «умеем» обходить, строить и отвечать на запросы примерно по 1 миллиарду документов. И «думаем, что знаем», как сделать 10-миллиардов.

Но надо понимать, что каждый раз, когда размер системы вырастает на порядок, приходится что-то делать с ее архитектурой. Это и есть — «пробивать потолок».

Сколько сейчас факторов используется при ранжировании сайтов, проиндексированных «Яндексом»?

Не знаю. :) Но не так много, как думают.

Даже под пыткой не расскажете? :)

Под пыткой расскажу все, что знаю, но это ничего не даст «палачам». Что из того, что палач узнает соотношение между факторами и способы их вычисления на текущий момент времени?

Во-первых, некоторые из этих факторов вычисляются весьма нетривиально, с учетом их распределения по различным объектам. Таким образом, ему будет недостаточно внедрить в веб необходимые для ранжирования элементы, но и обеспечить идеальное для себя распределение, а это уж точно не в его власти.

Во-вторых, меняются не только данные; факторы и коэффициенты тоже живут какой-то жизнью. То, что ранжировалось хорошо вчера, будет ранжироваться очень плохо послезавтра. И наоборот.

Оптимизаторский бизнес подвержен очень большим рискам.

Каким?

Смена алгоритма поисковой системы может мгновенно уничтожить плоды многомесячного труда: так сказать, «разрушить» бизнес.

Во сколько, по вашим прикидкам, можно оценить рынок поисковой оптимизации в Рунете в прошлом, 2005-м?

Попробую пальцем ткнуть в небо: 10 миллионов?

Мне кажется, это мало…

Может быть. Дело в том, что граница между бизнесом по созданию сайтов (дизайн, программирование) и SEO часто размыта.

По-вашему, что такое Идеальный Поиск?

Как минимум, тот, в котором реализован наш (очень не маленький) todo-лист. А про наши планы мы традиционно не рассказываем.

А вообще, он существует, этот Идеальный Поиск? По сути, это такое «стремление к бесконечности»…

Именно так.

Кстати, вы до сих пор ненавидите сочетание «искусственный интеллект»?

Когда оно используется для «внутреннего пиара» — да, безусловно ненавижу. Точно также, как и когда оно используется для «многоуровневого маркетинга» (а.к.а «Гербалайф», «Орифлейм»).

Против оригинального смысла, который вкладывал в него Тьюринг, я ничего против не имею. Но замечу, что все без исключения шахматные программы, устойчиво обыгрывающие человека, Hydra, Junior и т.д., работают перебором (brute-force). Играют они не так, как люди: в странной, мягкой, алогичной манере. И не используют ни нейронные сети, ни генетические алгоритмы — джентльменский набор любого гуру и сетевого «продавца» искусственного интеллекта.

Это вовсе не значит, что «алгебраическая модель информационного поиска», работающая с использованием перцептрона (классификация из книги Modern Information Retrieval), всегда хуже чем любая другая.

Просто я против вкладывания в слова «нейронная сеть» или «генетический алгоритм» какого бы то ни было религиозного смысла.

Добавлю, что сейчас в мире в общем-то считается установленным фактом, что опорные вектора Владимира Наумовича Вапника, (Вапник на Амазоне, его книги по-русски: «Восстановление зависимостей по эмпирическим данным», 1979, «Теория распознавания образов», 1974) превосходят нейронные сети в задачах автоматической классификации текстов. При этом гиперплоскость в пространстве большой размерности не притворяется никакой частью человеческого мозга.

Как сильно изменились технологии поиска за последнее время? Скажем, когда вы начали работать в «Яндексе», «было то, и было это». А теперь?

Когда мы начинали работать (начало 90-х), то были сосредоточены на одних алгоритмах: словарная морфология, производительное индексирование и поиск. Затем, по мере роста (вторая половина 90-х), пришлось задуматься об алгоритмах ранжирования, алгоритмах поиска похожих документов, обработки несловарных слов, индексации веба. Далее (современный период — 2000-е) встали те задачи, над которыми мы работаем и сейчас: обход очень больших коллекций, обеспечение свежести и чистоты индекса, выявление зеркал, нечетких дублей, подавление накрутки, анализ запросов пользователей, кластеризация новостей для создания картины дня и т.д. и т.п.

В основном наше развитие происходило параллельно и довольно синхронно тому, что делалось в мире. Причем, если в 90-е годы мы до всего доходили сами (порой нам это удавалось делать на пристойном уровне), то сейчас гораздо больше доступной информации и быть на острие стало гораздо проще.

На скольких серверах работает поиск «Яндекса»?

Несколько сотен.

А сколько серверов обслуживают все проекты «Яндекса»?

Еще несколько сотен.

Места в дата-центре всем хватает?

В дата-центрах места хватает. Вообще дата-центров несколько, и периодически мы вводим в строй новые.

Несколько — это сколько?

Воздержусь от ответа, извините.

Сколько дата-центров планируете построить в этом году?

Опять же вынужден избежать ответа.

Какой трафик генерят все проекты «Яндекса», скажем, за одни сутки?

Это нетрудно оценить по нашим официальным данным. Мы «отдаем» 70 миллионов страниц в сутки (из них примерно 15 млн с «Народных» сайтов), если принять вес 1 страницы в 60 «килограмм», то получится 4.2 терабайта (или 4200 гигабайт).

Показания с маршуртизатора не расходятся с этой оценкой.

Куда, по вашему, будут двигаться поисковые технологии? В какую сторону? В сторону персонализации? Или куда-то еще?

Очевидно в сторону более глубокого анализа: документов, запросов, социальной сети. Кроме того, по мере роста рентабельности поисковых систем, могут начать применяться более дорогие по ресурсам технологии.

Назову несколько, возможно звучащих слишком абстрактно направлений (я прошу прощения, но конкретику называть сложно):

— распознавание и учет типологии и структуры сайтов и страниц;
— обработка запроса на основе истории поискового поведения, как группового, так и, возможно, индивидуального;
— изучение динамики сети (для разных целей);
— обработка естественного языка.

На обработку естественного языка возлагались большие надежды в 90-е годы, я думаю, что возможна ее частичная реабилитации в веб-поиске (выявление именованных объектов, параллельные тексты и т.д.)

Какие из перечисленных технологий могут появиться в поиске «Яндекса» в обозримом будущем?

Это нечестный вопрос.
Я же говорил, что мы не отвечаем про планы.

Хорошо, как вы думаете, «Апорт» когда-нибудь вернется туда, где он был пару лет назад?

Не совсем так. Два-три года назад он был примерно там же, где сейчас, а вот в 2000-м году он действительно был по многим параметрам лучшей поисковой системой Рунета.

Ситуация 2000-го года вряд ли повторится, тем более сама собой, но чисто теоретически возможно все.

Что думаете о поиске в тегах на примере поисковика wink.com?

Про поиск по тегам я уже не «думаю», я его использую: я подписан на теги в Technorati в «Яндекс.Ленте». Что касается Wink.com, то я пока не смог заставить его работать по-русски, видимо, он не умеет.

Поиск по тегам — интересная и перспективная область, к сожалению, я не знаю пока сколь-нибудь крупного русского корпуса тегов, на который можно смотреть и экспериментировать. Например, теги в Livejournal.com разбиты зачем-то на несколько непересекающихся областей и используются очень слабо. Даже в популярных русских фотоблогах, то есть там, где, как показывает опыт Flickr, теги остро необходимы, нет ни тегов, ни поиска по ним. «Темы» и «название альбома» — не в счет.

Есть шанс, что теги окажутся инструментом будущих улучшений в поиске: например, как исходный материал для построения тезауруса, ортогонального, скажем, тому тезаурусу, который поисковые системы уже строят по поисковым запросам.

Сколько подписчиков сейчас у сервиса «Яндекс.Ленты»? Есть такие данные?

Немного, несколько десятков тысяч.

Но этот сервис для относительно продвинутых пользователей, он и не должен быть очень массовым. Для нас в нем есть другие ценные свойства: это наша тестовая площадка работы с блогосферой.

Кстати, когда «Поиск по блогам» перестанет быть бетой?

Скоро.

Социальные сети, что думаете об этом явлении?

Думаю примерно тоже, что и все: «престиж», «центральность», «социтирование». :) Стараюсь думать больше, но не всегда получается.

Если же серьезно говорить о сервисах, которые принято называть «социальными сетями», то есть, когда у пользователей есть возможность вступить в виртуальную «дружбу» с другими пользователями, то их число растет на глазах и кажется вот-вот (по мере накопления массы и опыта использования) обретет новое качество.

И все же, как мне кажется, условием успеха является то, ради чего пользователь обращается к сервису, а не социальная сеть per se. Например, Flickr.com — прежде всего отличный и удобный фотоблог и лишь потом социальная сеть, в Yahoo идут за поиском и лишь потом за удобным способом обменяться поисковыми закладками с товарищами, в LinkedIn видят утилитарный механизм поиска работы, и т.д.

И еще одна мысль: фантастический взлет MySpace.com показывает, что социальная сеть не обязана быть навороченным сложным сервисом с красивыми концепциями, и что, может быть, залог успеха как раз в простоте.

Когда в «Яндексе» появится что-то подобное?

«Что-то подобное» в некотором смысле давно используется. Например, сеть ссылок между веб-сайтами и страницами — самая что ни на есть «социальная сеть» и метрики над ней «работают» в поиске «Яндекса» уже много лет.

Каким эпитетом можно наградить ушедший год?

Год интенсивного роста: напряженный, успешный, насыщенный. Кстати, мы перестали помещаться в старом офисе и уже начали переезд в новый и большой.

Не жаль расставаться с насиженным местом?

Жаль, конечно. Место не просто насиженное, оно родное для многих сотрудников. К сожалению, мы совершенно перестали в нем помещаться.

Но и на новом месте есть свои преимущества, прежде всего — огромный красивый старинный дом, весь «свой», да еще и на «своей» территории.

А вы не думали заняться чем-то другим, не надоело заниматься поиском?

«Чем-то другим» я постоянно занимаюсь: время вне работы трачу на дело, которое начала моя жена вместе со мной много лет назад. Так что скучно не бывает, хотя порой и хочется поскучать.

Что касается профессиональных интересов, то ничего более интересного чем «Яндекс» я пока не знаю.

Каким будет интернет через 10 лет, если закрыть глаза и включить воображение прямо сейчас?

Прежде всего он будет «всегда с вами», как сейчас мобильный телефон, причем вся необходимая информация в каждый конкретный момент времени будет у вас «на кончиках пальцев».

К сожалению, боюсь, что не только «у вас», но и «про вас», но это уже тема другого разговора.

Кроме того, через 10 лет умрет, наконец, такое устройство, как телевизор. И слава богу! Источники видео и аудио информации станут столь же многочисленны и диверсифицированы, как это сейчас случилось (случается на наших глазах) с текстовой информацией: любительские записи, снятые на суперпрофессиональную по нынешним меркам технику, будут попадать в личные блоги («подкасты») и оттуда агрегироваться к вам на экран. Причем совершенно необязательно через известные теле/радио/печатные- каналы: это могут быть и автоматизированные системы, наподобие «Яндекс.Новостей», только построенные над миллионами (видео-текстово-аудио-) блогов.

СМИ безусловно останутся, как минимум, источником компетентного комментирования, но их роль серьезно изменится.

комментарии(84)

разделы: Архив