Google добавляет библиотеки и угадывает поисковые запросы

Вебпланета

≡ Архив | архивная статья | 14.12.2004 14:25

Google радует хорошими новостями. Во-первых, совместно с крупнейшими библиотеками начинается сканирование 15 млн книг для последующего полнотекстового поиска. Кроме того, на Google появилось автозаполнение строки поиска, а на Gmail — поддержка русского языка.

Как сообщает NYTimes, компания Google заключила соглашение с пятью крупнейшими библиотеками США и Великобритании о начале оцифровки их библиотечных фондов. Сепаратные соглашения Google с каждой отдельной библиотекой предусматривают следующий объем сканирования:

библиотека Стенфорда — полностью (8.000.000 книг);
библиотека университета Мичигана — полностью (7.000.000 книг);
библиотека Гарварда — 40.000 книг;
библиотека Оксфорда — все книги, изданные до 1900 г.;
Общественная библиотека Нью-Йорка — незащищенный копирайтом материал для школьников и студентов.

Это первый шаг к амбициозной цели — созданию Всемирной цифровой библиотеки, которая бы существенно расширила границы существующей Сети: «В течение двадцати лет большинство знаний, накопленных человечеством, будет оцифровано и доступно для бесплатного чтения через интернет, как сейчас эта информация доступна в обычных библиотеках», — говорит Майкл Келлер (Michael Keller), главный библиотекарь Стенфордского университета.

По условиям соглашения, Google будет оказывать финансовую и техническую помощь по оцифровке библиотечных фондов. В Стенфорде на первом этапе планируется сканировать по 50 тыс. страниц в сутки. По мнению специалистов, реализация всего проекта может занять более 10 лет.

Соглашение Google с библиотеками не является эксклюзивным, и поэтому к проекту могут подключиться и другие компании, специализирующиеся на поиске в интернете: Microsoft, Yahoo, а также Amazon, которая уже разработала на своем сайте полнотекстовый поиск по содержанию только что изданных книг. Аналогичная программа действует в компании Google. Программа Google Print предусматривает заключение соглашений с книгоиздателями, которые предоставляют книги для оцифровки и полнотекстового поиска, но пользователь может просмотреть не более двух-трех страниц книги за одну поисковую сессию. Многие издательские дома — HarperCollins, Penguin Group, Houghton Mifflin, Scholastic — зарегистрированы одновременно в двух программах, в то время как крупнейший американский книгоиздатель Random House зарегистрирован в Amazon, но игнорирует Google.

Разумеется, после сканирования библиотечных фондов в свободный доступ для полнотекстового поиска будут выложены только старые книги, не подпадающие под действие копирайта. Защищенные копирайтом работы тоже будут отсканированы полностью. Судя по всему, они будут доступны через Google примерно на таких же условиях, что и в программе Google Print.

Занимаясь проектом по оцифровке библиотечных фондов, Google не забывает о своей основной деятельности — совершенствованию поиска в интернете. На днях началось бета-тестирование новой «фичи» Google Suggest, которая скоро будет встроена в основной движок Google. Это технология «автозаполнения» поискового запроса на основе общей статистики самых популярных поисковых запросов. Очень удобно и познавательно, тем более что для русского языка пока не настроен «цензурный» фильтр. Для работы системы необходимо разрешить в браузере javascript и прием файлов cookie.

И еще одна приятная новость от Google. В почтовом сервисе Gmail наконец-то появилась функция полнотекстового русскоязычного поиска в архиве писем.

комментарии(0)

разделы: Архив