Самое горячее: Европа признала соцсети опасными (50); "Фобос-Грунт" уже не спасти (11); Мобильники убивают детей (26); ЕЩЕ >>
РАЗДЕЛЫ
Архив
« июнь 2020  
пн вт ср чт пт сб вс
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30          

Е-книги породили "культуромику" и "цитатную слежку"

Исследования | Новости | 17.12.2010 18:57

Проекты оцифровки книг дали побочный результат в виде новой науки, которую её создатели окрестили культуромикой. Обширная база данных позволяет изучать изменения печатной речи на протяжении десятков и даже сотен лет и оценивать влияние на неё различных факторов, например, цензуры с математической точки зрения, сообщает журнал Science.

В базе данных Google сейчас 15 миллионов оцифрованных книг, что составляет примерно 12% от общего числа книг, которые были когда-либо напечатаны на каком-либо языке со времён создания печатного станка. Содержимое этих книг было уложено в другую базу данных, построенную на n-грамм-модели, к которой был предоставлен доступ гарвардским исследователям.

Всю эту массу информации можно изучать самыми разными способами. Например, можно выяснить, насколько часто употреблялось то или иное слово или имя в тот или иной период в литературе той или иной страны.

И учёные уже получили ряд результатов. Например, они выяснили, что за последние сто лет количество английских слов почти удвоилось. Открыли, что примерно половина напечатанных английских слов отсутствует в каком-либо словаре. Убедились, что во времена нацизма из германской литературы практически исчезли имена известных деятелей науки и культуры еврейского происхождения. Узнали, что у человечества постепенно пропадает интерес к Зигмунду Фрейду, и что с 2005 года людей больше интересует Чарльз Дарвин.

Самое примечательное, что всё это (точнее, не всё, а только треть — примерно 5,2 млн книг) теперь может "пощупать" любой желающий с помощью онлайн-инструмента Ngram Viewer, разработанного в Лаборатории Google. К примеру, можно оценить частоту использования слова "Ленин" в русскоязычных книгах с 1920 по 2008 годы или же убедиться в том, что в СССР секса и в самом деле практически не было вплоть до перестройки.

Как можно заметить, технология очень напоминает анализ поисковых запросов и цитируемости в сетевых публикациях, что позволяет отслеживать новые тенденции в обществе либо персональные вкусы пользователей для таргетированной рекламы. Среди любопытных стартапов такого рода - компания Tynt, которая следит за цитатами из сетевых публикаций - например, когда пользователь копирует себе в блог наиболее понравившийся кусок статьи или новости. Это позволяет оценить, какие части публикации наиболее удачны - а заодно и узнать побольше о самом пользователе.

Другие новости

Последние комментарии
об издании | тур по сайту | подписки и RSS | вопросы и ответы | размещение рекламы | наши контакты | алфавитный указатель

Copyright © 2001-2020 «Вебпланета». При перепечатке ссылка на «Вебпланету» обязательна.

хостинг от .masterhost