РАЗДЕЛЫ
Архив
|
Максим Мошков: "Оцифровка словарей куда сложнее сканирования худлита"Крупнейший российский поисковый портал открывает программу по созданию общедоступной электронной библиотеки справочной литературы. В течение двух лет Каждое издание при публикации становится доступным не только через «Яндекс.Словари», но и при поиске с первой страницы портала. Пользователь может начать запрос словами «что такое» или «кто такой» и тогда ссылка на соответствующую словарную статью появится над результатами поиска по сети. Оцифровку словарей и сверку электронного текста с бумажным изданием обеспечивает партнер проекта, Максим Мошков, создатель крупнейшей в России электронной библиотеки «Возьмем, к примеру, какой-нибудь научный справочник, выпущенный в 1969 году с редакционной коллегией, 15-ю переводчиками и тремя десятками авторов отдельных статей. Как собрать права на такое чудо? Кого-то просто не найти, не опознать, кто-то умер, у кого-то 10 наследников, кто-то уехал на запад, какие-то работы - в соавторстве... Если начать использовать такой сборник, не собрав всех прав - рискуешь получить проблемы с копирайтами. Оцифровка - это отдельная песня. Одно дело - оцифровать гладкий художественный текст, это пара часов работы OCR-программы, а затем 10-20 часов корректуры. Другое дело - справочник-энциклопедия. Тут тебе и формулы, и сотни иллюстраций, которые надо выделять как отдельные объекты, и перекрестные ссылки - которые надо опознавать, расставлять маркера, вносить управляющую разметку - тут уже может уйти и 10 и 30 человеко-дней, а то и несколько месяцев. Где в художественной литературе все заканчивается, в технической - это только фундамент для нескольких этапов последовательной обработки текста. В помощь тем, кто занимается оцифровкой текста, существуют программы-спеллчекеры. Также имеется кое-какой наработанный сканировщиками софт, исправляющий типичные ошибки распознавания. Но дальше - ручная работа - садится человек, и в текстовом редакторе работает с файлом. Чудес не бывает». «Вебпланета» также поинтересовалась у Максима Мошкова, какая еще литература, помимо словарей, может быть востребована в Рунете, что может содержать следующий проект подобного рода. Вот что он ответил: «Подготовить общедоступное хранилище учебной литературы для средней и высшей школы - вполне осмысленная задача, которую, по идее, должно бы профинансировать государство». В любом случае, работа «Яндекса» радует хотя бы тем, что вместо модных в последнее время тенденций заработка на чужом контенте (всевозможные агрегаторы новостей, рецензий, записей в блогах) появился проект, в рамках которого Рунет получит труднодоступную ранее информацию. Сейчас в «Яндекс.Словарях» насчитывается 2 963 476 словарных статей из 49 словарей. В день знаний, 1 сентября, проект пополнился энциклопедией символов, словарем современных географических названий, философским словарем и справочником по джазу. комментарии(0) | Материалы по теме Как интернет грамоте учили Другие новости |
Последние комментарии
Гость про Суд велел "Твиттеру" сдать сторонников WikiLeaks (12)
Гость про Книгоиздатели начали судиться с торрентами (2)
l_e_x_a про "ВКонтакте" принудительно протестирует пользователей (35)
andrey_kadetov про Google назвал Facebook "ловушкой без выхода" (6)
volv про День папуасского робошахтёра (14)
l_e_x_a про Русские кликботы признаны самыми активными (11)
все комментарии looli спрашивает: Земля вампиров смотреть онлайн в HD качестве looli спрашивает: Зеленый Фонарь смотреть онлайн в HD качестве looli спрашивает: Защитник смотреть онлайн в HD качестве looli спрашивает: Запретная зона смотреть онлайн в HD качестве looli спрашивает: Закон доблести смотреть онлайн в HD качестве looli спрашивает: Вышибала смотреть онлайн в HD качестве looli спрашивает: Встречный ветер смотреть онлайн в HD качестве looli спрашивает: Все любят китов смотреть онлайн в HD качестве |
Copyright © 2001-2020 «Вебпланета». При перепечатке ссылка на «Вебпланету» обязательна.