Самое горячее: Европа признала соцсети опасными (50); "Фобос-Грунт" уже не спасти (11); Мобильники убивают детей (26); ЕЩЕ >>
РАЗДЕЛЫ
Архив
« июль 2020  
пн вт ср чт пт сб вс
    1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31    

Идеальный переводчик

Вебпланета
| архивная статья | 24.02.2005 20:13

Новая программа для перевода текстов, разработанная американскими учеными, не требует составления словаря. Она сама обучается новым языкам, сравнивая с оригиналом уже переведенные тексты.

Большинство существующих систем машинного перевода основано на использовании словарей, которые составляются вручную. На кафедре натуральных языков Института информационных наук университета Южной Калифорнии разработана новая программа, которая использует статистический подход для анализа слов, фраз и синтаксических структур. Она сама составляет себе словари и обновляет их по мере появления новых слов и появления новых значений уже существующих слов.

Для перевода используются словари, паттерны и правила, которые программа составляет сама, без человеческого участия. В процессе перевода на основе базы уже переведенных текстов создается множество вариантов, после чего вычисляется статистическая вероятность для каждого варианта и выбирается наиболее подходящий. Программа уже способна успешно переводить тексты с арабского, китайского, французского и испанского языков на английский и наоборот. Система статистического перевода лучше, чем обычные программы, приспособлена для перевода текстов с редкими словами, то есть для технических и специализированных текстов.

В 2002 г. двое институтских ученых, разработавших программу, — Кевин Найт (Kevin Knight) и Дэниел Марку (Daniel Marcu) — основали фирму Language Weaver в надежде получить прибыль на продаже новой системы машинного перевода, которая, к слову, защищена 50 патентами. На ежегодном собрании Американской академии содействия научному прогрессу разработчики представили третью версию программы SMTS, в которой значительно повышена точность перевода и в 5–10 раз увеличена его скорость, добавлена возможность скачивания и перевода SSL-сайтов (https://) и т.д. По их мнению, перевод на основе статистических алгоритмов представляет собой новую тенденцию на рынке систем машинного перевода.

Базовые принципы машинного перевода на базе статистических алгоритмов были опубликованы уже давно. Активные работы в этой области ведутся около 15 лет, например, вот один из примеров. В интернете можно найти даже исходные коды программы, в которой реализованы эти алгоритмы. Но система SMTS, в отличие от предшественников, действительно работает. И работает великолепно.

Уже сейчас SMTS обеспечивает самое высокое качество среди всех систем машинного перевода. Она может отлично переводить тексты с редких языков (например, в последней версии появилась возможность перевода с хинди и сомали). Для начала работы требуется всего лишь «скормить» программе большую базу переведенных текстов. Например, существует много книг, которые дословно переведены почти на все языки мира, например, Библия и «Гарри Поттер». Для настройки алгоритмов могут использоваться не только электронные тексты, но даже звуковые файлы.

В данный момент качество перевода ограничивается только одним фактором: мощностью компьютера. Недостаточный объем оперативной памяти накладывает ограничение на максимально возможный объем статистической базы. Ведь для нормального перевода нужны сотни тысяч, миллионы книг. Но разработчики не унывают, ведь недалек тот день, когда в ОЗУ обычной персоналки сможет поместиться вся письменность, созданная за все время существования человечества на всех языках мира (по приблизительной оценке, это всего лишь несколько десятков петабайт). Вполне вероятно, что такая программа сможет пройти даже тест Тьюринга, вычисляя человеческие ответы с помощью своих статистических алгоритмов.

Что тут можно добавить? Остается только перефразировать фразу из «Терминатора», как это сделали читатели Slashdot’а:

SARAH CONNER: What can you tell me about Kevin Knight and Daniel Marcu?

TERMINATOR: I have detailed files.

разделы:

Другие

Последние комментарии
об издании | тур по сайту | подписки и RSS | вопросы и ответы | размещение рекламы | наши контакты | алфавитный указатель

Copyright © 2001-2020 «Вебпланета». При перепечатке ссылка на «Вебпланету» обязательна.

хостинг от .masterhost