W3C предлагает «семантический эсперанто» для Всемирной паутины

МОО ВПП ЮНЕСКО «Информация для всех»

≡ Исследования | пресс-релизы | 29.04.2008 14:44

World Wide Web Consortium (W3C) опубликовал доклады по проблематике неопределенности в аспекте обработки информации, доступной в Интернете, - Uncertainty Reasoning for the World Wide Web, и универсального «веб-языка», позволяющего вести семантическую обработку информации, доступной в Интернете, - Common Web Language.

Член Экспертного совета МОО ВПП ЮНЕСКО «Информация для всех» - декан факультета программирования Московской финансово-промышленной академии, заместитель главного редактора журнала «Прикладная информатика» Валерий Артюхин прокомментировал содержание этих докладов.

Оба доклада, по сути, касаются одной и той же проблематики, активно обсуждаемой в последние несколько лет, а именно семантической обработки информации в сети Интернет. Еще 10 лет назад в России в Сети имели возможность блуждать лишь избранные специалисты или просто счастливцы, у которых был к ней доступ. За пределами нашей страны Интернет развивался более активно, но общий лейтмотив был одинаковым: компании, организации и отдельные граждане создавали свои страницы и открывали к ним доступ всем желающим (разумеется, с разными целями).

Со временем страницы сливались в сайты, сайты в порталы, нужную информацию становилось находить все сложнее, но в этом поиске пользователям помогали поисковые машины (установленные на поисковых серверах). Иными словами, основной целью всего интернет-сообщества в тот период времени было накопление информации, преобразование ее в электронный вид и предоставление доступа к ней.

Тем самым Интернет стал практически бездонным хранилищем для всякого рода сведений, а также плодородной почвой для коммерции. Интенсивность блуждания нарастала. Со всем этим мировым океаном нулей и единиц существовала одна очень большая проблема (не считая множества мелких): в силу своей архитектуры данные в Интернет хорошо структурированы по своей форме, но не по содержанию. Как следствие, ситуация с поиском нужной информации с каждым годом только ухудшается.

Поисковые машины работают методом полнотекстового поиска. Иными словами, они сканируют заявленные Web-страницы и составляют индексы, позволяющие вывести ссылку на данную страницу, если пользователь ввел в строке поиска определенные слова и фразы.

Методы «раскрутки» сайта позволяют «подсунуть» роботу поисковой машины кучу слов и фраз из различных областей, к которым сайт не имеет никакого отношения. В результате вместо сайта с кулинарными рецептами вы попадаете на страницу не слишком пристойного содержания.

Страницы в Интернет создаются на разных языках. Информация по нужной вам теме может присутствовать во всемирной паутине на языке, отличном от всех тех, которыми вы владеете. Автоматизированные переводчики «онлайн», частично решают эту проблему, но далеко не лучшим образом. Кроме того, чтобы найти страницу с информацией на другом языке, ваша «родная» поисковая машина должна знать, как это сделать, ведь она тоже не полиглот.

Две описанные проблемы, вероятно, являются самыми крупными на текущий момент. Суть их можно описать одним тезисом: существует необходимость семантического структурирования и обработки информации, находящейся в Интернете. Полнотекстовый поиск эту проблему не решает.

Итак, первый из опубликованных W3C документов Uncertainty Reasoning for the World Wide Web (Разрешение неопределенности для Всемирной паутины) на самом деле не предлагает нам ничего нового. В нем обобщаются сведения о проблемах, описанных мною выше, и о некоторых других, а также приводится компиляция возможных научных подходов к их решению, например, с применением нечеткой логики или теории вероятностей.

Единого готового решения, разумеется, нет (доклад и не ставит своей целью его предъявление, являясь обзорным). С точки зрения структурирования информации о проблеме документ полезен, но не более того. На мой взгляд, подобный доклад может породить любой хороший специалист в области экспертных систем или систем искусственного интеллекта (тем паче, что тематики, на самом деле близкие).

Со вторым документом - Common Web Language (Общий веб-язык) - дело обстоит интереснее, ибо авторы предлагают готовый рецепт решения проблемы. В их докладе приводится архитектура и дается спецификация разработанного ими нового языка CWL, а также (и это крайне важно) описание платформы, на которой этот язык работает.

Для меня как специалиста по информационным технологиям наличие платформы, то есть работающего программного обеспечения, крайне важно, поскольку оно говорит о том, что результат можно потрогать, испробовать и, возможно, использовать, а не только прочитать о нем.

Не вдаваясь в детали синтаксиса и реализации языка, (они могут быть интересны лишь узким специалистам), скажу лишь, что язык позволяет представить текст Web-страницы в виде его семантической структуры. Каждый абзац, предложение и фраза разбиваются на составляющие, представляемые в виде отдельных связанных между собой концепций (будь они предметами, действующими лицами или непосредственно действиями). Связи между концепциями позволяют выразить направление и характер событий. Атрибуты позволяют записать различные субъективные аспекты, такие как отношение действующего лица к действию, время действия и так далее.

Текст в такой записи значительно проще идентифицировать и машинно-обрабатывать с точки зрения семантики, что позволяет решить проблемы поиска и перевода информации, а также поиска материалов на другом языке (эта третья проблема, замечу, не идентична двум первым). Вообще, складывается такое впечатление, что изначально авторы собирались продвигать свое решение исключительно в области лингвистики, а не в сфере ИТ, однако, это мое частное мнение.

Хотелось бы отметить не технический, а «внедренческий» момент данной технологии. Почему-то и мне, и всем моим коллегам, изучавшим данный документ, подсознательно, как они признавались, вспоминался язык эсперанто. Я не сразу понял почему, но…

Этот искусственный язык создавался так, чтобы быть легким в изучении и перекинуть мостик между всеми языками в мире. Однако он так и не завоевал мир, хотя и имеет множество почитателей. Приведу и другой пример. Авторы CWL в начале документа ссылаются на тот факт, что подавляющее большинство текстов в WWW размещается на английском языке, и пользователи, которые его не знают, испытывают сложности (именно так, хотя я бы просто сказал, что они не в состоянии их прочитать).

Но английский язык уже более десятилетия de facto является стандартным языком в сфере ИТ. Как я говорю своим студентам-программистам: «Для вас это не иностранный язык – это необходимое средство коммуникаций и поиска информации!» Если даже студентов ИТ-специальностей удается убедить в этом не без труда, то возникает вопрос: насколько способен помочь разрешению обсуждаемых проблем в WWW искусственно созданный язык, обладающий далеко нетривиальным синтаксисом, для использования которого в любом случае нужно знать какой-либо иностранный?

Конечно, здесь имеет место некое передергивание, ибо дело в программном обеспечении (ПО), а не в конкретной личности: это оно возьмет текст на корейском, разобьет его на части и представит в виде CWL, это оно переведет полученный семантический граф на испанский и соберет заново. Однако такое ПО сначала должен написать живой человек, который для этого должен сначала прочитать и понять документ Common Web Language, написанный, кстати, на английском языке, которого он может и не знать.

Дело в том, что хорошая идея и даже работающий прототип – это еще далеко не все. Чем глобальнее идея, тем сложнее ее внедрить и заставить других в нее поверить, а в данном случае нужно заставить поверить всех авторов веб-страниц (или хозяев сайтов, или хостингов – в любом случае это огромная армия, которая, кстати, в своем большинстве знает английский язык), а как писал Дж. Ханк Рейнвотер в своей известной книге «Как пасти котов»: «то, что делаешь ты, не обязательно буду делать я».

Дорога впереди, конечно, очень долгая, но сегодняшние проблемы в Web локализованы и известны, и я искренне надеюсь, что технология, предложенная авторами CWL (или другая, более простая) через пару-тройку лет доведет Всемирную паутину до нового перекрестка.

Когда-то я пошутил: «за всю его историю наиболее полезными изобретениями человечества стали искусство и возможность коммуникаций людей по всему миру». В области коммуникаций и понимания друг друга еще явно есть, куда двигаться.

комментарии(2) |

разделы: пресс-релизы | Исследования