Rambler's Top100
 
 
  04 декабря 2008 года Компьюлента
CIO
Терралаб
Бизнес-журнал
в поле зрения | обзоры и тесты | своя игра | интерактив
Что такое UNL?
Автор: Леонид Крейдлин
Опубликовано в журнале "Компьютерра" №13 от 02 апреля 2001 года

Под аббревиатурой UNL скрывается обозначение универсального сетевого языка (The Universal Networking Language), разрабатывающегося в настоящее время семнадцатью научными институтами, университетами, заинтересованными фирмами и исследовательскими центрами из разных стран под эгидой Института передовых исследований токийского университета Организации Объединенных Наций (UNU/IAS).

По замыслу, UNL - это искусственный семантико-синтаксический язык, предназначенный для описания, хранения и распространения информации в WWW в не зависящем от какого-либо естественного языка виде, а также независимо от конкретной компьютерной платформы или операционной системы. В отличие от систем машинного перевода, призванных осуществлять перевод с одного естественного языка на другой, предполагается, что система UNL должна уметь автоматически (или полуавтоматически) преобразовывать исходный текст в его UNL-представление, а затем синтезировать из этого представления текст на нужном языке. Таким образом, о UNL можно говорить как о своеобразном языке-посреднике, удобном для хранения информации и ее восстановления на любом естественном языке из числа поддерживаемых системой. По словам директора UNU/IAS профессора Тарчизио делла Сента (Tarcisio Della Senta), речи о переводе поэтических произведений или философских трактатов, разумеется, не идет. Однако система должна оказаться весьма полезной для перевода научных, финансово-экономических и социально-экономических текстов, разнообразной документации (всем известно, как много документов блуждает по многочисленным ООНовским инстанциям). Иными словами, ожидается, что с использованием UNL в Интернете обмен информацией станет проще, а у людей, говорящих на разных языках, появится возможность получать и распространять информацию, используя свой родной язык.

В настоящее время люди используют для общения около трех тысяч языков и диалектов. На сорока языках говорит более трех миллиардов человек. В проекте UNL, реализация которого началась в апреле 1996 года (всего же он рассчитан на десять лет), ведутся в том числе работы по интеграции языков в систему. На данный момент задействовано шесть официальных языков ООН (арабский, китайский, английский, французский, русский и испанский), а также хинди, индонезийский, итальянский, японский, латышский, немецкий, монгольский, португальский, суахили и тайский. Русский язык «представляют» две организации: компания «СТАР СПб» и Лаборатория компьютерной лингвистики Института проблем передачи информации Российской академии наук.

Особенности языка UNL

Итак, назначение UNL - представить смысл исходных естественно-языковых слов, словосочетаний, предложений или же целых текстов. Для этого разработан целый аппарат записи этих смыслов, смысловых концептов.

Как и всякий язык, UNL имеет свой словарь (или лексикон), который называется UW (от англ. universal word - универсальное слово). В словаре содержатся сведения о единицах языка UNL. Из общей идеи об описании смыслов и об универсальности языка вытекает его важная особенность: единицами языка UNL являются не слова, а так называемые концептуальные элементы (UW). Безусловно, здесь возникает проблема с определением множества концептуальных элементов (или концептов), которые будут иметь место в языке. Было решено, что словарь UW должен быть составлен на основе английского языка. Именно английские слова (и признанные устойчивыми словосочетания) являются входами (entries) словаря UW, именно при помощи английских слов (= элементарных UW) задаются смысловые ограничения каждого отдельно взятого UW. Подобные ограничения смысла, с одной стороны, неимоверно увеличивают количество словарных входов и раздувают лексикон, но с другой - позволяют снять столь частую в естественных языках омонимию и точно задать необходимое значение слова. В то же время понятия, тесно связанные с каким-либо иным языком, или с культурой, отличной от англо-американской, также фиксируются в словаре.

Пополнение UW происходит за счет информации, содержащейся в базе знаний KB (англ. knowledge base) - особом перечне сочетаемости всевозможных смыслов друг с другом. Уточнение значений концептуальных элементов производится путем приписывания им ограничительных помет (restriction labels). Пометы описывают смысл UW и представляют собой пару или пары вида (f > S), где f - некоторое семантическое бинарное отношение, а S - иное, отличное от данного (элементарное) UW, в отношении f к которому находится рассматриваемое UW. Система UNL постоянно совершенствуется, так что список отношений периодически изменяется. Судя по последней спецификации языка UNL, сейчас устанавливается около сорока таких отношений. В их числе - гипонимическое отношение (icl - от англ. inclusion), отношения синонимии (equ - англ. equal) и антонимии (ant - англ. antonym), объекта (obj - англ. object) и агента (agt - англ. agent) действия и многие другие. Однако говорить о полноте списка пока, к сожалению, нельзя.

Приведу, наконец, пример. Так, английскому слову dog в словаре UW будут среди прочих соответствовать такие концептуальные элементы:

dog(icl>animal) - собака (животное)

dog(icl>male) - собака мужского пола - кобель

dog(icl>#event, agt>human) - травить собаками (#event указывает на то, что данное UW - какое-то действие

dog’s meat(icl>food) - мясо для собаки

dog’s meat(icl>meat) - собачатина

Что же такое текст на языке UNL? Текст на UNL представляет собой граф, узлы которого - смысловые концепты, взятые из словаря UW, с приписанными им морфо-синтаксическими и семантическими характеристиками (атрибутами), а дуги - семантические отношения (см. выше), устанавливающие связь между двумя UW. Главным членом отношения считается то UW, которому приписан атрибут @entry, а при отсутствии атрибута - первый из двух элементов. В каждом конкретном предложении концепты дополняются специфичными для них в данном предложении атрибутами: категорией времени (@future, @present, …), числа (@sg, @pl), тема-рематическими характеристиками 1 UW (@emphasis, @focus, …), модальностью (@obligation, @possibility, …) и прочим.

Одним своим положением UNL несколько напоминает грамматику синтаксических групп (по А. В. Гладкому), а именно тем, что отношения могут быть сгруппированы, пронумерованы и объединены в совокупности, называемые scopes. Номер группы наравне с UW может выступать в качестве члена отношения, и ему (номеру) тоже можно приписывать атрибутивные метки, характеризующие всю совокупность. Подобное объединение совсем не обязательно, оно лишь помогает увидеть иерархию структуры в целом.

Значение английского предложения The dog caught a wild cat будет иметь следующее UNL-представление:

[S]

agt(catch(icl>#event).@past.@pred.@entry, dog(icl>animal).@def)
obj(catch(icl>#event).@past.@pred.@entry, cat(icl>animal).@indef)
mod(cat(icl>animal).@indef,wild(icl>#state, ant>domestic))

[/S]

Маркеры [S] и [/S] сродни гипертекстовой (SGML) разметке. В UNL они используются для обозначения начала и конца предложения. Аналогично, существуют теги для разметки UNL-текстов. Маркируются не только предложения, но и абзацы, главы, заголовки, подзаголовки и др. Помимо собственно текстовой разметки, служебной информации, комментариев и UNL-представления, в документе могут содержаться варианты текста на всех языках, обрабатываемых системой. Такой документ имеет особый статус UNL-документа, и именно с ним работает система UNL.

Несколько слов об устройстве системы UNL

UNL-система состоит из трех основных модулей-приложений, называемых конвертер (enconverter), деконвертер (deconverter) и UNL viewer. Первый осуществляет (полу)автоматический анализ и преобразование входного текста в текст на UNL. Задача второго заключается в получении (синтезе) из входного UNL-представления (любого документа на языке UNL) текста на необходимом естественном языке (ЕЯ).

Конвертер и деконвертер - суть правила анализа и синтеза. Разрабатываются эти правила отдельно для каждого конкретного языка, тогда как программы, применяющие их, являются универсальными для всех языков. Тем самым, поскольку язык UNL претендует на универсальность, а анализ и синтез для разных языков независимы, вся система остается открытой для новых языков. Программа анализа воспринимает не только грамматические правила, правила построения фраз, но и недавно предложенные правила извлечения информации о структуре входного предложения через схожие шаблоны выражений. Грамматически неоднозначные интерпретации, морфологическая омонимия разрешаются с помощью статистического анализа контекста, а семантическая неопределенность снимается, насколько это возможно, на основании сведений, почерпнутых из базы знаний.

Особое место отводится программе UNL editor, позволяющей писать вручную или редактировать тексты на UNL. В этой программе комбинируются модули конвертера и деконвертера для данного ЕЯ, что дает пользователю возможность увидеть, насколько корректно или некорректно передает UNL-текст смысл исходного текста. Обратная связь прослеживается при трансляции («деконвертации») UNL-текста назад в текст на ЕЯ. В случае расхождения значений входного и выходного текстов, можно подправлять UNL-текст до тех пор, пока не будет достигнута необходимая с точки зрения пользователя степень точности.

Вся информация, все тексты на языке UNL хранятся в специальном архиве - UNL Document Base. Этот архив, как и словарь UW, может быть пополнен по сети или по электронной почте. Программа UNL viewer позволяет посмотреть на любую естественно-языковую интерпретацию UNL-документа.

Не все участники проекта используют в работе с UNL программы, предоставленные отделением UNU/IAS - UNL Центром. В Лаборатории компьютерной лингвистики ИППИ РАН для целей синтеза и анализа текстов на UNL была адаптирована собственная система машинного перевода «ЭТАП-3». Поскольку в основе языка UNL - английский язык, а текст на UNL имеет вид графа, переход от UNL к русскому (или обратно) происходит не напрямую, а через нормализованную английскую синтаксическую структуру. Так, при анализе UNL-текста из семантического графа строится синтаксическое дерево, к которому затем применяется комплекс автоматического англо-русского перевода, и в результате получается русский текст.

Как система UNL будет работать

Предполагается, что система UNL будет установлена на WWW-серверах в Интернете (кстати, официальная страница UNL расположена по адресу www.unl.ias.unu.edu). Пользователь, попав на страницу, где информация дается в формате UNL-документа, будет вызывать специальное приложение браузера (аналогичное программе UNL viewer). Если же у страницы UNL-представления нет, то она может быть переведена на нужный язык при помощи сервера-переводчика, содержащего только ту часть системы UNL, которая работает с этим языком.

Создатели UNL планируют (при благоприятном развитии системы и достаточном финансировании) распространить сферу действия UNL на периодические издания, публикуемые в Интернете, на электронную почту и конференции, онлайновые библиотечные, научно-технические и информационно-поисковые системы, не говоря уже о публикациях таких организаций, как ООН и ЮНЕСКО. Представляете, вы пишете деловое письмо по-русски, а ваш партнер из Пекина получает его на китайском! Такие дела.

[i39026]


1 (обратно к тексту) - То есть имеющими отношение к делению высказывания на тему (данное, известное, то, о чем сообщается) и рему (новое, то, что сообщается). Например, во фразе «Петя пришел!» - с ударением на «Петя»: «Петя» - рема, «пришел» - тема.
ТАКЖЕ В РАЗДЕЛЕ
04 ноября 2008 года
Все будет х….о! 
04 ноября 2008 года
Продолжение следует 
28 октября 2008 года
Танцы на игле 
28 октября 2008 года
Чудесный порошок 
 
САМОЕ ПОПУЛЯРНОЕ
Тонкости анонимного серфинга в Сети
Сегодня мы будем учиться заметать следы. Правда, не настоящие, а виртуальные, всякий раз оставляемые пользователем при работе в Интернете и с большим удовольствием потребляемые всевозможными онлайновыми сервисами.
Топ 5: Самые жестокие компьютерные игры
Хотите кровушки? Получайте... World of Warcraft: Lich King (правда-правда), - Mortal Kombat (здравствуй детство), - Postal (куда ж мы без Чувака), - Manhunt (режь-убивай), - Thrill Kill (адское месиво).
Нетбуки против Windows
Нетбукам нужна лёгкая операционная система. Windows Vista, определённо, такой не является. Windows XP давно морально устарела. Linux? Или всё-таки подождать выхода легковесной версии Windows 7?
Неделя после Fallout
Продажи новой игры из серии Fallout, разработанной студией Bethesda, идут очень неплохо - и это при том, что первый патч принёс игрокам кучу проблем, а японцы, оказалось, лишились части одного из квестов.
/  бумажный номер

Тема номера: Кризис в ИТ Читайте на сайте тему номера "Кризис в ИТ" и другие статьи из журнала "Компьютерра" от 04 ноября 2008 года
  Архив номеров журнала

О проекте | Реклама на сайте | Рассылки сайта | КПК–версия | RSS-трансляция

© ООО «Компьютерра–Онлайн», 1997 — 2008.
При цитировании и использовании любых материалов ссылка на портал «Компьютерра–Онлайн» обязательна (для Интернет–изданий — www.computerra.ru)
Редакция сайта: site@computerra.ru
Техподдержка сайта: websupport@computerra.ru
Редакция журнала: inform@computerra.ru
Отдел рекламы: reklama@computerra.ru
Телефон: (495) 232–22–61, (495) 232–22–63
Работает на «Битрикс: Управление сайтом»
Почта защищена сервером «СПАМОРЕЗ»
Трилан — продвижение сайта,
поисковая оптимизация сайта

Сайт работает на сервере DEPO Computers
Rambler's Top100