Структура лексической разметки

Управление языковыми ресурсами. Структура лексической разметки ( LMF ; ISO 24613 ), разработанная ISO/TC 37 , является стандартом ISO для обработки естественного языка (NLP) и лексиконов машиночитаемых словарей (MRD) . ^[1] Областью применения является стандартизация принципов и методов, касающихся языковых ресурсов в контексте многоязычного общения.

Цели

Цели LMF — предоставить общую модель для создания и использования лексических ресурсов , управлять обменом данными между этими ресурсами, а также обеспечить возможность объединения большого количества отдельных электронных ресурсов для формирования обширных глобальных электронных ресурсов.

Типы отдельных экземпляров LMF могут включать одноязычные, двуязычные или многоязычные лексические ресурсы. Одни и те же спецификации должны использоваться как для малых, так и для больших лексиконов, как для простых, так и для сложных лексиконов, как для письменных, так и для устных лексических представлений. Описания варьируются от морфологии , синтаксиса , вычислительной семантики до перевода с помощью компьютера . Охватываемые языки не ограничиваются европейскими языками , а охватывают все естественные языки . Спектр целевых применений НЛП не ограничен. LMF способен представлять большинство лексиконов, включая лексиконы WordNet , EDR и PAROLE.

История

В прошлом стандартизация лексики изучалась и развивалась в рамках ряда проектов, таких как GENELEX, EDR, EAGLES, MULTEXT, PAROLE, SIMPLE и ISLE. Затем национальные делегации ISO/TC 37 решили рассмотреть стандарты, посвященные НЛП и представлению лексики. Работа над LMF началась летом 2003 г. с предложения нового рабочего пункта, представленного делегацией США. Осенью 2003 года французская делегация опубликовала техническое предложение по модели данных , посвященной лексикону НЛП. В начале 2004 года комитет ISO/TC 37 решил сформировать общий проект ISO с Николеттой Кальцолари ( CNR -ILC Италия) в качестве координатора и Хилем Франкопуло (Tagmatica Франция) и Монте Джорджем ( ANSI , США) в качестве редакторов. Первым шагом в разработке LMF было создание общей структуры, основанной на общих характеристиках существующих лексиконов, и разработка согласованной терминологии для описания компонентов этих лексиконов. Следующим шагом стала фактическая разработка комплексной модели, которая лучше всего представляла бы все словари в деталях. Большая группа из 60 экспертов представила широкий спектр требований к LMF, охватывающих многие типы лексиконов НЛП. Редакторы LMF тесно сотрудничали с группой экспертов, чтобы определить лучшие решения и достичь консенсуса по дизайну LMF. Особое внимание было уделено морфологии, чтобы обеспечить мощные механизмы решения проблем в нескольких языках, которые считались трудными для решения. 13 версий были написаны, разосланы (назначенным национальным экспертам), прокомментированы и обсуждены на различных технических совещаниях ИСО. После пяти лет работы, включая многочисленные личные встречи и обмен электронной почтой, редакторы пришли к последовательной модели UML. В заключение, LMF следует рассматривать как синтез современного уровня лексики НЛП.

Текущий этап

Номер ISO — 24613. Спецификация LMF была официально опубликована как международный стандарт 17 ноября 2008 г.

Являясь одним из членов семейства стандартов ISO/TC 37.

Стандарты ISO/TC 37 в настоящее время разрабатываются как спецификации высокого уровня и касаются сегментации слов (ISO 24614), аннотаций (ISO 24611, также известного как MAF, ISO 24612, также известного как LAF, ISO 24615, также известного как SynAF, и ISO 24617-1, также известного как SemAF/Time). , структуры объектов (ISO 24610), мультимедийные контейнеры (ISO 24616, также известные как MLIF) и словари (ISO 24613). Эти стандарты основаны на спецификациях низкого уровня, посвященных константам, а именно категориям данных (пересмотр ISO 12620), языковым кодам ( ISO 639 ), кодам сценариев ( ISO 15924 ), кодам стран ( ISO 3166 ) и Unicode ( ISO 10646 ).

Двухуровневая организация образует целостное семейство стандартов со следующими общими и простыми правилами:

спецификация высокого уровня предоставляет структурные элементы, дополненные стандартизированными константами;
спецификации низкого уровня предоставляют стандартизированные константы в качестве метаданных.

Ключевые стандарты

Лингвистические константы, такие как /feminine/ или /transitive/, не определены в LMF, но записываются в реестр категорий данных (DCR), который поддерживается ISO/TC 37 в качестве глобального ресурса в соответствии с ISO/IEC 11179-3:2003. . ^[2] И эти константы используются для украшения структурных элементов высокого уровня.

Спецификация LMF соответствует принципам моделирования Unified Modeling Language (UML), определенным Object Management Group (OMG). Структура задается с помощью диаграмм классов UML . Примеры представлены посредством диаграмм экземпляров (или объектов) UML.

XML DTD приведен в приложении к документу LMF.

Структура модели

LMF состоит из следующих компонентов:

Базовый пакет, представляющий собой структурный скелет, описывающий базовую иерархию информации в лексической статье.
Расширения основного пакета, выраженные в структуре, описывающей повторное использование основных компонентов в сочетании с дополнительными компонентами, необходимыми для конкретного лексического ресурса.

Расширения специально предназначены для морфологии , MRD , синтаксиса NLP , семантики NLP , многоязычных обозначений NLP , морфологических шаблонов NLP , шаблонов многословных выражений и шаблонов выражений ограничений .

Пример

В следующем примере лексическая статья связана с леммой « священнослужитель» и двумя флективными формами «священнослужитель» и «священнослужитель» . Кодировка языка задается для всего лексического ресурса. Значение языка устанавливается для всего словаря, как показано на следующей диаграмме экземпляра UML .

Элементы Лексический ресурс , Глобальная информация , Лексикон , Лексическая запись , Лемма и Словоформа определяют структуру словаря. Они указаны в документе LMF. Напротив, LanguageCoding , Language , PartOfSpeech , commonNoun , WriteForm , grammaticalNumber , Единственное число , Множественное число — это категории данных, которые берутся из Реестра категорий данных. Эти знаки украшают конструкцию. Значения ISO 639-3 , священнослужитель , священнослужители представляют собой простые строки символов. Значение eng взято из списка языков, определенного стандартом ISO 639-3 .

С некоторой дополнительной информацией, такой как dtdVersion и feat , те же данные могут быть выражены следующим фрагментом XML :

<LexicalResource dtdVersion= "15" > <GlobalInformation> <feat att= "languageCoding" val= "ISO 639-3" /> </GlobalInformation> <Lexicon> <feat att= "language" val= "eng" /> < LexicalEntry> <feat att= "partOfSpeech" val= "commonNoun" /> <Lemma> <feat att= "writingForm" val= "священнослужитель" /> </Lemma> <WordForm> <feat att= "writingForm" val= " clergyman" /> <feat att= "grammaticalNumber" val= "singular" /> </WordForm> <WordForm> <feat att= "writingForm" val= "clergymen" /> <feat att= "grammaticalNumber" val= "plural " /> </WordForm> </LexicalEntry> </Lexicon> </LexicalResource>

Этот пример довольно прост, хотя LMF может представлять гораздо более сложные лингвистические описания, маркировка XML соответственно сложна.

Избранные публикации о LMF

Первая публикация о спецификации LMF, ратифицированная ISO (эта статья стала (в 2015 г.) 9-й по цитируемости статьей на конференциях Language Resources and Evaluation среди статей LREC):

Языковые ресурсы и оценка LREC-2006/Генуя: Хиль Франкопуло, Монте Джордж, Николетта Кальцолари, Моника Моначини, Нурия Бел, Мэнди Пет, Клаудия Сориа: Структура лексической разметки (LMF) ^[3]

О семантическом представлении:

Gesellschaft für linguistische Datenverarbeitung GLDV-2007/Тюбинген: Хиль Франкопуло, Нурия Бел, Монте Джордж Николетта Кальцолари, Моника Моначини, Мэнди Пет, Клаудия Сориа: Стандарт лексической разметки ISO для семантической информации в лексиконах НЛП ^[4]

Об африканских языках:

Traitement Automatique des langues naturallles, Марсель, 2014: Мухамаду Хуле, Мухамад Ндианхо Тиам, Эль-Хадж Мамаду Нгуер: На пути к созданию лексикона языка волоф на основе LMF (Vers la mise en Place d'un lexique basé sur LMF pour la langue wolof) ) [на французском языке] ^[5]

Об азиатских языках:

Лексикография, Журнал ASIALEX, Springer 2014: Структура лексической разметки: Гил Франкопуло, Чу-Рен Хуанг: Стандарт ISO для электронных лексиконов и его значение для азиатских языков DOI 10.1007/s40607-014-0006-z

О европейских языках:

COLING 2010: Верена Хенрих, Эрхард Хинрикс: Стандартизация сетей Wordnet в стандарте ISO LMF: Wordnet-LMF для GermaNet ^[6]
EACL 2012: Джудит Экл-Колер, Ирина Гуревич: Subcat-LMF: разработка стандартизированного формата для совместимости кадров подкатегоризации ^[7]
EACL 2012: Ирина Гуревич, Джудит Экл-Колер, Сильвана Хартманн, Майкл Матушек, Кристиан Мейер, Кристиан Вирт: UBY - крупномасштабный унифицированный лексико-семантический ресурс на основе LMF. ^[8]

О семитских языках:

Журнал инженерии естественного языка , издательство Кембриджского университета (выйдет весной 2015 г.): Аида Хемахем, Билель Гаргури, Абдельмаджид Бен Хамаду, Гил Франкопуло: Стандартное моделирование ISO большого арабского словаря.
Материалы седьмой глобальной конференции Wordnet 2014: Надя Б.М. Кармани, Хсан Суссу, Адель М. Алими: Создание стандартизированной сети Wordnet в ISO LMF для языка aeb. ^[9]
Материалы семинара: HLT и НЛП в арабском мире, LREC 2008: Нуреддин Лукил, Кайс Хаддар, Абдельмаджид Бен Хамаду: К синтаксическому лексикону арабских глаголов. ^[10]
Traitement Automatique des Langues Naturelles, Тулуза (на французском языке), 2007: Хемахем А, Гаргури Б, Абдельвахед А, Франкопуло Г: Моделирование парадигм сгибания арабских глаголов selon la Norme LMF-ISO 24613. ^[11]

Специальная книга

В 2013 году вышла книга: LMF Lexical Markup Framework ^[12] , полностью посвященная LMF. Первая глава посвящена истории моделей лексики, вторая глава представляет собой формальное представление модели данных, а третья посвящена взаимосвязи с категориями данных ISO-DCR. Остальные 14 глав посвящены лексикону или системе гражданского или военного применения, либо в научно-исследовательских лабораториях, либо для промышленного применения. Это Wordnet-LMF, Prolmf, DUELME, UBY-LMF , LG-LMF, RELISH, GlobalAtlas (или Global Atlas) и Wordscape.

Связанные научные коммуникации

Языковые ресурсы и оценка LREC-2006/Генуя: Актуальность стандартов для исследовательских инфраструктур ^[2]

Смотрите также

Компьютерная лексикология
Лексическая семантика
Морфология (лингвистика) для объяснения парадигм и морфосинтаксиса.
Машинный перевод для представления различных типов многоязычных обозначений (см. раздел «Подходы» ).
Морфологическая закономерность отличия парадигмы от парадигмального образца
WordNet для презентации самой известной семантической лексики английского языка
Universal Terminology eXchange (UTX) для ориентированного на пользователя альтернативного формата машиночитаемых словарей.
Универсальный сетевой язык
UBY-LMF для применения LMF
OntoLex-Lemon для модели на основе LMF для публикации словарей в виде графов знаний , в формате RDF и/или в виде лингвистически связанных открытых данных.