stringtranslate.com

Структура лексической разметки

Управление языковыми ресурсами. Структура лексической разметки ( LMF ; ISO 24613 ), разработанная ISO/TC 37 , является стандартом ISO для обработки естественного языка (NLP) и лексиконов машиночитаемых словарей (MRD) . [1] Областью применения является стандартизация принципов и методов, касающихся языковых ресурсов в контексте многоязычного общения.

Цели

Цели LMF — предоставить общую модель для создания и использования лексических ресурсов , управлять обменом данными между этими ресурсами, а также обеспечить возможность объединения большого количества отдельных электронных ресурсов для формирования обширных глобальных электронных ресурсов.

Типы отдельных экземпляров LMF могут включать одноязычные, двуязычные или многоязычные лексические ресурсы. Одни и те же спецификации должны использоваться как для малых, так и для больших лексиконов, как для простых, так и для сложных лексиконов, как для письменных, так и для устных лексических представлений. Описания варьируются от морфологии , синтаксиса , вычислительной семантики до перевода с помощью компьютера . Охватываемые языки не ограничиваются европейскими языками , а охватывают все естественные языки . Спектр целевых применений НЛП не ограничен. LMF способен представлять большинство лексиконов, включая лексиконы WordNet , EDR и PAROLE.

История

В прошлом стандартизация лексики изучалась и развивалась в рамках ряда проектов, таких как GENELEX, EDR, EAGLES, MULTEXT, PAROLE, SIMPLE и ISLE. Затем национальные делегации ISO/TC 37 решили рассмотреть стандарты, посвященные НЛП и представлению лексики. Работа над LMF началась летом 2003 г. с предложения нового рабочего пункта, представленного делегацией США. Осенью 2003 года французская делегация опубликовала техническое предложение по модели данных , посвященной лексикону НЛП. В начале 2004 года комитет ISO/TC 37 решил сформировать общий проект ISO с Николеттой Кальцолари ( CNR -ILC Италия) в качестве координатора и Хилем Франкопуло (Tagmatica Франция) и Монте Джорджем ( ANSI , США) в качестве редакторов. Первым шагом в разработке LMF было создание общей структуры, основанной на общих характеристиках существующих лексиконов, и разработка согласованной терминологии для описания компонентов этих лексиконов. Следующим шагом стала фактическая разработка комплексной модели, которая лучше всего представляла бы все словари в деталях. Большая группа из 60 экспертов представила широкий спектр требований к LMF, охватывающих многие типы лексиконов НЛП. Редакторы LMF тесно сотрудничали с группой экспертов, чтобы определить лучшие решения и достичь консенсуса по дизайну LMF. Особое внимание было уделено морфологии, чтобы обеспечить мощные механизмы решения проблем в нескольких языках, которые считались трудными для решения. 13 версий были написаны, разосланы (назначенным национальным экспертам), прокомментированы и обсуждены на различных технических совещаниях ИСО. После пяти лет работы, включая многочисленные личные встречи и обмен электронной почтой, редакторы пришли к последовательной модели UML. В заключение, LMF следует рассматривать как синтез современного уровня лексики НЛП.

Текущий этап

Номер ISO — 24613. Спецификация LMF была официально опубликована как международный стандарт 17 ноября 2008 г.

Являясь одним из членов семейства стандартов ISO/TC 37.

Стандарты ISO/TC 37 в настоящее время разрабатываются как спецификации высокого уровня и касаются сегментации слов (ISO 24614), аннотаций (ISO 24611, также известного как MAF, ISO 24612, также известного как LAF, ISO 24615, также известного как SynAF, и ISO 24617-1, также известного как SemAF/Time). , структуры объектов (ISO 24610), мультимедийные контейнеры (ISO 24616, также известные как MLIF) и словари (ISO 24613). Эти стандарты основаны на спецификациях низкого уровня, посвященных константам, а именно категориям данных (пересмотр ISO 12620), языковым кодам ( ISO 639 ), кодам сценариев ( ISO 15924 ), кодам стран ( ISO 3166 ) и Unicode ( ISO 10646 ).

Двухуровневая организация образует целостное семейство стандартов со следующими общими и простыми правилами:

Ключевые стандарты

Лингвистические константы, такие как /feminine/ или /transitive/, не определены в LMF, но записываются в реестр категорий данных (DCR), который поддерживается ISO/TC 37 в качестве глобального ресурса в соответствии с ISO/IEC 11179-3:2003. . [2] И эти константы используются для украшения структурных элементов высокого уровня.

Спецификация LMF соответствует принципам моделирования Unified Modeling Language (UML), определенным Object Management Group (OMG). Структура задается с помощью диаграмм классов UML . Примеры представлены посредством диаграмм экземпляров (или объектов) UML.

XML DTD приведен в приложении к документу LMF.

Структура модели

LMF состоит из следующих компонентов:

Расширения специально предназначены для морфологии , MRD , синтаксиса NLP , семантики NLP , многоязычных обозначений NLP , морфологических шаблонов NLP , шаблонов многословных выражений и шаблонов выражений ограничений .

Пример

В следующем примере лексическая статья связана с леммой « священнослужитель» и двумя флективными формами «священнослужитель» и «священнослужитель» . Кодировка языка задается для всего лексического ресурса. Значение языка устанавливается для всего словаря, как показано на следующей диаграмме экземпляра UML .

Элементы Лексический ресурс , Глобальная информация , Лексикон , Лексическая запись , Лемма и Словоформа определяют структуру словаря. Они указаны в документе LMF. Напротив, LanguageCoding , Language , PartOfSpeech , commonNoun , WriteForm , grammaticalNumber , Единственное число , Множественное число — это категории данных, которые берутся из Реестра категорий данных. Эти знаки украшают конструкцию. Значения ISO 639-3 , священнослужитель , священнослужители представляют собой простые строки символов. Значение eng взято из списка языков, определенного стандартом ISO 639-3 .

С некоторой дополнительной информацией, такой как dtdVersion и feat , те же данные могут быть выражены следующим фрагментом XML :

<LexicalResource dtdVersion= "15" > <GlobalInformation> <feat att= "languageCoding" val= "ISO 639-3" /> </GlobalInformation> <Lexicon> <feat att= "language" val= "eng" /> < LexicalEntry> <feat att= "partOfSpeech" val= "commonNoun" /> <Lemma> <feat att= "writingForm" val= "священнослужитель" /> </Lemma> <WordForm> <feat att= "writingForm" val= " clergyman" /> <feat att= "grammaticalNumber" val= "singular" /> </WordForm> <WordForm> <feat att= "writingForm" val= "clergymen" /> <feat att= "grammaticalNumber" val= "plural " /> </WordForm> </LexicalEntry> </Lexicon> </LexicalResource>                                     

Этот пример довольно прост, хотя LMF может представлять гораздо более сложные лингвистические описания, маркировка XML соответственно сложна.

Избранные публикации о LMF

Первая публикация о спецификации LMF, ратифицированная ISO (эта статья стала (в 2015 г.) 9-й по цитируемости статьей на конференциях Language Resources and Evaluation среди статей LREC):

О семантическом представлении:

Об африканских языках:

Об азиатских языках:

О европейских языках:

О семитских языках:

Специальная книга

В 2013 году вышла книга: LMF Lexical Markup Framework [12] , полностью посвященная LMF. Первая глава посвящена истории моделей лексики, вторая глава представляет собой формальное представление модели данных, а третья посвящена взаимосвязи с категориями данных ISO-DCR. Остальные 14 глав посвящены лексикону или системе гражданского или военного применения, либо в научно-исследовательских лабораториях, либо для промышленного применения. Это Wordnet-LMF, Prolmf, DUELME, UBY-LMF , LG-LMF, RELISH, GlobalAtlas (или Global Atlas) и Wordscape.

Связанные научные коммуникации

Смотрите также

Рекомендации

  1. ^ «ISO 24613-1:2024 – Управление языковыми ресурсами – Структура лексической разметки (LMF) – Часть 1: Базовая модель» . ИСО . Проверено 31 января 2024 г.
  2. ^ ab «Актуальность стандартов для исследовательских инфраструктур» (PDF) . Hal.inria.fr . Проверено 24 января 2016 г.
  3. ^ «Среда лексической разметки (LMF)» (PDF) . Hal.inria.fr . Проверено 24 января 2016 г.
  4. ^ «Среда лексической разметки (LMF) для многоязычных ресурсов НЛП» (PDF) . Hal.inria.fr . Проверено 24 января 2016 г.
  5. ^ "Vers la mise en Place d'un lexique basé sur LMF pour la langue Wolof" (PDF) . Aclweb.org . Проверено 24 января 2016 г.
  6. ^ «Стандартизация сетей Wordnet в стандарте ISO LMF: Wordnet-LMF для GermaNet» (PDF) . Aclweb.org . Проверено 24 января 2016 г.
  7. ^ «Subcat-LMF: разработка стандартизированного формата для совместимости кадров подкатегоризации» (PDF) . Aclweb.org : 550–560. Апрель 2012 года . Проверено 24 января 2016 г.
  8. ^ «UBY - Масштабный унифицированный лексико-семантический ресурс на основе LMF» (PDF) . Aclweb.org . Проверено 24 января 2016 г.
  9. ^ «Создание стандартизированной сети Wordnet в ISO LMF для языка aeb» (PDF) . Aclweb.org . Проверено 24 января 2016 г.
  10. ^ "Материалы LREC 2008" . Lrec-conf.org . Проверено 24 января 2016 г.
  11. ^ «Моделирование парадигм сгибания арабских глаголов selon la Norme LMF - ISO 24613» (PDF) . Aclweb.org . Проверено 24 января 2016 г.
  12. ^ Гил Франкопуло (под редакцией) LMF Lexical Markup Framework, ISTE / Wiley 2013 ( ISBN 978-1-84821-430-9

Внешние ссылки