Машиночитаемый словарь

Машиночитаемый словарь ( MRD ) — это словарь, хранящийся в виде машиночитаемых данных, а не печатаемый на бумаге. Это электронный словарь и лексическая база данных .

Машиночитаемый словарь — это словарь в электронной форме, который можно загрузить в базу данных и запросить через прикладное программное обеспечение. Это может быть одноязычный толковый словарь или многоязычный словарь для поддержки переводов между двумя или более языками или их комбинацией. Программное обеспечение для перевода между несколькими языками обычно использует двунаправленные словари. MRD может быть словарем с фирменной структурой, запрос к которому осуществляется специализированным программным обеспечением (например, онлайн через Интернет), или это может быть словарь с открытой структурой, доступный для загрузки в компьютерные базы данных и, таким образом, может использоваться через различные программные приложения. Обычные словари содержат лемму с различными описаниями. Машиночитаемый словарь может иметь дополнительные возможности и поэтому иногда называется интеллектуальным словарем. Примером интеллектуального словаря является словарь английского языка с открытым исходным кодом Gellish .
Термин «словарь» также используется для обозначения электронного словаря или лексикона , например, в программах проверки орфографии . Если словари организованы в иерархию подтип-супертип концепций (или терминов), то это называется таксономией . Если она также содержит другие отношения между концепциями, то это называется онтологией . Поисковые системы могут использовать либо словарь, таксономию, либо онтологию для оптимизации результатов поиска. Специализированные электронные словари — это морфологические словари или синтаксические словари.

Термин MRD часто противопоставляется словарю NLP в том смысле, что MRD — это электронная форма словаря, который был напечатан ранее на бумаге. Хотя оба используются программами, термин словарь NLP предпочтительнее, когда словарь был создан с нуля с учетом NLP. Стандарт ISO для MRD и NLP может представлять обе структуры и называется Lexical Markup Framework . ^[1]

История

Первыми широко распространенными MRD были Merriam-Webster Seventh Collegiate (W7) и Merriam-Webster New Pocket Dictionary (MPD). Оба были созданы в рамках финансируемого правительством проекта в System Development Corporation под руководством Джона Олни. Они были набраны вручную, поскольку не было доступных лент для набора ни одной из книг. Первоначально каждый распространялся на нескольких катушках магнитной ленты в виде изображений карточек с каждым отдельным словом каждого определения на отдельной перфокарте с многочисленными специальными кодами, указывающими детали его использования в печатном словаре. Олни изложил грандиозный план анализа определений в словаре, но его проект истек до того, как анализ был проведен. Роберт Амслер из Техасского университета в Остине возобновил анализ и завершил таксономическое описание карманного словаря при финансировании Национального научного фонда , однако его проект истек до того, как таксономические данные были распространены. Рой Берд и др. в IBM Yorktown Heights возобновили анализ Webster's Seventh Collegiate после работы Амслера. Наконец, в 1980-х годах, начав с первоначальной поддержки Bellcore и позже финансируемой различными федеральными агентствами США, включая NSF, ARDA , DARPA , DTO и REFLEX, Джордж Армитидж Миллер и Кристиан Феллбаум из Принстонского университета завершили создание и широкое распространение словаря и его таксономии в проекте WordNet , который сегодня является наиболее широко распространенным ресурсом вычислительной лексикологии.

Ссылки

^ Джил Франкопуло (редактор) LMF Lexical Markup Framework, ISTE / Wiley 2013 ( ISBN 978-1-84821-430-9 )