stringtranslate.com

Древесный берег

Большинство синтаксических древовидных банков аннотируют варианты либо структуры фраз (слева), либо структуры зависимостей (справа).

В лингвистике древовидный банк — это проанализированный текстовый корпус , который аннотирует синтаксическую или семантическую структуру предложения . Построение анализируемых корпусов в начале 1990-х произвело революцию в компьютерной лингвистике , которая извлекла выгоду из крупномасштабных эмпирических данных . [1]

Этимология

Термин « банк деревьев» был придуман лингвистом Джеффри Личем в 1980-х годах по аналогии с другими хранилищами, такими как банк семян или банк крови . [2] Это связано с тем, что как синтаксическая, так и семантическая структура обычно композиционно представляются в виде древовидной структуры . Термин «разобранный корпус» часто используется как синоним термина «деревобанк», с упором на приоритет предложений, а не деревьев.

Строительство

Древовидные структуры часто создаются поверх корпуса, который уже был аннотирован тегами части речи . В свою очередь, деревья иногда дополняются семантической или другой лингвистической информацией. Древовидные банки могут создаваться полностью вручную, когда лингвисты аннотируют каждое предложение синтаксической структурой, или полуавтоматически, когда синтаксический анализатор присваивает некоторую синтаксическую структуру, которую лингвисты затем проверяют и, при необходимости, исправляют. На практике полная проверка и завершение анализа корпусов естественного языка — трудоемкий проект, который может занять у команды дипломированных лингвистов несколько лет. Уровень детализации аннотаций и широта лингвистической выборки определяют сложность задачи и продолжительность времени, необходимого для построения древовидного банка.

Пример дерева структуры фразы «Джон любит Мэри»
Гибридное дерево избирательных округов/зависимостей из Арабского корпуса Корана

Некоторые древовидные банки следуют определенной лингвистической теории в своих синтаксических аннотациях (например, BulTreeBank следует за HPSG ), но большинство стараются быть менее специфичными для теории. Однако можно выделить две основные группы: древовидные банки, которые аннотируют структуру фраз (например, Penn Treebank или ICE-GB) и те, которые аннотируют структуру зависимостей (например, Пражский древовидный банк зависимостей или Коранический арабский древовидный банк зависимостей).

Важно уточнить различие между формальным представлением и форматом файла, используемым для хранения аннотированных данных. Древовидные банки обязательно строятся по определенной грамматике. Одна и та же грамматика может быть реализована в разных форматах файлов. Например, синтаксический анализ фразы «Джон любит Мэри» , показанный на рисунке справа, может быть представлен простыми помеченными скобками в текстовом файле, например так (в соответствии с нотацией Penn Treebank):

(S (NP (ННП Джон)) (ВП (ВПЗ любит) (НП (ННП Мары))) (. .))

Этот тип представления популярен, поскольку он требует мало ресурсов, а древовидную структуру относительно легко читать без программных инструментов. Однако, поскольку корпуса становятся все более сложными, предпочтение может отдаваться другим форматам файлов. Альтернативы включают XML - схемы, специфичные для древовидных банков, нумерованные отступы и различные типы обозначений отклонения.

Приложения

С точки зрения компьютерной лингвистики [3] древовидные банки использовались для разработки современных систем обработки естественного языка, таких как тегеры частей речи , парсеры , семантические анализаторы и системы машинного перевода. [4] Большинство вычислительных систем используют древовидные данные золотого стандарта. Однако автоматически анализируемый корпус, который не корректируется лингвистами-людьми, все равно может быть полезен. Это может предоставить анализатору подтверждение частоты правил. Синтаксический анализатор можно улучшить, применяя его к большим объемам текста и собирая частоты правил. Однако должно быть очевидно, что только путем исправления и дополнения корпуса вручную можно выявить правила, отсутствующие в базе знаний синтаксического анализатора. Кроме того, частоты, вероятно, будут более точными.

В корпусной лингвистике древовидные банки используются для изучения синтаксических явлений (например, диахронические корпуса могут использоваться для изучения динамики синтаксических изменений). После анализа корпус будет содержать данные о частоте использования, показывающие, насколько часто используются различные грамматические структуры. Treebanks также предоставляет доказательства освещения и поддерживает открытие новых, неожиданных грамматических явлений.

Еще одно использование деревьев в теоретической лингвистике и психолингвистике - это доказательства взаимодействия. Заполненный древовидный банк может помочь лингвистам проводить эксперименты относительно того, как решение использовать одну грамматическую конструкцию имеет тенденцию влиять на решение сформировать другие, а также попытаться понять, как говорящие и писатели принимают решения при формировании предложений. Исследования взаимодействия особенно плодотворны, когда к корпусу добавляются дополнительные уровни аннотации, например семантические и прагматические. Тогда можно оценить влияние несинтаксических явлений на грамматический выбор.

В лингвистических исследованиях аннотированные данные древовидных структур использовались в синтаксических исследованиях для проверки лингвистических теорий структуры предложений на большом количестве естественных примеров. [ нужна цитата ]

Семантические древовидные банки

Семантический древовидный банк — это совокупность предложений естественного языка, аннотированных смысловым представлением. Эти ресурсы используют формальное представление семантической структуры каждого предложения . Семантические древовидные банки различаются по глубине своего семантического представления. Ярким примером глубокой семантической аннотации является Гронингенский банк значений, разработанный в Гронингенском университете и аннотированный с использованием теории репрезентации дискурса . Примером мелкого семантического древовидного банка является PropBank , который обеспечивает аннотацию вербальных предложений и их аргументов, не пытаясь представить каждое слово в корпусе в логической форме .

Синтаксические древовидные банки

Многие синтаксические древовидные банки были разработаны для самых разных языков:

Чтобы облегчить дальнейшие исследования многоязычных задач, некоторые исследователи обсудили универсальную схему аннотаций для разных языков. Таким образом, люди пытаются использовать или объединить преимущества различных древовидных корпораций. Например, универсальный подход к аннотациям для банков деревьев зависимостей; [10] и универсальный подход к аннотациям для древовидных банков фразовых структур. [11]

инструменты поиска

Одним из ключевых способов извлечения доказательств из дерева является использование инструментов поиска. Инструменты поиска для проанализированных корпусов обычно зависят от схемы аннотаций, примененной к корпусу. Пользовательские интерфейсы варьируются по сложности: от систем запросов на основе выражений, предназначенных для программистов, до полноценных исследовательских сред, предназначенных для лингвистов общего профиля. Уоллис (2008) подробно обсуждает принципы поиска на деревьях и анализирует современное состояние техники того времени. [12]

Смотрите также

Рекомендации

  1. ^ Александр Кларк, Крис Фокс и Шалом Лаппин (2010). Справочник по компьютерной лингвистике и обработке естественного языка. Уайли.
  2. ^ Сэмпсон, Г. (2003) «Размышления дендрографа». В книге А. Уилсона, П. Рэйсона и Т. МакЭнери (ред.) Корпусная лингвистика журнала Lune: Festschrift для Джеффри Лича, Франкфурт-на-Майне: Питер Ланг, стр. 157-184.
  3. ^ Хайтао Лю, Вэй Хуан — Китайский синтаксис зависимостей для древовидных банков, опубликованный Китайским университетом связи , опубликованный (онлайн) Ассоциацией компьютерной лингвистики , по состоянию на 4 февраля 2020 г.
  4. ^ Кюблер, Сандра; Макдональд, Райан; Нивре, Йоаким (18 декабря 2008 г.). «Разбор зависимостей». Обобщающие лекции по технологиям человеческого языка . 2 (1): 1–127. doi : 10.2200/s00169ed1v01y200901hlt002.
  5. ^ Кейс Дьюкс (2013) Семантическая аннотация пространственных команд роботов. Конференция по языку и технологиям (LTC). Познань, Польша.
  6. ^ Челано, Джузеппе Г.А. 2014. Рекомендации по аннотированию древовидного банка зависимостей Древней Греции 2.0. https://github.com/PerseusDL/treebank_data/edit/master/AGDT2/guidelines
  7. ^ Мамбрини, Ф. 2016. Древнегреческий древовидный банк зависимостей: лингвистическая аннотация в учебной среде. В: Бодар, Дж. и Романелло, М. (ред.) Цифровая классика за пределами эхо-камеры: преподавание, обмен знаниями и взаимодействие с общественностью, стр. 83–99. Лондон: Ubiquity Press. дои : 10.5334/bat.f
  8. ^ abcdef Даг Хауг. 2015. Деревья в исторических лингвистических исследованиях. В Карлотте Вити (ред.), Перспективы исторического синтаксиса, Бенджаминс, 188–202. Препринт доступен по адресу http://folk.uio.no/daghaug/historical-treebanks.pdf.
  9. ^ Бэмман Дэвид и др. 2008. Рекомендации по синтаксической аннотации латинских деревьев (версия 1.3). http://nlp.perseus.tufts.edu/syntax/treebank/1.3/docs/guidelines.pdf
  10. ^ Макдональд, Р.; Нивр Дж., Кирмбах-Брандейдж Ю.; и другие. «Универсальная аннотация зависимостей для многоязычного анализа». Материалы ACL 2013 .{{cite conference}}: CS1 maint: несколько имен: список авторов ( ссылка )
  11. ^ Хан, AL-F; Вонг, Д.Ф.; Чао, Л.С.; Лу, Ю.; Он, Л. и Тиан, Л. (2014). «Универсальный набор фразовых тегов для многоязычных деревьев» (PDF) . Proceedings of CCL и NLP-NABD 2014, LNAI 8801, стр. 247–258. © Springer International Publishing Switzerland . дои : 10.1007/978-3-319-12277-9_22.
  12. ^ Уоллис, Шон (2008). Поиск деревьев и других структурированных корпусов. Глава 34 в книге Люделинг А. и Кито М. (ред.) Корпусная лингвистика: Международный справочник. Серия Handbücher zur Sprache und Kommunikationswissenschaft. Берлин: Мутон де Грюйтер.