Трибанк

В лингвистике древовидный банк — это проанализированный текстовый корпус , который аннотирует синтаксическую или семантическую структуру предложения . Создание проанализированных корпусов в начале 1990-х годов произвело революцию в компьютерной лингвистике , которая извлекла выгоду из крупномасштабных эмпирических данных . ^[1]

Этимология

Термин «treebank» был придуман лингвистом Джеффри Личем в 1980-х годах по аналогии с другими хранилищами, такими как банк семян или банк крови . ^[2] Это связано с тем, что как синтаксическая, так и семантическая структура обычно представляются композиционно в виде древовидной структуры . Термин «разобранный корпус» часто используется взаимозаменяемо с термином «treebank», с акцентом на первичности предложений, а не деревьев.

Строительство

Древовидные банки часто создаются поверх корпуса, который уже был аннотирован с помощью тегов частей речи . В свою очередь, древовидные банки иногда дополняются семантической или другой лингвистической информацией. Древовидные банки могут быть созданы полностью вручную, когда лингвисты аннотируют каждое предложение синтаксической структурой, или полуавтоматически, когда парсер назначает некоторую синтаксическую структуру, которую лингвисты затем проверяют и, при необходимости, исправляют. На практике полная проверка и завершение синтаксического анализа корпусов естественного языка является трудоемким проектом, на который могут уйти несколько лет у групп дипломированных лингвистов. Уровень детализации аннотаций и широта лингвистической выборки определяют сложность задачи и продолжительность времени, необходимого для создания древовидного банка.

Пример фразы структура дерева для *Джон любит Мэри*

Гибридное дерево избирательных округов/зависимостей из арабского корпуса Корана

Некоторые древовидные банки следуют определенной лингвистической теории в своей синтаксической аннотации (например, BulTreeBank следует HPSG ), но большинство стараются быть менее теоретико-специфичными. Тем не менее, можно выделить две основные группы: древовидные банки, которые аннотируют структуру фраз (например, Penn Treebank или ICE-GB), и те, которые аннотируют структуру зависимости (например, Prague Dependency Treebank или Quranic Arabic Dependency Treebank).

Важно прояснить различие между формальным представлением и форматом файла, используемым для хранения аннотированных данных. Treebanks обязательно строятся в соответствии с определенной грамматикой. Одна и та же грамматика может быть реализована различными форматами файлов. Например, синтаксический анализ для John loves Mary , показанный на рисунке справа, может быть представлен простыми помеченными скобками в текстовом файле, например, так (следуя обозначению Penn Treebank):

(С (НП (ННП Джон)) (ВП (ВПЗ любит) (НП (ННП Мэри))) (. .))

Этот тип представления популярен, поскольку он не требует много ресурсов, а древовидную структуру относительно легко читать без программных инструментов. Однако, поскольку корпусы становятся все более сложными, другие форматы файлов могут быть предпочтительными. Альтернативы включают XML - схемы, специфичные для treebank, нумерованные отступы и различные типы нотации расстояний.

Приложения

С точки зрения вычислительной лингвистики ^[3] , древовидные банки использовались для разработки современных систем обработки естественного языка, таких как тегеры частей речи , парсеры , семантические анализаторы и системы машинного перевода. ^[4] Большинство вычислительных систем используют данные древовидных банков золотого стандарта. Однако автоматически проанализированный корпус, который не был исправлен людьми-лингвистами, все еще может быть полезен. Он может предоставить доказательства частоты правил для парсера. Парсер можно улучшить, применив его к большим объемам текста и собрав частоты правил. Однако должно быть очевидно, что только с помощью процесса исправления и завершения корпуса вручную можно затем идентифицировать правила, отсутствующие в базе знаний парсера. Кроме того, частоты, вероятно, будут более точными.

В корпусной лингвистике древовидные банки используются для изучения синтаксических явлений (например, диахронические корпуса могут использоваться для изучения временного хода синтаксических изменений). После анализа корпус будет содержать частотные свидетельства, показывающие, насколько распространены различные грамматические структуры. Древовидные банки также предоставляют свидетельства покрытия и поддерживают открытие новых, непредвиденных грамматических явлений.

Другое применение древовидных банков в теоретической лингвистике и психолингвистике — это доказательства взаимодействия. Заполненный древовидный банк может помочь лингвистам проводить эксперименты относительно того, как решение использовать одну грамматическую конструкцию влияет на решение сформировать другие, и попытаться понять, как говорящие и писатели принимают решения при формировании предложений. Исследования взаимодействия особенно плодотворны, поскольку к корпусу добавляются дополнительные слои аннотации, например, семантические, прагматические. Затем можно оценить влияние несинтаксических явлений на грамматический выбор.

В лингвистических исследованиях аннотированные данные древовидного банка использовались в синтаксических исследованиях для проверки лингвистических теорий структуры предложений на большом количестве естественно встречающихся примеров. ^{[ необходима ссылка ]}

Семантические древовидные банки

Семантический древовидный банк — это коллекция предложений на естественном языке, аннотированных с помощью смыслового представления. Эти ресурсы используют формальное представление семантической структуры каждого предложения . Семантические древовидные банки различаются по глубине своего семантического представления. Ярким примером глубокой семантической аннотации является Groningen Meaning Bank, разработанный в Университете Гронингена и аннотированный с использованием теории представления дискурса . Примером поверхностного семантического древовидного банка является PropBank , который обеспечивает аннотацию словесных предложений и их аргументов, не пытаясь представить каждое слово в корпусе в логической форме .

Синтаксические древовидные банки

Разработано множество банков синтаксических деревьев для самых разных языков:

Чтобы облегчить дальнейшие исследования между многоязычными задачами, некоторые исследователи обсуждали универсальную схему аннотации для кросс-языков. Таким образом, люди пытаются использовать или объединить преимущества различных корпусов treebanks. Например, универсальный подход аннотации для зависимостей treebanks; ^[10] и универсальный подход аннотации для фразовых структур treebanks. ^[11]

Инструменты поиска

Один из основных способов извлечения доказательств из древовидного банка — это поисковые инструменты. Поисковые инструменты для проанализированных корпусов обычно зависят от схемы аннотации, которая была применена к корпусу. Пользовательские интерфейсы варьируются по сложности от систем запросов на основе выражений, ориентированных на программистов, до полноценных исследовательских сред, ориентированных на лингвистов общего профиля. Уоллис (2008) подробно обсуждает принципы поиска в древовидных банках и рассматривает состояние дел в этой области на тот момент. ^[12]

Смотрите также

Ссылки

^ Александр Кларк, Крис Фокс и Шалом Лаппин (2010). Справочник по компьютерной лингвистике и обработке естественного языка. Wiley.
^ Сэмпсон, Г. (2003) «Размышления дендрографа». В A. Wilson, P. Rayson и T. McEnery (ред.) Corpus Linguistics by the Lune: A Festschrift for Geoffrey Leech, Франкфурт-на-Майне: Peter Lang, стр. 157-184
^ Хайтао Лю, Вэй Хуан — Синтаксис китайских зависимостей для древовидного банкинга, опубликовано Коммуникационным университетом Китая , опубликовано (онлайн) Ассоциацией компьютерной лингвистики — дата обращения 2020-2-4
^ Кюблер, Сандра; Макдональд, Райан; Нивре, Йоаким (18.12.2008). «Анализ зависимостей». Синтезные лекции по технологиям человеческого языка . 2 (1): 1–127. doi :10.2200/s00169ed1v01y200901hlt002.
^ Kais Dukes (2013) Семантическая аннотация пространственных команд робота. Конференция по языку и технологиям (LTC). Познань, Польша.
^ Челано, Джузеппе ГА 2014. Руководство по аннотации Древовидного банка зависимостей Древней Греции 2.0. https://github.com/PerseusDL/treebank_data/edit/master/AGDT2/guidelines
^ Mambrini, F. 2016. Древовидный банк зависимостей Древнегреческой Церкви: лингвистическая аннотация в учебной среде. В: Bodard, G & Romanello, M (ред.) Цифровая классика за пределами эхо-камеры: обучение, обмен знаниями и участие общественности, стр. 83–99. Лондон: Ubiquity Press. doi : 10.5334/bat.f
^ abcdef Dag Haug. 2015. Treebanks в исторических лингвистических исследованиях. В Carlotta Viti (ред.), Perspectives on Historical Syntax, Benjamins, 188-202. Препринт доступен по адресу http://folk.uio.no/daghaug/historical-treebanks.pdf.
^ Бамман Дэвид и др. 2008. Руководство по синтаксической аннотации латинских древовидных банков (версия 1.3). http://nlp.perseus.tufts.edu/syntax/treebank/1.3/docs/guidelines.pdf
^ Макдональд, Р.; Нивре, Дж., Квирмбах-Брандейдж, Й.; и др. «Универсальная аннотация зависимостей для многоязыкового анализа». Труды ACL 2013 г.{{cite conference}}: CS1 maint: несколько имен: список авторов ( ссылка )
^ Хан, AL-F; Вонг, DF; Чао, LS; Лу, Y.; Хе, L. и Тянь, L. (2014). «Универсальный набор фразовых тегов для многоязычных древовидных банков» (PDF) . Труды CCL и NLP-NABD 2014, LNAI 8801, стр. 247–258. © Springer International Publishing Switzerland . doi :10.1007/978-3-319-12277-9_22.
^ Уоллис, Шон (2008). Поиск деревьев и других структурированных корпусов. Глава 34 в книге Люделинг А. и Кито М. (ред.) Корпусная лингвистика: Международный справочник. Серия Handbücher zur Sprache und Kommunikationswissenschaft. Берлин: Мутон де Грюйтер.