В лингвистике древовидный банк — это проанализированный текстовый корпус , который аннотирует синтаксическую или семантическую структуру предложения . Создание проанализированных корпусов в начале 1990-х годов произвело революцию в компьютерной лингвистике , которая извлекла выгоду из крупномасштабных эмпирических данных . [1]
Термин «treebank» был придуман лингвистом Джеффри Личем в 1980-х годах по аналогии с другими хранилищами, такими как банк семян или банк крови . [2] Это связано с тем, что как синтаксическая, так и семантическая структура обычно представляются композиционно в виде древовидной структуры . Термин «разобранный корпус» часто используется взаимозаменяемо с термином «treebank», с акцентом на первичности предложений, а не деревьев.
Древовидные банки часто создаются поверх корпуса, который уже был аннотирован с помощью тегов частей речи . В свою очередь, древовидные банки иногда дополняются семантической или другой лингвистической информацией. Древовидные банки могут быть созданы полностью вручную, когда лингвисты аннотируют каждое предложение синтаксической структурой, или полуавтоматически, когда парсер назначает некоторую синтаксическую структуру, которую лингвисты затем проверяют и, при необходимости, исправляют. На практике полная проверка и завершение синтаксического анализа корпусов естественного языка является трудоемким проектом, на который могут уйти несколько лет у групп дипломированных лингвистов. Уровень детализации аннотаций и широта лингвистической выборки определяют сложность задачи и продолжительность времени, необходимого для создания древовидного банка.
Некоторые древовидные банки следуют определенной лингвистической теории в своей синтаксической аннотации (например, BulTreeBank следует HPSG ), но большинство стараются быть менее теоретико-специфичными. Тем не менее, можно выделить две основные группы: древовидные банки, которые аннотируют структуру фраз (например, Penn Treebank или ICE-GB), и те, которые аннотируют структуру зависимости (например, Prague Dependency Treebank или Quranic Arabic Dependency Treebank).
Важно прояснить различие между формальным представлением и форматом файла, используемым для хранения аннотированных данных. Treebanks обязательно строятся в соответствии с определенной грамматикой. Одна и та же грамматика может быть реализована различными форматами файлов. Например, синтаксический анализ для John loves Mary , показанный на рисунке справа, может быть представлен простыми помеченными скобками в текстовом файле, например, так (следуя обозначению Penn Treebank):
(С (НП (ННП Джон)) (ВП (ВПЗ любит) (НП (ННП Мэри))) (. .))
Этот тип представления популярен, поскольку он не требует много ресурсов, а древовидную структуру относительно легко читать без программных инструментов. Однако, поскольку корпусы становятся все более сложными, другие форматы файлов могут быть предпочтительными. Альтернативы включают XML - схемы, специфичные для treebank, нумерованные отступы и различные типы нотации расстояний.
С точки зрения вычислительной лингвистики [3] , древовидные банки использовались для разработки современных систем обработки естественного языка, таких как тегеры частей речи , парсеры , семантические анализаторы и системы машинного перевода. [4] Большинство вычислительных систем используют данные древовидных банков золотого стандарта. Однако автоматически проанализированный корпус, который не был исправлен людьми-лингвистами, все еще может быть полезен. Он может предоставить доказательства частоты правил для парсера. Парсер можно улучшить, применив его к большим объемам текста и собрав частоты правил. Однако должно быть очевидно, что только с помощью процесса исправления и завершения корпуса вручную можно затем идентифицировать правила, отсутствующие в базе знаний парсера. Кроме того, частоты, вероятно, будут более точными.
В корпусной лингвистике древовидные банки используются для изучения синтаксических явлений (например, диахронические корпуса могут использоваться для изучения временного хода синтаксических изменений). После анализа корпус будет содержать частотные свидетельства, показывающие, насколько распространены различные грамматические структуры. Древовидные банки также предоставляют свидетельства покрытия и поддерживают открытие новых, непредвиденных грамматических явлений.
Другое применение древовидных банков в теоретической лингвистике и психолингвистике — это доказательства взаимодействия. Заполненный древовидный банк может помочь лингвистам проводить эксперименты относительно того, как решение использовать одну грамматическую конструкцию влияет на решение сформировать другие, и попытаться понять, как говорящие и писатели принимают решения при формировании предложений. Исследования взаимодействия особенно плодотворны, поскольку к корпусу добавляются дополнительные слои аннотации, например, семантические, прагматические. Затем можно оценить влияние несинтаксических явлений на грамматический выбор.
В лингвистических исследованиях аннотированные данные древовидного банка использовались в синтаксических исследованиях для проверки лингвистических теорий структуры предложений на большом количестве естественно встречающихся примеров. [ необходима ссылка ]
Семантический древовидный банк — это коллекция предложений на естественном языке, аннотированных с помощью смыслового представления. Эти ресурсы используют формальное представление семантической структуры каждого предложения . Семантические древовидные банки различаются по глубине своего семантического представления. Ярким примером глубокой семантической аннотации является Groningen Meaning Bank, разработанный в Университете Гронингена и аннотированный с использованием теории представления дискурса . Примером поверхностного семантического древовидного банка является PropBank , который обеспечивает аннотацию словесных предложений и их аргументов, не пытаясь представить каждое слово в корпусе в логической форме .
Разработано множество банков синтаксических деревьев для самых разных языков:
Чтобы облегчить дальнейшие исследования между многоязычными задачами, некоторые исследователи обсуждали универсальную схему аннотации для кросс-языков. Таким образом, люди пытаются использовать или объединить преимущества различных корпусов treebanks. Например, универсальный подход аннотации для зависимостей treebanks; [10] и универсальный подход аннотации для фразовых структур treebanks. [11]
Один из основных способов извлечения доказательств из древовидного банка — это поисковые инструменты. Поисковые инструменты для проанализированных корпусов обычно зависят от схемы аннотации, которая была применена к корпусу. Пользовательские интерфейсы варьируются по сложности от систем запросов на основе выражений, ориентированных на программистов, до полноценных исследовательских сред, ориентированных на лингвистов общего профиля. Уоллис (2008) подробно обсуждает принципы поиска в древовидных банках и рассматривает состояние дел в этой области на тот момент. [12]
{{cite conference}}
: CS1 maint: несколько имен: список авторов ( ссылка )