Грамматика зависимости ( DG ) — это класс современных грамматических теорий, которые все основаны на отношении зависимости (в отличие от отношения конституентности фразовой структуры ) и которые можно проследить в первую очередь до работ Люсьена Теньера . Зависимость — это представление о том, что языковые единицы, например, слова, связаны друг с другом направленными связями. (Конечный) глагол считается структурным центром структуры предложения. Все остальные синтаксические единицы (слова) либо напрямую, либо косвенно связаны с глаголом в терминах направленных связей, которые называются зависимостями . Грамматика зависимости отличается от грамматики фразовой структуры тем, что, хотя она может идентифицировать фразы, она имеет тенденцию упускать из виду фразовые узлы. Структура зависимости определяется отношением между словом (головой ) и его зависимыми элементами. Структуры зависимостей более плоские, чем структуры фраз, отчасти потому, что в них отсутствует конечный глагольный компонент фразы , и поэтому они хорошо подходят для анализа языков со свободным порядком слов, таких как чешский или варлпири .
Понятие зависимости между грамматическими единицами существовало со времен самых ранних записанных грамматик, например, Панини , и поэтому можно утверждать, что концепция зависимости предшествует концепции структуры фразы на много столетий. [1] Ибн Мада , лингвист XII века из Кордовы, Андалусия , возможно, был первым грамматистом, который использовал термин зависимость в том грамматическом смысле, в котором мы используем его сегодня. В раннее Новое время концепция зависимости, по-видимому, сосуществовала бок о бок с концепцией структуры фразы, причем последняя вошла в латинскую, французскую, английскую и другие грамматики из широко распространенного изучения логики терминов античности. [2] Зависимость также конкретно присутствует в работах Самуэля Брассаи (1800–1897), венгерского лингвиста, Франца Керна (1830–1894), немецкого филолога, и Хаймана Харитона Тиктина (1850–1936), румынского лингвиста. [3]
Однако современные грамматики зависимостей начинаются в первую очередь с работы Люсьена Тесньера. Тесньер был французом, полиглотом и профессором лингвистики в университетах Страсбурга и Монпелье. Его главная работа Éléments de syntaxe structurele была опубликована посмертно в 1959 году — он умер в 1954 году. Основной подход к синтаксису, который он разработал, по крайней мере частично повлиял на работу других в 1960-х годах, хотя неясно, каким образом эти работы были вдохновлены другими источниками. [4] Ряд других грамматик, основанных на зависимостях, приобрели известность после этих ранних работ. [5] DG вызвал большой интерес в Германии [6] как в теоретическом синтаксисе, так и в языковой педагогике. В последние годы большое развитие, связанное с теориями, основанными на зависимостях, пришло из компьютерной лингвистики и отчасти обусловлено влиятельной работой, которую Дэвид Хейс проделал в области машинного перевода в корпорации RAND в 1950-х и 1960-х годах. Системы, основанные на зависимостях, все чаще используются для разбора естественного языка и создания банков деревьев . Интерес к грамматике зависимостей в настоящее время растет, международные конференции по лингвистике зависимостей являются относительно недавним развитием (Depling 2011, Depling 2013, Depling 2015, Depling 2017, Depling 2019 Архивировано 06.03.2019 в Wayback Machine ).
Зависимость — это соответствие один к одному: для каждого элемента (например, слова или морфа) в предложении существует ровно один узел в структуре этого предложения, который соответствует этому элементу. Результатом этого соответствия один к одному является то, что грамматики зависимости являются грамматиками слова (или морфа). Все, что существует, — это элементы и зависимости, которые соединяют элементы в структуру. Эту ситуацию следует сравнить со структурой фразы . Структура фразы — это соответствие один к одному или более, что означает, что для каждого элемента в предложении существует один или несколько узлов в структуре, которые соответствуют этому элементу. Результатом этого различия является то, что структуры зависимости минимальны [7] по сравнению с их аналогами из структуры фразы, поскольку они, как правило, содержат гораздо меньше узлов.
Эти деревья иллюстрируют два возможных способа отображения отношений зависимости и структуры фразы (см. ниже). Это дерево зависимости является «упорядоченным» деревом, т. е. оно отражает фактический порядок слов. Многие деревья зависимости абстрагируются от линейного порядка и фокусируются только на иерархическом порядке, что означает, что они не показывают фактический порядок слов. Это дерево избирательных округов (= структура фразы) следует соглашениям о чистой структуре фразы (BPS), в соответствии с которыми сами слова используются в качестве меток узлов.
Различие между грамматиками зависимости и фразовой структуры в значительной степени вытекает из начального деления предложения. Отношение фразовой структуры вытекает из начального бинарного деления, посредством которого предложение делится на субъектную именное словосочетание (NP) и предикатную глагольную словосочетание (VP). Это деление, безусловно, присутствует в базовом анализе предложения, который мы находим в работах, например, Леонарда Блумфилда и Ноама Хомского . Теньер, однако, яростно выступал против этого бинарного деления, предпочитая вместо этого позиционировать глагол как корень всей структуры предложения. Позиция Теньера заключалась в том, что субъектно-предикатное деление вытекает из логики терминов и не имеет места в лингвистике. [8] Важность этого различия заключается в том, что если признать, что изначальное разделение на субъект и сказуемое в синтаксисе является реальным, то, скорее всего, придется пойти по пути грамматики фразовой структуры, в то время как если отвергнуть это разделение, то придется считать глагол корнем всей структуры и, таким образом, пойти по пути грамматики зависимостей.
Следующие фреймворки основаны на зависимостях:
Грамматика связей похожа на грамматику зависимостей, но грамматика связей не включает направленность между связанными словами и, таким образом, не описывает зависимые от головы отношения. Грамматика гибридной зависимости/структуры фраз использует зависимости между словами, но также включает зависимости между фразовыми узлами – см., например, Coranic Arabic Dependency Treebank . Деревья вывода грамматики примыкания к дереву являются структурами зависимостей, хотя полные деревья TAG представлены в терминах структуры фраз, поэтому в этом отношении неясно, следует ли рассматривать TAG больше как грамматику зависимости или структуры фраз.
Между перечисленными грамматиками имеются существенные различия. В этом отношении отношение зависимости совместимо с другими основными принципами теорий грамматики. Таким образом, подобно грамматикам фразовой структуры, грамматики зависимости могут быть моно- или многослойными, репрезентативными или деривационными, основанными на конструкциях или правилах.
Существуют различные соглашения, которые DG используют для представления зависимостей. Следующие схемы (в дополнение к дереву выше и деревьям ниже) иллюстрируют некоторые из этих соглашений:
Представления в (a–d) являются деревьями, в которых конкретные соглашения, используемые в каждом дереве, различаются. Сплошные линии — это ребра зависимости , а слегка пунктирные линии — линии проекции . Единственное различие между деревом (a) и деревом (b) заключается в том, что дерево (a) использует класс категории для маркировки узлов, тогда как дерево (b) использует сами слова в качестве меток узлов. [9] Дерево (c) является сокращенным деревом, поскольку строка слов ниже и линии проекции считаются ненужными и, следовательно, опускаются. Дерево (d) абстрагируется от линейного порядка и отражает только иерархический порядок. [10] Дуги стрелок в (e) являются альтернативным соглашением, используемым для отображения зависимостей, и одобрены Word Grammar . [11] Скобки в (f) используются редко, но, тем не менее, вполне способны отражать иерархию зависимостей; зависимые элементы кажутся заключенными в большее количество скобок, чем их заголовки. И, наконец, отступы, подобные отступам в (g), являются еще одним соглашением, которое иногда используется для обозначения иерархии слов. [12] Зависимые элементы располагаются под их заголовками и имеют отступы. Как и в случае с деревом (d), отступы в (g) абстрагируются от линейного порядка.
Суть этих соглашений в том, что они именно соглашения и есть. Они не влияют на базовую приверженность зависимости как отношению, группирующему синтаксические единицы.
Представления зависимостей выше (и далее ниже) показывают синтаксические зависимости. Действительно, большинство работ по грамматике зависимостей фокусируются на синтаксических зависимостях. Однако синтаксические зависимости являются лишь одним из трех или четырех типов зависимостей. Например, теория смысла и текста подчеркивает роль семантических и морфологических зависимостей в дополнение к синтаксическим зависимостям. [13] Четвертый тип, просодические зависимости, также может быть признан. Различение этих типов зависимостей может быть важным, отчасти потому, что если этого не сделать, велика вероятность того, что семантические, морфологические и/или просодические зависимости будут ошибочно приняты за синтаксические зависимости. В следующих четырех подразделах кратко описывается каждый из этих типов зависимостей. Во время обсуждения существование синтаксических зависимостей принимается как должное и используется в качестве ориентира для установления природы трех других типов зависимостей.
Семантические зависимости понимаются в терминах предикатов и их аргументов . [14] Аргументы предиката семантически зависят от этого предиката. Часто семантические зависимости пересекаются и указывают в том же направлении, что и синтаксические зависимости. Однако иногда семантические зависимости могут указывать в противоположном направлении синтаксическим зависимостям или могут быть полностью независимыми от синтаксических зависимостей. Иерархия слов в следующих примерах показывает стандартные синтаксические зависимости, тогда как стрелки указывают на семантические зависимости:
Два аргумента Сэм и Салли в дереве (a) зависят от предиката likes , посредством чего эти аргументы также синтаксически зависят от likes . Это означает, что семантическая и синтаксическая зависимости пересекаются и указывают в одном направлении (вниз по дереву). Однако атрибутивные прилагательные являются предикатами, которые принимают свое главное существительное в качестве своего аргумента, поэтому big является предикатом в дереве (b), который принимает bones в качестве своего одного аргумента; семантическая зависимость указывает вверх по дереву и, следовательно, противоречит синтаксической зависимости. Похожая ситуация получается в (c), где предлог предикат on принимает два аргумента picture и the wall ; одна из этих семантических зависимостей указывает вверх по синтаксической иерархии, тогда как другая указывает вниз по ней. Наконец, предикат to help в (d) принимает один аргумент Jim , но не связан напрямую с Jim в синтаксической иерархии, что означает, что семантическая зависимость полностью независима от синтаксических зависимостей.
Морфологические зависимости возникают между словами или частями слов. [15] Когда данное слово или часть слова влияет на форму другого слова, то последнее морфологически зависит от первого. Согласование и конкорд, таким образом, являются проявлениями морфологических зависимостей. Подобно семантическим зависимостям, морфологические зависимости могут перекрываться и указывать в том же направлении, что и синтаксические зависимости, перекрываться и указывать в противоположном направлении синтаксическим зависимостям или быть полностью независимыми от синтаксических зависимостей. Стрелки теперь используются для обозначения морфологических зависимостей.
Множественное число houses в (a) требует множественного числа указательного определителя, поэтому появляется these , а не this , что означает, что существует морфологическая зависимость, которая указывает вниз по иерархии от houses к these . Ситуация обратная в (b), где единственное число субъекта Sam требует появления суффикса согласования -s на личном глаголе works , что означает, что существует морфологическая зависимость, указывающая вверх по иерархии от Sam к works . Тип определителя в немецких примерах (c) и (d) влияет на суффикс словоизменения, который появляется на прилагательном alt . Когда используется неопределенный артикль ein , в прилагательном появляется сильное мужское окончание -er . Когда используется определенный артикль der , напротив, в прилагательном появляется слабое окончание -e . Таким образом, поскольку выбор определителя влияет на морфологическую форму прилагательного, существует морфологическая зависимость, указывающая от определителя к прилагательному, причем эта морфологическая зависимость полностью независима от синтаксических зависимостей. Рассмотрим далее следующие французские предложения:
Мужской субъект le chien в (a) требует мужской формы предикативного прилагательного blanc , тогда как женский субъект la maison требует женской формы этого прилагательного. Морфологическая зависимость, которая полностью независима от синтаксических зависимостей, таким образом, снова указывает на синтаксическую иерархию.
Морфологические зависимости играют важную роль в типологических исследованиях . Языки классифицируются как в основном головные ( Sam work-s ) или в основном зависимые ( This Houses ), при этом большинство, если не все языки, содержат по крайней мере некоторую незначительную меру как головных, так и зависимых маркировок. [16]
Просодические зависимости признаются для того, чтобы приспособить поведение клитик . [17] Клитика - это синтаксически автономный элемент, который просодически зависит от хоста. Поэтому клитика интегрирована в просодию своего хоста, что означает, что она образует одно слово со своим хостом. Просодические зависимости существуют полностью в линейном измерении (горизонтальном измерении), тогда как стандартные синтаксические зависимости существуют в иерархическом измерении (вертикальном измерении). Классическими примерами клитик в английском языке являются сокращенные вспомогательные глаголы (например, -ll , -s , -ve ) и притяжательный маркер -s . Просодические зависимости в следующих примерах обозначены дефисом и отсутствием вертикальной линии проекции:
Дефисы и отсутствие проекционных линий указывают на просодические зависимости. Дефис, который появляется слева от клитики, указывает на то, что клитика просодически зависит от слова, которое находится непосредственно слева от нее ( He'll , There's ), тогда как дефис, который появляется справа от клитики (здесь не показан), указывает на то, что клитика просодически зависит от слова, которое находится непосредственно справа от нее. Данная клитика часто просодически зависит от своего синтаксического зависимого слова ( He'll , There's ) или от своего головного слова ( would've ). В других случаях она может просодически зависеть от слова, которое не является ни ее головным словом, ни ее непосредственным зависимым словом ( Florida's ).
Синтаксические зависимости находятся в центре внимания большинства работ в DG, как указано выше. То, как определяются наличие и направление синтаксических зависимостей, конечно, часто является предметом дискуссий. В этой связи следует признать, что обоснованность синтаксических зависимостей в деревьях на протяжении всей этой статьи принимается как должное. Однако эти иерархии таковы, что многие DG могут в значительной степени поддерживать их, хотя, безусловно, будут моменты разногласий. Основной вопрос о том, как распознаются синтаксические зависимости, оказался сложным для окончательного ответа. Однако в этой области следует признать, что основная задача выявления и распознания наличия и направления синтаксических зависимостей DG не легче и не сложнее, чем определение составляющих групп грамматик фразовой структуры. Для этой цели используются различные эвристики, причем базовые тесты для составляющих являются полезными инструментами; синтаксические зависимости, предполагаемые в деревьях в этой статье, группируют слова вместе таким образом, который наиболее точно соответствует результатам стандартных тестов перестановки, замены и эллипсиса для составляющих. Этимологические соображения также дают полезные подсказки о направлении зависимостей. Многообещающим принципом, на котором можно основывать существование синтаксических зависимостей, является распределение. [18] Когда кто-то стремится определить корень данной фразы, слово, которое в наибольшей степени отвечает за определение распределения этой фразы в целом, является ее корнем.
Традиционно DG имели другой подход к линейному порядку (порядку слов), чем грамматики фразовой структуры. Структуры зависимости минимальны по сравнению с их аналогами фразовой структуры, и эти минимальные структуры позволяют сосредоточиться на двух измерениях порядка. [19] Разделение вертикального измерения (иерархического порядка) от горизонтального измерения (линейного порядка) легко осуществимо. Этот аспект структур зависимости позволил DG, начиная с Тесньера (1959), сосредоточиться на иерархическом порядке таким образом, который вряд ли возможен для грамматик фразовой структуры. Для Тесньера линейный порядок был вторичен по отношению к иерархическому порядку, поскольку иерархический порядок предшествовал линейному порядку в сознании говорящего. Стеммы (деревья), которые создал Тесньер, отражали эту точку зрения; они абстрагировались от линейного порядка, чтобы сосредоточиться почти полностью на иерархическом порядке. Многие генеральные директораты, последовавшие за Теньером, переняли эту практику, то есть создали древовидные структуры, которые отражают только иерархический порядок, например:
Традиционный акцент на иерархическом порядке создал впечатление, что DG мало что могут сказать о линейном порядке, и это способствовало мнению, что DG особенно хорошо подходят для изучения языков со свободным порядком слов. Однако отрицательным результатом этого акцента на иерархическом порядке является то, что существует нехватка исследований DG конкретных явлений порядка слов, таких как стандартные разрывы . Всеобъемлющие описания грамматики зависимостей топикализации , wh -фронтинга , скрамблинга и экстрапозиции в основном отсутствуют во многих устоявшихся структурах DG. Эту ситуацию можно противопоставить грамматикам фразовой структуры, которые приложили огромные усилия для изучения этих явлений.
Природа отношения зависимости, однако, не мешает нам сосредоточиться на линейном порядке. Структуры зависимости способны исследовать явления порядка слов так же, как и структуры фраз. Следующие деревья иллюстрируют этот момент; они представляют собой один из способов исследования разрывов с использованием структур зависимости. Деревья предлагают способ, которым можно решать общие разрывы. Пример из немецкого языка используется для иллюстрации скремблирующего разрыва :
A-деревья слева показывают нарушения проективности (= пересечение линий), а b-деревья справа демонстрируют один из способов решения этих нарушений. Смещенная составляющая берет в качестве своей головы слово , которое не является ее управителем . Слова, выделенные красным, обозначают катену (=цепочку) слов, которая простирается от корня смещенной составляющей до управителя этой составляющей. [20] Затем разрывы исследуются с точки зрения этих катен. Ограничения на топикализацию, wh -фронтирование, скрамблинг и экстрапозицию можно исследовать и идентифицировать, исследуя природу задействованных катен.
Традиционно DG рассматривали синтаксические функции (= грамматические функции, грамматические отношения ) как примитивные. Они постулируют перечень функций (например, субъект, объект, косвенный, определитель, атрибут, предикат и т. д.). Эти функции могут появляться как метки на зависимостях в древовидных структурах, например [21]
Синтаксические функции в этом дереве показаны зеленым цветом: ATTR (атрибут), COMP-P (дополнение предлога), COMP-TO (дополнение к), DET (детерминатор), P-ATTR (предложный атрибут), PRED (предикатив), SUBJ (подлежащее), TO-COMP (дополнение к). Выбранные функции и сокращения, используемые в дереве здесь, являются всего лишь репрезентативными для общей позиции DG по отношению к синтаксическим функциям. Фактический перечень функций и используемых обозначений варьируется от DG к DG.
Как примитив теории, статус этих функций сильно отличается от статуса некоторых грамматик фразовой структуры. Традиционно грамматики фразовой структуры выводят синтаксические функции из созвездия. Например, объект идентифицируется как NP, появляющийся внутри конечного VP, а субъект — как NP, появляющийся снаружи конечного VP. Поскольку DG отвергают существование конечного компонента VP, им никогда не предоставлялась возможность рассматривать синтаксические функции таким образом. Проблема заключается в том, что происходит первым: традиционно DG принимают синтаксические функции за примитивные, а затем выводят созвездие из этих функций, тогда как грамматики фразовой структуры традиционно принимают созвездие за примитивное, а затем выводят синтаксические функции из созвездия.
Этот вопрос о том, что первично (функции или созвездие), не является негибким. Позиции обоих типов грамматики (зависимость и структура фразы) не ограничены узко традиционными взглядами. Зависимость и структура фразы полностью совместимы с обоими подходами к синтаксическим функциям. Действительно, моностратные системы, которые основаны исключительно на зависимости или структуре фразы, скорее всего, отвергнут представление о том, что функции выводятся из созвездия или что созвездие выводится из функций. Они будут считать оба примитивными, что означает, что ни одно из них не может быть выведено из другого.