Грамматика фразовой структуры, управляемая головой (HEAD-driven phrase structure grammar , HPSG ), — это высоколексикализованная грамматика на основе ограничений [1] [2], разработанная Карлом Поллардом и Иваном Сагом . [3] [4] Это тип грамматики фразовой структуры , в отличие от грамматики зависимости , и она является непосредственным преемником обобщенной грамматики фразовой структуры . HPSG черпает вдохновение из других областей, таких как компьютерные науки ( теория типов данных и представление знаний ), и использует понятие знака Фердинанда де Соссюра . Она использует единый формализм и организована модульным образом, что делает ее привлекательной для обработки естественного языка .
HPSG включает принципы, правила грамматики и записи лексикона , которые обычно не считаются принадлежащими грамматике. Формализм основан на лексикализме. Это означает, что лексикон — это больше, чем просто список записей; он сам по себе богато структурирован. Отдельные записи отмечены типами. Типы образуют иерархию. Ранние версии грамматики были очень лексикализованы с небольшим количеством грамматических правил (схем). Более поздние исследования имели тенденцию добавлять больше и более богатых правил, становясь больше похожими на грамматику конструкций . [5]
Базовый тип, с которым имеет дело HPSG, — это знак. Слова и фразы — это два разных подтипа знака. Слово имеет два признака: [PHON] (звук, фонетическая форма) и [SYNSEM] ( синтаксическая и семантическая информация), оба из которых разделены на подпризнаки. Знаки и правила формализуются как типизированные структуры признаков .
HPSG генерирует строки, комбинируя знаки, которые определяются их местоположением в иерархии типов и их внутренней структурой признаков, представленной матрицами значений атрибутов (AVM). [4] [6] Признаки принимают типы или списки типов в качестве своих значений, и эти значения, в свою очередь, могут иметь свою собственную структуру признаков. Грамматические правила в значительной степени выражаются через ограничения, которые знаки накладывают друг на друга. Структура признаков знака описывает его фонологические, синтаксические и семантические свойства. В общепринятой нотации AVM записываются с признаками в верхнем регистре и типами в нижнем курсивном регистре. Нумерованные индексы в AVM представляют идентичные значения токенов.
В упрощенной АВМ для слова (в данном случае глагола, а не существительного, как в «приятных прогулках на выходные») «прогулки» ниже категориальная информация глагола (CAT) делится на признаки, которые его описывают (HEAD), и признаки, которые описывают его аргументы (VALENCE).
"Walks" — это знак типа слова с головой типа глагола . Как непереходный глагол, "walks" не имеет дополнения, но требует подлежащего, которое является существительным в третьем лице единственного числа. Семантическое значение подлежащего (CONTENT) коиндексируется с единственным аргументом глагола (индивид, совершающий прогулку). Следующая AVM для "she" представляет знак со значением SYNSEM, который может соответствовать этим требованиям.
Знаки типа фразы объединяются с одним или несколькими потомками и распространяют информацию вверх. Следующая AVM кодирует правило непосредственного доминирования для head-subj-phrase , которое требует двух потомков: главный потомок (глагол) и неглавный потомок, который удовлетворяет ограничениям SUBJ глагола.
Конечным результатом является знак с глагольной головой, пустыми признаками подкатегории и фонологическим значением, которое упорядочивает двух дочерних элементов.
Хотя фактическая грамматика HPSG полностью состоит из структур признаков, лингвисты часто используют деревья для представления объединения знаков там, где эквивалентная AVM была бы громоздкой.
Были написаны различные парсеры, основанные на формализме HPSG, и в настоящее время исследуются оптимизации. Пример системы, анализирующей немецкие предложения , предоставлен Freie Universität Berlin . [7] Кроме того, проект CoreGram [8] группы Grammar Group Freie Universität Berlin предоставляет грамматики с открытым исходным кодом, которые были реализованы в системе TRALE. В настоящее время существуют грамматики для немецкого , [9] датского , [10] китайского , [11] мальтийского , [12] и персидского [13] языков , которые имеют общее ядро и находятся в открытом доступе.
Большие HPSG-грамматики различных языков разрабатываются в рамках Deep Linguistic Processing with HPSG Initiative ( DELPH-IN ). [14] Широкоохватные грамматики английского, [15] немецкого, [16] и японского [17] языков доступны по лицензии с открытым исходным кодом. Эти грамматики можно использовать с различными совместимыми парсерами HPSG с открытым исходным кодом: LKB , PET, [18] Ace, [19] и agree . [20] Все они создают семантические представления в формате «Minimal Recursion Semantics», MRS. [21] Декларативная природа формализма HPSG означает, что эти вычислительные грамматики обычно можно использовать как для синтаксического анализа , так и для генерации (создания поверхностных строк из семантических входных данных). Древовидные банки, также распространяемые DELPH-IN , используются для разработки и тестирования грамматик, а также для обучения моделей ранжирования с целью принятия решения о правдоподобных интерпретациях при синтаксическом анализе (или реализациях при генерации).
Enju — это свободно распространяемый широкополосный вероятностный HPSG-анализатор для английского языка, разработанный лабораторией Цудзи в Токийском университете в Японии . [22]