В лингвистике кореференция , иногда пишется как кореференция , происходит, когда два или более выражений относятся к одному и тому же человеку или предмету; они имеют один и тот же референт . Например, в Bill said Alice would arrive soon, and she did , слова Alice и she относятся к одному и тому же человеку. [1]
Кореференцию часто нетривиально определить. Например, в Bill said he would come слово he может относиться или не относиться к Bill. Определение того, какие выражения являются кореференциями, является важной частью анализа или понимания значения и часто требует информации из контекста, знаний из реального мира, таких как тенденции некоторых названий ассоциироваться с определенными видами («Rover»), видами артефактов («Titanic»), грамматическими родами или другими свойствами.
Лингвисты обычно используют индексы для обозначения кореферентности, как в Bill i said he i would come . Такие выражения называются коиндексированными , что указывает на то, что их следует интерпретировать как кореферентные.
Когда выражения кореферентны, первой часто встречается полная или описательная форма (например, полное личное имя, возможно, с титулом и ролью), в то время как более поздние появления используют более короткие формы (например, просто имя, фамилия или местоимение). Более раннее появление известно как антецедент, а другое называется проформой , анафорой или ссылкой. Однако местоимения иногда могут ссылаться вперед, как в «Когда она пришла домой, Алиса пошла спать». В таких случаях кореферентность называется катафорической, а не анафорической.
Кореференция важна для явлений связывания в области синтаксиса. Теория связывания исследует синтаксические отношения, которые существуют между кореферентными выражениями в предложениях и текстах.
При исследовании кореферентности можно провести многочисленные различия, например, анафора , катафора , разделенные антецеденты, кореферентные именные группы и т. д. [2] Некоторые из этих более конкретных явлений проиллюстрированы здесь:
Семантики и логики иногда проводят различие между кореференцией и тем, что известно как связанная переменная . [3] Связанные переменные возникают, когда антецедент проформы является неопределенным квантифицированным выражением, например [4] [ необходимо разъяснение ]
Квантифицированные выражения, такие как every student и no student , не считаются референтными. Эти выражения грамматически являются единичными, но не выделяют отдельные референты в дискурсе или реальном мире. Таким образом, антецеденты his в этих примерах не являются собственно референтными, как и his . Вместо этого it считается переменной , связанной своим антецедентом. Его референтность меняется в зависимости от того, о каком из студентов в мире дискурса идет речь. Существование связанных переменных, возможно, более очевидно в следующем примере :
Это предложение неоднозначно. Оно может означать, что Джеку нравится его оценка, но всем остальным не нравится оценка Джека; или что никому не нравится его собственная оценка, кроме Джека. В первом значении his является кореферентным; во втором — это связанная переменная, поскольку его ссылка варьируется по множеству всех студентов.
Для обоих случаев обычно используется нотация Coindex. То есть, когда два или более выражений коиндексированы, это не сигнализирует о том, имеет ли место кореференция или связанная переменная (или, как в последнем примере, зависит ли это от интерпретации).
В вычислительной лингвистике разрешение кореференции является хорошо изученной проблемой в дискурсе . Чтобы получить правильную интерпретацию текста или даже оценить относительную важность различных упомянутых субъектов, местоимения и другие ссылающиеся выражения должны быть связаны с правильными лицами. Алгоритмы, предназначенные для разрешения кореференции, обычно сначала ищут ближайшего предшествующего лица, которое совместимо с ссылающимся выражением. Например, она может быть присоединена к предшествующему выражению, такому как женщина или Энн , но не так вероятно к Биллу . Такие местоимения, как сам он, имеют гораздо более строгие ограничения. Как и во многих лингвистических задачах, существует компромисс между точностью и полнотой . Метрики качества кластера , обычно используемые для оценки алгоритмов разрешения кореференции, включают индекс Рэнда , скорректированный индекс Рэнда и различные методы, основанные на взаимной информации .
Особую проблему для разрешения кореферентности в английском языке представляет местоимение it , которое имеет много применений. Оно может относиться во многом как he и she , за исключением того, что оно обычно относится к неодушевленным предметам (правила на самом деле сложнее: животные могут быть любыми из it , he , или she ; корабли традиционно she ; ураганы обычно it , несмотря на гендерные названия). Оно также может относиться к абстракциям, а не к существам, например, He was paid minimum salary, but did't seem to not not not not not not not. Наконец, у него также есть плеонастические применения, которые не относятся ни к чему конкретному:
Плеонастические употребления не считаются референциальными и, следовательно, не являются частью кореференции. [5]
Подходы к разрешению кореференции можно в целом разделить на алгоритмы пар упоминаний, ранжирования упоминаний или алгоритмы на основе сущностей. Алгоритмы пар упоминаний включают бинарные решения, если пара из двух данных упоминаний принадлежит одной и той же сущности. Ограничения на уровне сущности, такие как пол, не учитываются, что приводит к распространению ошибок . Например, местоимения он или она могут иметь высокую вероятность кореференции с учителем , но не могут быть кореферентными друг с другом. Алгоритмы ранжирования упоминаний расширяют эту идею, но вместо этого оговаривают, что одно упоминание может быть кореферентным только с одним (предыдущим) упоминанием. В результате каждому предыдущему упоминанию должна быть присвоена оценка, а упоминание с наивысшей оценкой (или отсутствие упоминания) связывается. Наконец, в методах на основе сущностей упоминания связываются на основе информации обо всей цепочке кореференции, а не об отдельных упоминаниях. Представление цепочки переменной ширины является более сложным и вычислительно затратным, чем методы на основе упоминаний, что приводит к тому, что эти алгоритмы в основном основаны на архитектурах нейронных сетей .