В лингвистике кореференция , иногда письменная кореференция , возникает, когда два или более выражений относятся к одному и тому же человеку или предмету; у них один и тот же референт . Например, в Билле сказано, что Алиса скоро приедет, и она это сделала , слова Алиса и она относятся к одному и тому же человеку. [1]
Соссылка часто нетривиальна для определения. Например, в слове «Билл сказал, что придет » это слово может относиться, а может и не относиться к Биллу. Определение того, какие выражения являются кореференциями, является важной частью анализа или понимания значения и часто требует информации из контекста, реальных знаний, таких как тенденции некоторых имен ассоциироваться с определенными видами («Ровер»), видами артефактов. («Титаник»), грамматические роды или другие свойства.
Лингвисты обычно используют индексы для обозначения кореференции, как в «Билл , я сказал, что приду » . Такие выражения называются коиндексированными , что указывает на то, что их следует интерпретировать как кореферентные.
Когда выражения являются кореференциальными, первое, что встречается, часто представляет собой полную или описательную форму (например, полное личное имя, возможно, с титулом и ролью), тогда как в последующих случаях используются более короткие формы (например, просто имя, фамилия, или местоимение). Более раннее появление известно как антецедент , а другое называется проформой , анафорой или ссылкой. Однако местоимения иногда могут относиться вперед, например: «Когда она пришла домой, Алиса пошла спать». В таких случаях кореференцию называют катафорической , а не анафорической.
Кореференция важна для связывания явлений в области синтаксиса. Теория связывания исследует синтаксические отношения, существующие между кореферентными выражениями в предложениях и текстах.
При исследовании кореференции можно сделать множество различий, например, анафору , катафору , разделенные антецеденты, кореферентные именные группы и т. д . [2] Некоторые из этих более конкретных явлений проиллюстрированы здесь:
Семантики и логики иногда проводят различие между кореференцией и так называемой связанной переменной . [3] Связанные переменные возникают, когда антецедентом проформы является неопределенное количественное выражение, например [4] [ необходимы пояснения ]
Количественные выражения, такие как «каждый студент» и «ни один студент» , не считаются ссылочными. Эти выражения грамматически единичны, но не выделяют отдельных референтов в дискурсе или реальном мире. Таким образом, антецеденты his в этих примерах не являются собственно референтными, как и его . Вместо этого она считается переменной , связанной со своим предшественником. Его ссылка варьируется в зависимости от того, о каком из студентов в мире дискурса идет речь. Существование связанных переменных, возможно, более очевидно на следующем примере:
Это предложение двусмысленно. Это может означать, что Джеку нравится его оценка, но всем остальным не нравится оценка Джека; или что никому, кроме Джека, не нравится их собственная оценка. В первом значении он кореференциален; во втором случае это связанная переменная, поскольку ее ссылка варьируется по множеству всех учащихся.
Обозначение Coindex обычно используется в обоих случаях. То есть, когда два или более выражений коиндексированы, это не указывает на то, имеете ли вы дело с кореференцией или со связанной переменной (или, как в последнем примере, зависит ли это от интерпретации).
В компьютерной лингвистике разрешение кореферентности является хорошо изученной проблемой в дискурсе . Чтобы получить правильную интерпретацию текста или даже оценить относительную важность различных упомянутых предметов, местоимения и другие референтные выражения должны быть связаны с нужными людьми. Алгоритмы, предназначенные для разрешения кореференций, обычно сначала ищут ближайшего предшествующего индивидуума, совместимого с ссылающимся выражением. Например, она может привязываться к предыдущему выражению, такому как женщина или Энн , но не так вероятно, как к Биллу . Такие местоимения, как он, имеют гораздо более строгие ограничения. Как и во многих лингвистических задачах, существует компромисс между точностью и запоминаемостью . Метрики качества кластера , обычно используемые для оценки алгоритмов разрешения кореферентности, включают индекс Рэнда , скорректированный индекс Рэнда и различные методы, основанные на взаимной информации .
Особую проблему для разрешения кореференций в английском языке представляет местоимение it , которое имеет множество применений. Оно может относиться во многом так же, как он и она , за исключением того, что обычно оно относится к неодушевленным объектам (правила на самом деле более сложны: животные могут быть любыми из них , он или она ; корабли традиционно являются ею ; ураганы обычно являются им , несмотря на гендерные имена). ). Это также может относиться к абстракциям, а не к существам, например, Ему платили минимальную зарплату, но он, похоже, не возражал против этого. Наконец, у него также есть плеонастическое использование, не относящееся ни к чему конкретному:
Плеонастическое использование не считается референциальным и поэтому не является частью кореференции. [5]
Подходы к разрешению кореференций можно в общих чертах разделить на алгоритмы пары упоминаний, алгоритмы ранжирования упоминаний или алгоритмы на основе сущностей. Алгоритмы пар упоминаний включают бинарные решения, если пара из двух упоминаний принадлежит одному и тому же объекту. Ограничения на уровне сущности, такие как пол , не учитываются, что приводит к распространению ошибок . Например, местоимения он или она оба могут иметь высокую вероятность кореферентности с учителем , но не могут быть кореферентны друг с другом. Алгоритмы ранжирования упоминаний расширяют эту идею, но вместо этого предусматривают, что одно упоминание может быть корреферентным только с одним (предыдущим) упоминанием. В результате каждому предыдущему упоминанию должна быть присвоена оценка, и привязывается упоминание с наивысшим баллом (или отсутствие упоминания). Наконец, в методах, основанных на сущностях, упоминания связываются на основе информации всей цепочки ссылок, а не отдельных упоминаний. Представление цепочки переменной ширины является более сложным и затратным в вычислительном отношении, чем методы, основанные на упоминаниях, что приводит к тому, что эти алгоритмы в основном основаны на архитектуре нейронных сетей .