stringtranslate.com

Извлечение коллокаций

Извлечение словосочетаний — это задача использования компьютера для автоматического извлечения словосочетаний из корпуса .

Традиционный метод извлечения словосочетаний состоит в том, чтобы найти формулу, основанную на статистических количествах этих слов, для расчета оценки, связанной с каждой парой слов. Предлагаемые формулы включают взаимную информацию , t-критерий , z-критерий , критерий хи-квадрат и отношение правдоподобия . [1]

В области корпусной лингвистики словосочетание определяется как последовательность слов или терминов , которые встречаются чаще, чем можно было бы ожидать случайно. «Кристально чистый», «менеджер среднего звена», «ядерная семья» и «косметическая хирургия» — примеры созвучных пар слов. Некоторые слова часто встречаются вместе, потому что они составляют составное существительное , например, «ботинки для верховой езды», «велосипедист» или «извлечение словосочетания» само по себе.

Смотрите также

Внешние ссылки

Рекомендации

  1. ^ Мэннинг, CD; Шютце, Х. (1999). Основы статистической обработки естественного языка. Кембридж, Массачусетс: MIT Press. ISBN 978-0-262-13360-9.