Извлечение словосочетаний — это задача использования компьютера для автоматического извлечения словосочетаний из корпуса .
Традиционный метод извлечения словосочетаний состоит в том, чтобы найти формулу, основанную на статистических количествах этих слов, для расчета оценки, связанной с каждой парой слов. Предлагаемые формулы включают взаимную информацию , t-критерий , z-критерий , критерий хи-квадрат и отношение правдоподобия . [1]
В области корпусной лингвистики словосочетание определяется как последовательность слов или терминов , которые встречаются чаще, чем можно было бы ожидать случайно. «Кристально чистый», «менеджер среднего звена», «ядерная семья» и «косметическая хирургия» — примеры созвучных пар слов. Некоторые слова часто встречаются вместе, потому что они составляют составное существительное , например, «ботинки для верховой езды», «велосипедист» или «извлечение словосочетания» само по себе.