В корпусной лингвистике словосочетание — это серия слов или терминов , которые встречаются чаще, чем можно было бы ожидать случайно . Во фразеологии словосочетание — это разновидность композиционной фраземы , то есть ее можно понять по словам, входящим в ее состав . Это контрастирует с идиомой , где смысл целого не может быть выведен из его частей и может быть совершенно не связан.
Существует около семи основных типов словосочетаний: прилагательное + существительное, существительное + существительное (например, собирательные существительные ), существительное + глагол, глагол + существительное, наречие + прилагательное, глаголы + предложная фраза ( фразовые глаголы ) и глагол + наречие.
Извлечение словосочетаний — это вычислительный метод, который находит словосочетания в документе или корпусе с использованием различных элементов компьютерной лингвистики , напоминающих интеллектуальный анализ данных .
Коллокации — это частично или полностью фиксированные выражения, которые устанавливаются в результате многократного использования в зависимости от контекста. Такие термины, как «кристально чистый », «менеджер среднего звена », «нуклеарная семья » и «косметическая хирургия» , являются примерами созвучных пар слов.
Коллокации могут находиться в синтаксическом отношении (например, глагол-объект : принятие и решение ), лексическом отношении (например, антонимия ) или не находиться в лингвистически определенном отношении. Знание словосочетаний жизненно важно для грамотного использования языка: грамматически правильное предложение будет выглядеть неуклюжим, если коллокационные предпочтения будут нарушены. Это делает коллокацию интересной областью преподавания языка.
Корпусные лингвисты определяют ключевое слово в контексте ( KWIC ) и определяют слова, непосредственно окружающие его. Это дает представление о том, как используются слова.
Обработка словосочетаний включает в себя ряд параметров, наиболее важным из которых является мера ассоциации , которая оценивает, является ли совпадение чисто случайным или статистически значимым . Из-за неслучайной природы языка большинство словосочетаний классифицируются как значимые, а оценки ассоциаций просто используются для ранжирования результатов. Обычно используемые меры связи включают взаимную информацию , t-показатели и логарифмическое правдоподобие . [1] [2]
Вместо того, чтобы выбирать одно определение, Гледхилл [3] предлагает, чтобы коллокация включала по крайней мере три различных точки зрения: совместное появление, статистический взгляд, который рассматривает коллокацию как повторяющееся появление в тексте узла и его коллокаций; [4] [5] [6] конструкция, рассматривающая словосочетание либо как соотношение между лексемой и лексико-грамматическим образцом, [7] либо как отношение между основой и ее коллокативными партнерами; [8] и выражение — прагматичный взгляд на словосочетание как на условную единицу выражения, независимо от формы. [9] [10] Эти разные точки зрения контрастируют с обычным способом представления словосочетаний во фразеологических исследованиях. Традиционно словосочетание объясняется с точки зрения всех трех точек зрения одновременно, в континууме:
В 1933 году во втором промежуточном отчете Гарольда Палмера об английских словосочетаниях подчеркивалась важность словосочетания как ключа к созданию естественно звучащего языка для любого, кто изучает иностранный язык . [11] Таким образом, начиная с 1940-х годов информация о повторяющихся словосочетаниях стала стандартной характеристикой одноязычных словарей для учащихся . Поскольку эти словари стали «менее ориентированными на слова и более сосредоточенными на фразах», [12] больше внимания стало уделяться словосочетанию. Эта тенденция поддерживалась с начала 21 века наличием больших текстовых корпусов и интеллектуального программного обеспечения для корпусных запросов , что позволило обеспечить более систематическое описание словосочетания в словарях. Используя эти инструменты, словари, такие как словарь английского языка Macmillan и словарь современного английского языка Лонгмана, включали рамки или панели со списками частых словосочетаний. [13]
Существует также ряд специализированных словарей , посвященных описанию частых словосочетаний в языке. [14] К ним относятся (для испанского языка) Redes: Diccionario combinatorio del español contemporaneo (2004 г.), (для французского языка) Le Robert: Dictionnaire des combinaisons de mots (2007 г.) и (для английского языка) Словарь избранных словосочетаний LTP (1997 г.). и Словарь словосочетаний Macmillan (2010). [15]
T -критерий Стьюдента можно использовать для определения того, является ли появление словосочетания в корпусе статистически значимым. [16] Для биграммы пусть будет безусловная вероятность появления в корпусе размером , и пусть будет безусловная вероятность появления в корпусе. T-показатель для биграммы рассчитывается как:
где - выборочное среднее появление , - количество вхождений , - вероятность того, что при нулевой гипотезе и появляются независимо в тексте, и - выборочная дисперсия. При большом значении t - тест эквивалентен Z -тесту .