В корпусной лингвистике коллокация — это ряд слов или терминов , которые встречаются вместе чаще, чем можно было бы ожидать случайно. Во фразеологии коллокация — это тип составной фраземы , то есть она может быть понята из слов , из которых она состоит. Это контрастирует с идиомой , где значение целого не может быть выведено из его частей и может быть совершенно не связано.
Существует около семи основных типов словосочетаний: прилагательное + существительное, существительное + существительное (например, собирательные существительные ), существительное + глагол, глагол + существительное, наречие + прилагательное, глаголы + предложная группа ( фразовые глаголы ) и глагол + наречие.
Извлечение коллокаций — это вычислительный метод, который находит коллокации в документе или корпусе, используя различные элементы компьютерной лингвистики, напоминающие интеллектуальный анализ данных .
Коллокации — это частично или полностью фиксированные выражения, которые устанавливаются посредством повторного использования в зависимости от контекста. Такие термины, как crystal clear , middle management , nuclear family и cosmetic surgery, являются примерами коллокированных пар слов.
Коллокации могут находиться в синтаксической связи (например, глагол-объект : сделать и решение ), лексической связи (например, антонимия ) или не находиться ни в какой лингвистически определенной связи. Знание коллокаций жизненно важно для грамотного использования языка: грамматически правильное предложение будет выглядеть неловким, если нарушаются предпочтения в коллокациях. Это делает коллокацию интересной областью для обучения языку.
Корпусные лингвисты определяют ключевое слово в контексте ( KWIC ) и определяют слова, непосредственно его окружающие. Это дает представление о том, как используются слова.
Обработка словосочетаний включает ряд параметров, наиболее важным из которых является мера ассоциации , которая оценивает, является ли совместное появление чисто случайным или статистически значимым . Из-за неслучайной природы языка большинство словосочетаний классифицируются как значимые, а оценки ассоциации просто используются для ранжирования результатов. Обычно используемые меры ассоциации включают взаимную информацию , t-баллы и логарифмическое правдоподобие . [1] [2]
Вместо того, чтобы выбрать единственное определение, Гледхилл [3] предлагает, чтобы коллокация включала по крайней мере три различных перспективы: совместное возникновение, статистический взгляд, который рассматривает коллокацию как повторяющееся появление в тексте узла и его коллокатов; [4] [5] [6] конструкция, которая рассматривает коллокацию либо как корреляцию между лексемой и лексико-грамматической моделью, [7] либо как отношение между основой и ее коллокативными партнерами; [8] и выражение, прагматический взгляд на коллокацию как на условную единицу выражения, независимо от формы. [9] [10] Эти различные перспективы контрастируют с обычным способом представления коллокации во фразеологических исследованиях. Традиционно говоря, коллокация объясняется с точки зрения всех трех перспектив одновременно, в континууме:
В 1933 году во Втором промежуточном отчете Гарольда Палмера об английских коллокациях подчеркивалась важность коллокаций как ключа к созданию естественно звучащего языка для любого, кто изучает иностранный язык . [11] Таким образом, с 1940-х годов информация о повторяющихся сочетаниях слов стала стандартной функцией одноязычных обучающихся словарей . Поскольку эти словари становились «менее сосредоточенными на словах и более сосредоточенными на фразах», [12] все больше внимания уделялось коллокациям. Эта тенденция поддерживалась с начала 21-го века доступностью больших текстовых корпусов и интеллектуального программного обеспечения для поиска по корпусам , что позволило обеспечить более систематический учет коллокаций в словарях. Используя эти инструменты, такие словари, как Macmillan English Dictionary и Longman Dictionary of Contemporary English, включали в себя блоки или панели со списками часто встречающихся коллокаций. [13]
Существует также ряд специализированных словарей , посвященных описанию часто встречающихся словосочетаний в языке. [14] К ним относятся (для испанского языка) Redes: Diccionario combinatorio del español contemporaneo (2004), (для французского языка) Le Robert: Dictionnaire des combinaisons de mots (2007), а также (для английского языка) LTP Dictionary of Selected Collocations (1997) и Macmillan Collocations Dictionary (2010). [15]
Для определения того, является ли наличие словосочетания в корпусе статистически значимым, можно использовать t -критерий Стьюдента . [16] Для биграммы пусть будет безусловной вероятностью появления в корпусе размером , а пусть будет безусловной вероятностью появления в корпусе. Оценка по t-критерию для биграммы вычисляется следующим образом:
где — выборочное среднее появлений , — количество появлений , — вероятность при нулевой гипотезе, что и появляются в тексте независимо, — выборочная дисперсия. При большом t - тест эквивалентен Z -тесту .