Коллокация

В корпусной лингвистике коллокация — это ряд слов или терминов , которые встречаются вместе чаще, чем можно было бы ожидать случайно. Во фразеологии коллокация — это тип составной фраземы , то есть она может быть понята из слов , из которых она состоит. Это контрастирует с идиомой , где значение целого не может быть выведено из его частей и может быть совершенно не связано.

Существует около семи основных типов словосочетаний: прилагательное + существительное, существительное + существительное (например, собирательные существительные ), существительное + глагол, глагол + существительное, наречие + прилагательное, глаголы + предложная группа ( фразовые глаголы ) и глагол + наречие.

Извлечение коллокаций — это вычислительный метод, который находит коллокации в документе или корпусе, используя различные элементы компьютерной лингвистики, напоминающие интеллектуальный анализ данных .

Расширенное определение

Коллокации — это частично или полностью фиксированные выражения, которые устанавливаются посредством повторного использования в зависимости от контекста. Такие термины, как crystal clear , middle management , nuclear family и cosmetic surgery, являются примерами коллокированных пар слов.

Коллокации могут находиться в синтаксической связи (например, глагол-объект : сделать и решение ), лексической связи (например, антонимия ) или не находиться ни в какой лингвистически определенной связи. Знание коллокаций жизненно важно для грамотного использования языка: грамматически правильное предложение будет выглядеть неловким, если нарушаются предпочтения в коллокациях. Это делает коллокацию интересной областью для обучения языку.

Корпусные лингвисты определяют ключевое слово в контексте ( KWIC ) и определяют слова, непосредственно его окружающие. Это дает представление о том, как используются слова.

Обработка словосочетаний включает ряд параметров, наиболее важным из которых является мера ассоциации , которая оценивает, является ли совместное появление чисто случайным или статистически значимым . Из-за неслучайной природы языка большинство словосочетаний классифицируются как значимые, а оценки ассоциации просто используются для ранжирования результатов. Обычно используемые меры ассоциации включают взаимную информацию , t-баллы и логарифмическое правдоподобие . ^[1]^[2]

Вместо того, чтобы выбрать единственное определение, Гледхилл ^[3] предлагает, чтобы коллокация включала по крайней мере три различных перспективы: совместное возникновение, статистический взгляд, который рассматривает коллокацию как повторяющееся появление в тексте узла и его коллокатов; ^[4]^[5]^[6] конструкция, которая рассматривает коллокацию либо как корреляцию между лексемой и лексико-грамматической моделью, ^[7] либо как отношение между основой и ее коллокативными партнерами; ^[8] и выражение, прагматический взгляд на коллокацию как на условную единицу выражения, независимо от формы. ^[9]^[10] Эти различные перспективы контрастируют с обычным способом представления коллокации во фразеологических исследованиях. Традиционно говоря, коллокация объясняется с точки зрения всех трех перспектив одновременно, в континууме:

Свободное сочетание ↔ связанное словосочетание ↔ замороженная идиома

В словарях

В 1933 году во Втором промежуточном отчете Гарольда Палмера об английских коллокациях подчеркивалась важность коллокаций как ключа к созданию естественно звучащего языка для любого, кто изучает иностранный язык . ^[11] Таким образом, с 1940-х годов информация о повторяющихся сочетаниях слов стала стандартной функцией одноязычных обучающихся словарей . Поскольку эти словари становились «менее сосредоточенными на словах и более сосредоточенными на фразах», ^[12] все больше внимания уделялось коллокациям. Эта тенденция поддерживалась с начала 21-го века доступностью больших текстовых корпусов и интеллектуального программного обеспечения для поиска по корпусам , что позволило обеспечить более систематический учет коллокаций в словарях. Используя эти инструменты, такие словари, как Macmillan English Dictionary и Longman Dictionary of Contemporary English, включали в себя блоки или панели со списками часто встречающихся коллокаций. ^[13]

Существует также ряд специализированных словарей , посвященных описанию часто встречающихся словосочетаний в языке. ^[14] К ним относятся (для испанского языка) Redes: Diccionario combinatorio del español contemporaneo (2004), (для французского языка) Le Robert: Dictionnaire des combinaisons de mots (2007), а также (для английского языка) LTP Dictionary of Selected Collocations (1997) и Macmillan Collocations Dictionary (2010). ^[15]

Статистически значимое словосочетание

Для определения того, является ли наличие словосочетания в корпусе статистически значимым, можно использовать t -критерий Стьюдента . ^[16] Для биграммы пусть будет безусловной вероятностью появления в корпусе размером , а пусть будет безусловной вероятностью появления в корпусе. Оценка по t-критерию для биграммы вычисляется следующим образом: $w_{1}w_{2}$ $P(w_{1})={\frac {\#w_{1}}{N}}$ $w_{1}$ $N$ $P(w_{2})={\frac {\#w_{2}}{N}}$ $w_{2}$ $w_{1}w_{2}$

t={\frac {{\bar {x}}-\mu }{\sqrt {\frac {s^{2}}{N}}}},

где — выборочное среднее появлений , — количество появлений , — вероятность при нулевой гипотезе, что и появляются в тексте независимо, — выборочная дисперсия. При большом t - тест эквивалентен Z -тесту . ${\bar {x}}={\frac {\#w_{i}w_{j}}{N}}$ $w_{1}w_{2}$ $\#w_{1}w_{2}$ $w_{1}w_{2}$ ${\ displaystyle \ mu = P (w_ {i}) P (w_ {j})}$ $w_{1}w_{2}$ $w_{1}$ $w_{2}$ $s^{2}={\bar {x}}(1-{\bar {x}})\approx {\bar {x}}$ $N$

Смотрите также

Ссылки

↑ Даннинг, Тед (1993): «Точные методы статистики неожиданности и совпадений. Архивировано 5 августа 2012 г. в Wayback Machine ». Computational Linguistics 19, 1 (март 1993 г.), 61–74.
^ Даннинг, Тед (2008-03-21). "Удивление и совпадение". blogspot.com. Архивировано из оригинала 2012-01-20 . Получено 09.04.2012 .
^ Gledhill C. (2000): Коллокации в научной литературе. Архивировано 29 июня 2023 г. в Wayback Machine , Narr, Тюбинген.
^ Firth JR (1957): Статьи по лингвистике 1934–1951. Оксфорд: Oxford University Press.
↑ Синклер Дж. (1996): «Поиск единиц смысла», в Textus, IX, 75–106.
^ Smadja F. A & McKeown, KR (1990): «Автоматическое извлечение и представление словосочетаний для генерации языка. Архивировано 06.09.2015 в Wayback Machine », Труды ACL'90, 252–259, Питтсбург, Пенсильвания.
^ Ханстон С. и Фрэнсис Г. (2000): Pattern Grammar — A Corpus-Driven Approach to the Lexical Grammar of English Архивировано 29 июня 2023 г. в Wayback Machine , Амстердам, Джон Бенджаминс
^ Хаусманн Ф.Дж. (1989): Словарь словосочетаний. В книге Хаусманн Ф.Дж., Райхманн О., Виганд Х.Е., Згуста Л.(ред.), Wörterbücher: ein Internationales Handbuch zur Lexikographie. Словари. Словари. Берлин/Нью-Йорк: Де Грюйтер. 1010–1019.
^ Мун Р. (1998): Устойчивые выражения и идиомы, корпусный подход. Оксфорд, Oxford University Press.
^ Фрат П. и Гледхилл К. (2005): «Свободно перемещающиеся кластеры или замороженные фрагменты? Ссылка как определяющий критерий для языковых единиц ^{[ мертвая ссылка ]} », в Recherches anglaises et Nord-américaines, т. 38 :25–43
^ Коуи, А.П., Английские словари для иностранных учащихся, Oxford University Press 1999:54–56
^ Бежоинт, Х., Лексикография английского языка, Oxford University Press 2010: 318
^ "MED Second Edition – Основные характеристики – Macmillan". macmillandictionaries.com . Архивировано из оригинала 2020-09-28 . Получено 2011-08-24 .
^ Хербст, Т. и Клотц, М. «Синтагматические и фразеологические словари» в Коуи, А. П. (ред.) Оксфордская история английской лексикографии, 2009: часть 2, 234–243
^ "Словарь словосочетаний Macmillan – Как это было написано - Macmillan". macmillandictionaries.com . Архивировано из оригинала 21.12.2018 . Получено 24.08.2011 .
^ Мэннинг, Крис; Шютце, Хинрих (1999). Основы статистической обработки естественного языка . Кембридж, Массачусетс: MIT Press. С. 163–166. ISBN 0262133601.

Внешние ссылки

Найдите словосочетание в Викисловаре, бесплатном словаре.

Словарь словосочетаний Оздика
Небольшая система хранения испанских словосочетаний (Игорь А. Большаков и Сабино Миранда-Хименес)
Морфологическая характеристика словосочетаний и семантических связей в испанском языке (Сабино Миранда-Хименес и Игорь А. Большаков)
Пример словосочетаний для слова "Surgery" на wordassociations.net