stringtranslate.com

Коллокация

В корпусной лингвистике коллокация — это ряд слов или терминов , которые встречаются вместе чаще, чем можно было бы ожидать случайно. Во фразеологии коллокация — это тип составной фраземы , то есть она может быть понята из слов , из которых она состоит. Это контрастирует с идиомой , где значение целого не может быть выведено из его частей и может быть совершенно не связано.

Существует около семи основных типов словосочетаний: прилагательное + существительное, существительное + существительное (например, собирательные существительные ), существительное + глагол, глагол + существительное, наречие + прилагательное, глаголы + предложная группа ( фразовые глаголы ) и глагол + наречие.

Извлечение коллокаций — это вычислительный метод, который находит коллокации в документе или корпусе, используя различные элементы компьютерной лингвистики, напоминающие интеллектуальный анализ данных .

Расширенное определение

Коллокации — это частично или полностью фиксированные выражения, которые устанавливаются посредством повторного использования в зависимости от контекста. Такие термины, как crystal clear , middle management , nuclear family и cosmetic surgery, являются примерами коллокированных пар слов.

Коллокации могут находиться в синтаксической связи (например, глагол-объект : сделать и решение ), лексической связи (например, антонимия ) или не находиться ни в какой лингвистически определенной связи. Знание коллокаций жизненно важно для грамотного использования языка: грамматически правильное предложение будет выглядеть неловким, если нарушаются предпочтения в коллокациях. Это делает коллокацию интересной областью для обучения языку.

Корпусные лингвисты определяют ключевое слово в контексте ( KWIC ) и определяют слова, непосредственно его окружающие. Это дает представление о том, как используются слова.

Обработка словосочетаний включает ряд параметров, наиболее важным из которых является мера ассоциации , которая оценивает, является ли совместное появление чисто случайным или статистически значимым . Из-за неслучайной природы языка большинство словосочетаний классифицируются как значимые, а оценки ассоциации просто используются для ранжирования результатов. Обычно используемые меры ассоциации включают взаимную информацию , t-баллы и логарифмическое правдоподобие . [1] [2]

Вместо того, чтобы выбрать единственное определение, Гледхилл [3] предлагает, чтобы коллокация включала по крайней мере три различных перспективы: совместное возникновение, статистический взгляд, который рассматривает коллокацию как повторяющееся появление в тексте узла и его коллокатов; [4] [5] [6] конструкция, которая рассматривает коллокацию либо как корреляцию между лексемой и лексико-грамматической моделью, [7] либо как отношение между основой и ее коллокативными партнерами; [8] и выражение, прагматический взгляд на коллокацию как на условную единицу выражения, независимо от формы. [9] [10] Эти различные перспективы контрастируют с обычным способом представления коллокации во фразеологических исследованиях. Традиционно говоря, коллокация объясняется с точки зрения всех трех перспектив одновременно, в континууме:

Свободное сочетание ↔ связанное словосочетание ↔ замороженная идиома

В словарях

В 1933 году во Втором промежуточном отчете Гарольда Палмера об английских коллокациях подчеркивалась важность коллокаций как ключа к созданию естественно звучащего языка для любого, кто изучает иностранный язык . [11] Таким образом, с 1940-х годов информация о повторяющихся сочетаниях слов стала стандартной функцией одноязычных обучающихся словарей . Поскольку эти словари становились «менее сосредоточенными на словах и более сосредоточенными на фразах», [12] все больше внимания уделялось коллокациям. Эта тенденция поддерживалась с начала 21-го века доступностью больших текстовых корпусов и интеллектуального программного обеспечения для поиска по корпусам , что позволило обеспечить более систематический учет коллокаций в словарях. Используя эти инструменты, такие словари, как Macmillan English Dictionary и Longman Dictionary of Contemporary English, включали в себя блоки или панели со списками часто встречающихся коллокаций. [13]

Существует также ряд специализированных словарей , посвященных описанию часто встречающихся словосочетаний в языке. [14] К ним относятся (для испанского языка) Redes: Diccionario combinatorio del español contemporaneo (2004), (для французского языка) Le Robert: Dictionnaire des combinaisons de mots (2007), а также (для английского языка) LTP Dictionary of Selected Collocations (1997) и Macmillan Collocations Dictionary (2010). [15]

Статистически значимое словосочетание

Для определения того, является ли наличие словосочетания в корпусе статистически значимым, можно использовать t -критерий Стьюдента . [16] Для биграммы пусть будет безусловной вероятностью появления в корпусе размером , а пусть будет безусловной вероятностью появления в корпусе. Оценка по t-критерию для биграммы вычисляется следующим образом:

где — выборочное среднее появлений , — количество появлений , — вероятность при нулевой гипотезе, что и появляются в тексте независимо, — выборочная дисперсия. При большом t - тест эквивалентен Z -тесту .

Смотрите также

Ссылки

  1. Даннинг, Тед (1993): «Точные методы статистики неожиданности и совпадений. Архивировано 5 августа 2012 г. в Wayback Machine ». Computational Linguistics 19, 1 (март 1993 г.), 61–74.
  2. ^ Даннинг, Тед (2008-03-21). "Удивление и совпадение". blogspot.com. Архивировано из оригинала 2012-01-20 . Получено 09.04.2012 .
  3. ^ Gledhill C. (2000): Коллокации в научной литературе. Архивировано 29 июня 2023 г. в Wayback Machine , Narr, Тюбинген.
  4. ^ Firth JR (1957): Статьи по лингвистике 1934–1951. Оксфорд: Oxford University Press.
  5. Синклер Дж. (1996): «Поиск единиц смысла», в Textus, IX, 75–106.
  6. ^ Smadja F. A & McKeown, KR (1990): «Автоматическое извлечение и представление словосочетаний для генерации языка. Архивировано 06.09.2015 в Wayback Machine », Труды ACL'90, 252–259, Питтсбург, Пенсильвания.
  7. ^ Ханстон С. и Фрэнсис Г. (2000): Pattern Grammar — A Corpus-Driven Approach to the Lexical Grammar of English Архивировано 29 июня 2023 г. в Wayback Machine , Амстердам, Джон Бенджаминс
  8. ^ Хаусманн Ф.Дж. (1989): Словарь словосочетаний. В книге Хаусманн Ф.Дж., Райхманн О., Виганд Х.Е., Згуста Л.(ред.), Wörterbücher: ein Internationales Handbuch zur Lexikographie. Словари. Словари. Берлин/Нью-Йорк: Де Грюйтер. 1010–1019.
  9. ^ Мун Р. (1998): Устойчивые выражения и идиомы, корпусный подход. Оксфорд, Oxford University Press.
  10. ^ Фрат П. и Гледхилл К. (2005): «Свободно перемещающиеся кластеры или замороженные фрагменты? Ссылка как определяющий критерий для языковых единиц [ мертвая ссылка ] », в Recherches anglaises et Nord-américaines, т. 38 :25–43
  11. ^ Коуи, А.П., Английские словари для иностранных учащихся, Oxford University Press 1999:54–56
  12. ^ Бежоинт, Х., Лексикография английского языка, Oxford University Press 2010: 318
  13. ^ "MED Second Edition – Основные характеристики – Macmillan". macmillandictionaries.com . Архивировано из оригинала 2020-09-28 . Получено 2011-08-24 .
  14. ^ Хербст, Т. и Клотц, М. «Синтагматические и фразеологические словари» в Коуи, А. П. (ред.) Оксфордская история английской лексикографии, 2009: часть 2, 234–243
  15. ^ "Словарь словосочетаний Macmillan – Как это было написано - Macmillan". macmillandictionaries.com . Архивировано из оригинала 21.12.2018 . Получено 24.08.2011 .
  16. ^ Мэннинг, Крис; Шютце, Хинрих (1999). Основы статистической обработки естественного языка . Кембридж, Массачусетс: MIT Press. С. 163–166. ISBN 0262133601.

Внешние ссылки