stringtranslate.com

Коллокация

В корпусной лингвистике словосочетание — это серия слов или терминов , которые встречаются чаще, чем можно было бы ожидать случайно . Во фразеологии словосочетание — это разновидность композиционной фраземы , то есть ее можно понять по словам, входящим в ее состав . Это контрастирует с идиомой , где смысл целого не может быть выведен из его частей и может быть совершенно не связан.

Существует около семи основных типов словосочетаний: прилагательное + существительное, существительное + существительное (например, собирательные существительные ), существительное + глагол, глагол + существительное, наречие + прилагательное, глаголы + предложная фраза ( фразовые глаголы ) и глагол + наречие.

Извлечение словосочетаний — это вычислительный метод, который находит словосочетания в документе или корпусе с использованием различных элементов компьютерной лингвистики , напоминающих интеллектуальный анализ данных .

Расширенное определение

Коллокации — это частично или полностью фиксированные выражения, которые устанавливаются в результате многократного использования в зависимости от контекста. Такие термины, как «кристально чистый », «менеджер среднего звена », «нуклеарная семья » и «косметическая хирургия» , являются примерами созвучных пар слов.

Коллокации могут находиться в синтаксическом отношении (например, глагол-объект : принятие и решение ), лексическом отношении (например, антонимия ) или не находиться в лингвистически определенном отношении. Знание словосочетаний жизненно важно для грамотного использования языка: грамматически правильное предложение будет выглядеть неуклюжим, если коллокационные предпочтения будут нарушены. Это делает коллокацию интересной областью преподавания языка.

Корпусные лингвисты определяют ключевое слово в контексте ( KWIC ) и определяют слова, непосредственно окружающие его. Это дает представление о том, как используются слова.

Обработка словосочетаний включает в себя ряд параметров, наиболее важным из которых является мера ассоциации , которая оценивает, является ли совпадение чисто случайным или статистически значимым . Из-за неслучайной природы языка большинство словосочетаний классифицируются как значимые, а оценки ассоциаций просто используются для ранжирования результатов. Обычно используемые меры связи включают взаимную информацию , t-показатели и логарифмическое правдоподобие . [1] [2]

Вместо того, чтобы выбирать одно определение, Гледхилл [3] предлагает, чтобы коллокация включала по крайней мере три различных точки зрения: совместное появление, статистический взгляд, который рассматривает коллокацию как повторяющееся появление в тексте узла и его коллокаций; [4] [5] [6] конструкция, рассматривающая словосочетание либо как соотношение между лексемой и лексико-грамматическим образцом, [7] либо как отношение между основой и ее коллокативными партнерами; [8] и выражение — прагматичный взгляд на словосочетание как на условную единицу выражения, независимо от формы. [9] [10] Эти разные точки зрения контрастируют с обычным способом представления словосочетаний во фразеологических исследованиях. Традиционно словосочетание объясняется с точки зрения всех трех точек зрения одновременно, в континууме:

Свободная комбинация ↔ связанное словосочетание ↔ замороженная идиома

В словарях

В 1933 году во втором промежуточном отчете Гарольда Палмера об английских словосочетаниях подчеркивалась важность словосочетания как ключа к созданию естественно звучащего языка для любого, кто изучает иностранный язык . [11] Таким образом, начиная с 1940-х годов информация о повторяющихся словосочетаниях стала стандартной характеристикой одноязычных словарей для учащихся . Поскольку эти словари стали «менее ориентированными на слова и более сосредоточенными на фразах», [12] больше внимания стало уделяться словосочетанию. Эта тенденция поддерживалась с начала 21 века наличием больших текстовых корпусов и интеллектуального программного обеспечения для корпусных запросов , что позволило обеспечить более систематическое описание словосочетания в словарях. Используя эти инструменты, словари, такие как словарь английского языка Macmillan и словарь современного английского языка Лонгмана, включали рамки или панели со списками частых словосочетаний. [13]

Существует также ряд специализированных словарей , посвященных описанию частых словосочетаний в языке. [14] К ним относятся (для испанского языка) Redes: Diccionario combinatorio del español contemporaneo (2004 г.), (для французского языка) Le Robert: Dictionnaire des combinaisons de mots (2007 г.) и (для английского языка) Словарь избранных словосочетаний LTP (1997 г.). и Словарь словосочетаний Macmillan (2010). [15]

Статистически значимое сочетание

T -критерий Стьюдента можно использовать для определения того, является ли появление словосочетания в корпусе статистически значимым. [16] Для биграммы пусть будет безусловная вероятность появления в корпусе размером , и пусть будет безусловная вероятность появления в корпусе. T-показатель для биграммы рассчитывается как:

где - выборочное среднее появление , - количество вхождений , - вероятность того, что при нулевой гипотезе и появляются независимо в тексте, и - выборочная дисперсия. При большом значении t - тест эквивалентен Z -тесту .

Смотрите также

Рекомендации

  1. ^ Даннинг, Тед (1993): «Точные методы статистики неожиданностей и совпадений. Архивировано 5 августа 2012 г. в Wayback Machine ». Компьютерная лингвистика 19, 1 (март 1993 г.), 61–74.
  2. ^ Даннинг, Тед (21 марта 2008 г.). «Сюрприз и совпадение». blogspot.com. Архивировано из оригинала 20 января 2012 г. Проверено 9 апреля 2012 г.
  3. ^ Гледхилл К. (2000): Словосочетания в научной литературе. Архивировано 29 июня 2023 г. в Wayback Machine , Нарр, Тюбинген.
  4. ^ Ферт-младший (1957): Статьи по лингвистике 1934–1951. Оксфорд: Издательство Оксфордского университета.
  5. ^ Синклер Дж. (1996): «В поисках единиц значения», в Textus, IX, 75–106.
  6. ^ Смаджа Ф.А. и Маккеун, КР (1990): «Автоматическое извлечение и представление словосочетаний для генерации языка. Архивировано 6 сентября 2015 г. в Wayback Machine », Proceedings of ACL'90, 252–259, Питтсбург, Пенсильвания.
  7. ^ Ханстон С. и Фрэнсис Г. (2000): Грамматика шаблонов - корпусный подход к лексической грамматике английского языка. Архивировано 29 июня 2023 г. в Wayback Machine , Амстердам, Джон Бенджаминс.
  8. ^ Хаусманн Ф.Дж. (1989): Словарь словосочетаний. В книге Хаусманн Ф.Дж., Райхманн О., Виганд Х.Е., Згуста Л.(ред.), Wörterbücher: ein Internationales Handbuch zur Lexikographie. Словари. Словари. Берлин/Нью-Йорк: Де Грюйтер. 1010–1019.
  9. ^ Мун Р. (1998): Фиксированные выражения и идиомы, корпусный подход. Оксфорд, Издательство Оксфордского университета.
  10. ^ Фрат П. и Гледхилл К. (2005): «Кластеры свободного распространения или замороженные куски? Ссылка как определяющий критерий для лингвистических единиц [ мертвая ссылка ] », в Recherches anglaises et Nord-américaines, vol. 38:25–43
  11. ^ Коуи, AP, Английские словари для иностранных учащихся, Oxford University Press, 1999: 54–56.
  12. ^ Беджоинт, Х., Лексикография английского языка, Oxford University Press, 2010: 318.
  13. ^ «Второе издание MED - Ключевые особенности - Macmillan» . macmillandictionaries.com . Архивировано из оригинала 28 сентября 2020 г. Проверено 24 августа 2011 г.
  14. ^ Хербст, Т. и Клотц, М. «Синтагматические и фразеологические словари» в Коуи, AP (ред.) Оксфордская история английской лексикографии, 2009: часть 2, 234–243
  15. ^ "Словарь словосочетаний Macmillan - Как он был написан - Macmillan" . macmillandictionaries.com . Архивировано из оригинала 21 декабря 2018 г. Проверено 24 августа 2011 г.
  16. ^ Мэннинг, Крис; Шютце, Хинрих (1999). Основы статистической обработки естественного языка . Кембридж, Массачусетс: MIT Press. стр. 163–166. ISBN 0262133601.

Внешние ссылки