stringtranslate.com

Лексикостатистика

Лексикостатистика — это метод сравнительной лингвистики , который предполагает сравнение процента лексических родственных слов между языками для определения их родства. Лексикостатистика родственна сравнительному методу , но не реконструирует праязык . Ее следует отличать от глоттохронологии , которая пытается использовать лексикостатистические методы для оценки промежутка времени с тех пор, как два или более языков отделились от общего более раннего праязыка. Однако это всего лишь одно из применений лексикостатистики; другие его применения могут не разделять предположение о постоянной скорости изменения основных лексических единиц.

Термин «лексикостатистика» вводит в заблуждение, поскольку используются математические уравнения, а не статистика. Помимо лексики, могут использоваться и другие особенности языка, хотя это необычно. В то время как сравнительный метод использовал общие идентифицированные инновации для определения подгрупп, лексикостатистика их не идентифицирует. Лексикостатистика является дистанционным методом, тогда как сравнительный метод рассматривает языковые символы напрямую. Метод лексикостатистики является простым и быстрым методом по сравнению со сравнительным методом, но имеет ограничения (обсуждаемые ниже). Это можно проверить путем перекрестной проверки деревьев, полученных обоими методами.

История

Лексикостатистика была разработана Моррисом Сводешем в серии статей в 1950-х годах на основе более ранних идей. [1] [2] [3] Первое известное использование этой концепции было Дюмоном д'Юрвилем в 1834 году, который сравнил различные «океанические» языки и предложил метод расчета коэффициента родства. Хаймс (1960) и Эмблтон (1986) рассматривают историю лексикостатистики. [4] [5]

Метод

Создать список слов

Цель состоит в том, чтобы составить список универсально используемых значений (рука, рот, небо, я). Затем собираются слова для этих смысловых слотов для каждого рассматриваемого языка. Первоначально Сводеш сократил более широкий набор значений до 200. Позже он обнаружил, что необходимо еще больше сократить его, но что он может включить некоторые значения, которых не было в его первоначальном списке, составив более поздний список из 100 пунктов. Список Сводеша в Викисловаре дает всего 207 значений на нескольких языках. Были созданы альтернативные списки, в которых применяются более строгие критерии, например, список Долгопольского и список Лейпцига-Джакарты , а также списки с более конкретным объемом; например, Dyen , Kruskal и Black имеют 200 значений для 84 индоевропейских языков в цифровой форме. [6]

Определить коньяки

Для принятия решений о знании необходим обученный и опытный лингвист. Однако решения, возможно, придется уточнять по мере увеличения уровня знаний. Однако лексикостатистика не полагается на правильность всех решений. Для каждой пары слов (на разных языках) в этом списке родственность формы может быть положительной, отрицательной или неопределенной. Иногда в языке имеется несколько слов для одного значения, например «маленький» и «маленький» для «небольшой» .

Вычислить лексикостатистические проценты

Этот процент связан с долей родственных значений для конкретной языковой пары, т.е. относительно общего числа значений без неопределенности. Это значение вводится в таблицу расстояний N × N , где N — количество сравниваемых языков. После завершения эта таблица наполовину заполнена и имеет треугольную форму. Чем выше доля родства, тем ближе языки.

Создать генеалогическое древо

Создание языкового дерева осуществляется исключительно на основе приведенной выше таблицы. Можно использовать различные методы подгруппирования, но Дайен, Краскал и Блэк выбрали следующий:

Расчеты должны производиться по ядерным и групповым лексическим процентам.

Приложения

Ведущим представителем применения лексикостатистики был Исидор Дьен . [7] [8] [9] [10] Он использовал лексикостатистику для классификации австронезийских языков [11], а также индоевропейских языков. [6] О крупном исследовании последнего сообщили Дайен, Крускал и Блэк (1992). [6] Исследования также проводились на индейских и африканских языках .

Пама-Нюнган

Проблема внутреннего разветвления внутри языковой семьи пама-ньюнган была давней проблемой для австралийской лингвистики, и общее мнение заключалось в том, что внутренние связи между более чем 25 различными подгруппами пама-ньюнгана либо невозможно реконструировать, либо эти подгруппы были на самом деле вообще не связаны генетически. [12] В 2012 году Клэр Бауэрн и Квентин Аткинсон опубликовали результаты применения компьютерных филогенетических методов к 194 документам, представляющим все основные подгруппы и изоляты Пама-Ньюнган. [13] Их модель «восстановила» многие из ветвей и подразделений, которые ранее были предложены и приняты многими другими австралийцами, а также дала некоторое представление о более проблемных ветвях, таких как Паман (что осложняется отсутствием данных). и Нгумпин-Япа (где генетическая картина неясна из-за очень высоких темпов заимствований между языками). Их набор данных является крупнейшим в своем роде для языковой семьи охотников-собирателей и вторым по величине в целом после австронезийского языка (Greenhill et al. 2008. Архивировано 19 декабря 2018 г. на Wayback Machine ). Они приходят к выводу, что пама-ньюнганские языки на самом деле не являются исключением из лексикостатистических методов, которые успешно применяются к другим языковым семьям мира.

Критика

Такие люди, как Хойер (1956), показали, что существуют трудности с поиском эквивалентов значений предметов, в то время как многие сочли необходимым изменить списки Сводеша. [14] Гудщинский (1956) задавался вопросом, возможно ли получить универсальный список. [15]

Такие факторы, как заимствование , традиции и табу, могут исказить результаты, как и в случае с другими методами. Иногда для поиска сходства использовалась лексикостатистика, при этом использовалось лексическое сходство, а не родство. Тогда это эквивалентно массовому сравнению .

Выбор смысловых слотов субъективен, как и выбор синонимов .

Улучшенные методы

Некоторые из современных методов вычислительной статистической проверки гипотез можно рассматривать как усовершенствования лексикостатистики, поскольку они используют аналогичные списки слов и меры расстояния.

Смотрите также

Рекомендации

  1. ^ Сводеш, Моррис (1955). «К большей точности лексикостатистического датирования». Международный журнал американской лингвистики . 21 (2): 121–137. дои : 10.1086/464321. S2CID  144581963.
  2. ^ Сводеш, Моррис (1952). «Лексикостатистическая датировка доисторических этнических контактов». Труды Американского философского общества . 96 : 452–463.
  3. ^ Сводеш, Моррис (1950). «Салиш внутренние отношения». Международный журнал американской лингвистики . 16 (4): 157–167. дои : 10.1086/464084. S2CID  145122561.
  4. ^ Хаймс, Делл (1960). «Лексикостатистика до сих пор». Современная антропология . 1 (1): 3–44. дои : 10.1086/200074. S2CID  144569209.
  5. ^ Эмблтон, Шейла (1986). Статистика в исторической лингвистике . Бохум.
  6. ^ abc Дьен, Исидор; Краскал, Джозеф; Блэк, Пол (1992). «Индоевропейская классификация, лексикостатистический эксперимент». Труды Американского философского общества . 82 (5): iii–132. дои : 10.2307/1006517. JSTOR  1006517.
  7. ^ Дьен, Исидор (1962). «Лексикостатистически обусловленные отношения языковой группы». Международный журнал американской лингвистики . 28 (3): 153–161. дои : 10.1086/464687. S2CID  143070513.
  8. ^ Дьен, Исидор (1963). «Лексикостатистически обусловленные заимствования и табу». Язык . 39 (1): 60–66. дои : 10.2307/410762. JSTOR  410762.
  9. ^ Дьен, Исидор, изд. (1973). Лексикостатистика в генетической лингвистике . Гаага: Мутон.
  10. ^ Дьен, Исидор (1975). Лингвистическая подгруппировка и лексикостатистика . Гаага: Мутон.
  11. ^ Дьен, Исидор (1965). «Лексикостатистическая классификация австронезийских языков». Международный журнал американской лингвистики . 19 .
  12. ^ Диксон, Роберт М.В. (2002). Австралийские языки: их природа и развитие . Издательство Кембриджского университета. стр. 48, 53. Австралия представляет собой прототип лингвистической области. Он имеет значительную временную глубину, довольно однородную местность, что обеспечивает легкость взаимодействия и общения, значительную долю взаимных экзогамных браков, безудержный многоязычие и открытое отношение к заимствованиям ... В австралийских языках существует базовое единообразие, что является естественным Результат длительного периода диффузии. Хотя никакого обоснования «Пама-Нюнган» не было, оно было принято. Люди приняли это, потому что это было принято — как разновидность веры. ... Понятно, что «Пама-Нюнган» не может быть признана генетической группой. Это также не является полезной типологической группировкой.
  13. ^ Бауэрн, Клэр; Аткинсон, Квентин (2012). «Вычислительная филогенетика и внутреннее строение Пама-Нюнгана». Язык . 88 (4): 817–845. дои : 10.1353/lan.2012.0081. hdl : 1885/61360 . S2CID  4375648.
  14. ^ Хойер, Гарри (1956). «Лексикостатистика: критика». Язык . 32 (1): 49–60. дои : 10.2307/410652. JSTOR  410652.
  15. ^ Гудщинский, Сара (1956). «Азбуки лексикостатистики (глоттохронологии)». Слово . 12 (2): 175–210. дои : 10.1080/00437956.1956.11659599 .

дальнейшее чтение

Внешние ссылки