Лексикостатистика

Лексикостатистика — это метод сравнительной лингвистики , который предполагает сравнение процента лексических родственных слов между языками для определения их родства. Лексикостатистика родственна сравнительному методу , но не реконструирует праязык . Ее следует отличать от глоттохронологии , которая пытается использовать лексикостатистические методы для оценки промежутка времени с тех пор, как два или более языков отделились от общего более раннего праязыка. Однако это всего лишь одно из применений лексикостатистики; другие его применения могут не разделять предположение о постоянной скорости изменения основных лексических единиц.

Термин «лексикостатистика» вводит в заблуждение, поскольку используются математические уравнения, а не статистика. Помимо лексики, могут использоваться и другие особенности языка, хотя это необычно. В то время как сравнительный метод использовал общие идентифицированные инновации для определения подгрупп, лексикостатистика их не идентифицирует. Лексикостатистика является дистанционным методом, тогда как сравнительный метод рассматривает языковые символы напрямую. Метод лексикостатистики является простым и быстрым методом по сравнению со сравнительным методом, но имеет ограничения (обсуждаемые ниже). Это можно проверить путем перекрестной проверки деревьев, полученных обоими методами.

История

Лексикостатистика была разработана Моррисом Сводешем в серии статей в 1950-х годах на основе более ранних идей. ^[1]^[2]^[3] Первое известное использование этой концепции было Дюмоном д'Юрвилем в 1834 году, который сравнил различные «океанические» языки и предложил метод расчета коэффициента родства. Хаймс (1960) и Эмблтон (1986) рассматривают историю лексикостатистики. ^[4]^[5]

Метод

Создать список слов

Цель состоит в том, чтобы составить список универсально используемых значений (рука, рот, небо, я). Затем собираются слова для этих смысловых слотов для каждого рассматриваемого языка. Первоначально Сводеш сократил более широкий набор значений до 200. Позже он обнаружил, что необходимо еще больше сократить его, но что он может включить некоторые значения, которых не было в его первоначальном списке, составив более поздний список из 100 пунктов. Список Сводеша в Викисловаре дает всего 207 значений на нескольких языках. Были созданы альтернативные списки, в которых применяются более строгие критерии, например, список Долгопольского и список Лейпцига-Джакарты , а также списки с более конкретным объемом; например, Dyen , Kruskal и Black имеют 200 значений для 84 индоевропейских языков в цифровой форме. ^[6]

Определить коньяки

Для принятия решений о знании необходим обученный и опытный лингвист. Однако решения, возможно, придется уточнять по мере увеличения уровня знаний. Однако лексикостатистика не полагается на правильность всех решений. Для каждой пары слов (на разных языках) в этом списке родственность формы может быть положительной, отрицательной или неопределенной. Иногда в языке имеется несколько слов для одного значения, например «маленький» и «маленький» для «небольшой» .

Вычислить лексикостатистические проценты

Этот процент связан с долей родственных значений для конкретной языковой пары, т.е. относительно общего числа значений без неопределенности. Это значение вводится в таблицу расстояний $N \times N$ , где N — количество сравниваемых языков. После завершения эта таблица наполовину заполнена и имеет треугольную форму. Чем выше доля родства, тем ближе языки.

Создать генеалогическое древо

Создание языкового дерева осуществляется исключительно на основе приведенной выше таблицы. Можно использовать различные методы подгруппирования, но Дайен, Краскал и Блэк выбрали следующий:

все списки помещаются в пул
два ближайших члена удаляются и образуют ядро, которое помещается в пул.
этот шаг повторяется
при определенных условиях ядро становится группой
это повторяется до тех пор, пока пул не будет содержать только одну группу.

Расчеты должны производиться по ядерным и групповым лексическим процентам.

Приложения

Ведущим представителем применения лексикостатистики был Исидор Дьен . ^[7]^[8]^[9]^[10] Он использовал лексикостатистику для классификации австронезийских языков ^[11], а также индоевропейских языков. ^[6] О крупном исследовании последнего сообщили Дайен, Крускал и Блэк (1992). ^[6] Исследования также проводились на индейских и африканских языках .

Пама-Нюнган

Проблема внутреннего разветвления внутри языковой семьи пама-ньюнган была давней проблемой для австралийской лингвистики, и общее мнение заключалось в том, что внутренние связи между более чем 25 различными подгруппами пама-ньюнгана либо невозможно реконструировать, либо эти подгруппы были на самом деле вообще не связаны генетически. ^[12] В 2012 году Клэр Бауэрн и Квентин Аткинсон опубликовали результаты применения компьютерных филогенетических методов к 194 документам, представляющим все основные подгруппы и изоляты Пама-Ньюнган. ^[13] Их модель «восстановила» многие из ветвей и подразделений, которые ранее были предложены и приняты многими другими австралийцами, а также дала некоторое представление о более проблемных ветвях, таких как Паман (что осложняется отсутствием данных). и Нгумпин-Япа (где генетическая картина неясна из-за очень высоких темпов заимствований между языками). Их набор данных является крупнейшим в своем роде для языковой семьи охотников-собирателей и вторым по величине в целом после австронезийского языка (Greenhill et al. 2008. Архивировано 19 декабря 2018 г. на Wayback Machine ). Они приходят к выводу, что пама-ньюнганские языки на самом деле не являются исключением из лексикостатистических методов, которые успешно применяются к другим языковым семьям мира.

Критика

Такие люди, как Хойер (1956), показали, что существуют трудности с поиском эквивалентов значений предметов, в то время как многие сочли необходимым изменить списки Сводеша. ^[14] Гудщинский (1956) задавался вопросом, возможно ли получить универсальный список. ^[15]

Такие факторы, как заимствование , традиции и табу, могут исказить результаты, как и в случае с другими методами. Иногда для поиска сходства использовалась лексикостатистика, при этом использовалось лексическое сходство, а не родство. Тогда это эквивалентно массовому сравнению .

Выбор смысловых слотов субъективен, как и выбор синонимов .

Улучшенные методы

Некоторые из современных методов вычислительной статистической проверки гипотез можно рассматривать как усовершенствования лексикостатистики, поскольку они используют аналогичные списки слов и меры расстояния.

Смотрите также

дальнейшее чтение

Добсон, Аннет (1969). Лексикостатистическая группировка. Антропологическая лингвистика 7, 216–221.
Добсон, Аннетт и Блэк, Пол (1979). Многомерное масштабирование некоторых лексикостатистических данных. Ученый-математик 1979/4, 55-61.
МакМахон, Эйприл и МакМахон, Роберт (2005). Классификация языков по номерам. Издательство Оксфордского университета.
Санкофф, Дэвид (1970). «О скорости замены словесных связей». Язык 46.564-569.
Виттманн, Анри (1969). «Лексико-статистическое исследование диахронии хеттского языка». Indogermanische Forschungen 74.1-10.[1]
Виттманн, Анри (1973). «Лексикостатистическая классификация креольских языков французского происхождения». Лексикостатистика в генетической лингвистике: материалы Йельской конференции, 3–4 апреля 1971 г. , реж. Исидор Дьен, 89–99. Ла Хэй: Мутон.[2]

Внешние ссылки

Поищите лексикостатистику в Викисловаре, бесплатном словаре.

Глобальная лексикостатистическая база данных, часть проекта «Эволюция человеческих языков».
база данных IE
Упрощенное объяснение разницы между глоттохронологией и лексикостатистикой.