Лексикостатистика — это метод сравнительной лингвистики , который предполагает сравнение процента лексических родственных слов между языками для определения их родства. Лексикостатистика родственна сравнительному методу , но не реконструирует праязык . Ее следует отличать от глоттохронологии , которая пытается использовать лексикостатистические методы для оценки промежутка времени с тех пор, как два или более языков отделились от общего более раннего праязыка. Однако это всего лишь одно из применений лексикостатистики; другие его применения могут не разделять предположение о постоянной скорости изменения основных лексических единиц.
Термин «лексикостатистика» вводит в заблуждение, поскольку используются математические уравнения, а не статистика. Помимо лексики, могут использоваться и другие особенности языка, хотя это необычно. В то время как сравнительный метод использовал общие идентифицированные инновации для определения подгрупп, лексикостатистика их не идентифицирует. Лексикостатистика является дистанционным методом, тогда как сравнительный метод рассматривает языковые символы напрямую. Метод лексикостатистики является простым и быстрым методом по сравнению со сравнительным методом, но имеет ограничения (обсуждаемые ниже). Это можно проверить путем перекрестной проверки деревьев, полученных обоими методами.
Лексикостатистика была разработана Моррисом Сводешем в серии статей в 1950-х годах на основе более ранних идей. [1] [2] [3] Первое известное использование этой концепции было Дюмоном д'Юрвилем в 1834 году, который сравнил различные «океанические» языки и предложил метод расчета коэффициента родства. Хаймс (1960) и Эмблтон (1986) рассматривают историю лексикостатистики. [4] [5]
Цель состоит в том, чтобы составить список универсально используемых значений (рука, рот, небо, я). Затем собираются слова для этих смысловых слотов для каждого рассматриваемого языка. Первоначально Сводеш сократил более широкий набор значений до 200. Позже он обнаружил, что необходимо еще больше сократить его, но что он может включить некоторые значения, которых не было в его первоначальном списке, составив более поздний список из 100 пунктов. Список Сводеша в Викисловаре дает всего 207 значений на нескольких языках. Были созданы альтернативные списки, в которых применяются более строгие критерии, например, список Долгопольского и список Лейпцига-Джакарты , а также списки с более конкретным объемом; например, Dyen , Kruskal и Black имеют 200 значений для 84 индоевропейских языков в цифровой форме. [6]
Для принятия решений о знании необходим обученный и опытный лингвист. Однако решения, возможно, придется уточнять по мере увеличения уровня знаний. Однако лексикостатистика не полагается на правильность всех решений. Для каждой пары слов (на разных языках) в этом списке родственность формы может быть положительной, отрицательной или неопределенной. Иногда в языке имеется несколько слов для одного значения, например «маленький» и «маленький» для «небольшой» .
Этот процент связан с долей родственных значений для конкретной языковой пары, т.е. относительно общего числа значений без неопределенности. Это значение вводится в таблицу расстояний N × N , где N — количество сравниваемых языков. После завершения эта таблица наполовину заполнена и имеет треугольную форму. Чем выше доля родства, тем ближе языки.
Создание языкового дерева осуществляется исключительно на основе приведенной выше таблицы. Можно использовать различные методы подгруппирования, но Дайен, Краскал и Блэк выбрали следующий:
Расчеты должны производиться по ядерным и групповым лексическим процентам.
Ведущим представителем применения лексикостатистики был Исидор Дьен . [7] [8] [9] [10] Он использовал лексикостатистику для классификации австронезийских языков [11], а также индоевропейских языков. [6] О крупном исследовании последнего сообщили Дайен, Крускал и Блэк (1992). [6] Исследования также проводились на индейских и африканских языках .
Проблема внутреннего разветвления внутри языковой семьи пама-ньюнган была давней проблемой для австралийской лингвистики, и общее мнение заключалось в том, что внутренние связи между более чем 25 различными подгруппами пама-ньюнгана либо невозможно реконструировать, либо эти подгруппы были на самом деле вообще не связаны генетически. [12] В 2012 году Клэр Бауэрн и Квентин Аткинсон опубликовали результаты применения компьютерных филогенетических методов к 194 документам, представляющим все основные подгруппы и изоляты Пама-Ньюнган. [13] Их модель «восстановила» многие из ветвей и подразделений, которые ранее были предложены и приняты многими другими австралийцами, а также дала некоторое представление о более проблемных ветвях, таких как Паман (что осложняется отсутствием данных). и Нгумпин-Япа (где генетическая картина неясна из-за очень высоких темпов заимствований между языками). Их набор данных является крупнейшим в своем роде для языковой семьи охотников-собирателей и вторым по величине в целом после австронезийского языка (Greenhill et al. 2008. Архивировано 19 декабря 2018 г. на Wayback Machine ). Они приходят к выводу, что пама-ньюнганские языки на самом деле не являются исключением из лексикостатистических методов, которые успешно применяются к другим языковым семьям мира.
Такие люди, как Хойер (1956), показали, что существуют трудности с поиском эквивалентов значений предметов, в то время как многие сочли необходимым изменить списки Сводеша. [14] Гудщинский (1956) задавался вопросом, возможно ли получить универсальный список. [15]
Такие факторы, как заимствование , традиции и табу, могут исказить результаты, как и в случае с другими методами. Иногда для поиска сходства использовалась лексикостатистика, при этом использовалось лексическое сходство, а не родство. Тогда это эквивалентно массовому сравнению .
Выбор смысловых слотов субъективен, как и выбор синонимов .
Некоторые из современных методов вычислительной статистической проверки гипотез можно рассматривать как усовершенствования лексикостатистики, поскольку они используют аналогичные списки слов и меры расстояния.
Австралия представляет собой прототип лингвистической области. Он имеет значительную временную глубину, довольно однородную местность, что обеспечивает легкость взаимодействия и общения, значительную долю взаимных экзогамных браков, безудержный многоязычие и открытое отношение к заимствованиям ... В австралийских языках существует базовое единообразие, что является естественным Результат длительного периода диффузии. Хотя никакого обоснования «Пама-Нюнган» не было, оно было принято. Люди приняли это, потому что это было принято — как разновидность веры. ... Понятно, что «Пама-Нюнган» не может быть признана генетической группой. Это также не является полезной типологической группировкой.