Лексикостатистика — это метод сравнительной лингвистики , который включает сравнение процента лексических когнатов между языками для определения их взаимосвязи. Лексикостатистика связана с сравнительным методом , но не реконструирует протоязык . Ее следует отличать от глоттохронологии , которая пытается использовать лексикостатистические методы для оценки продолжительности времени с тех пор, как два или более языков разошлись с общим более ранним протоязыком. Однако это всего лишь одно из применений лексикостатистики; другие ее применения могут не разделять предположение о постоянной скорости изменения основных лексических единиц.
Термин «лексикостатистика» вводит в заблуждение, поскольку используются математические уравнения, а не статистика. Могут использоваться и другие характеристики языка, помимо лексики, хотя это необычно. В то время как сравнительный метод использовал общие идентифицированные инновации для определения подгрупп, лексикостатистика не идентифицирует их. Лексикостатистика — это метод, основанный на расстоянии, тогда как сравнительный метод рассматривает символы языка напрямую. Метод лексикостатистики — это простая и быстрая техника по сравнению со сравнительным методом, но имеет ограничения (обсуждаемые ниже). Его можно проверить путем перекрестной проверки деревьев, полученных обоими методами.
Лексикостатистика была разработана Моррисом Сводешем в серии статей в 1950-х годах на основе более ранних идей. [1] [2] [3] Первое известное использование этой концепции было сделано Дюмоном Дюрвилем в 1834 году, который сравнил различные «океанические» языки и предложил метод расчета коэффициента родства. Хаймс (1960) и Эмблтон (1986) оба рассматривают историю лексикостатистики. [4] [5]
Цель состоит в том, чтобы создать список универсально используемых значений (рука, рот, небо, я). Затем слова собираются для этих слотов значений для каждого рассматриваемого языка. Сводеш сократил больший набор значений до 200 изначально. Позже он обнаружил, что необходимо сократить его еще больше, но что он может включить некоторые значения, которых не было в его первоначальном списке, дав свой более поздний список из 100 пунктов. Список Сводеша в Викисловаре дает в общей сложности 207 значений в ряде языков. Были созданы альтернативные списки, которые применяют более строгие критерии, например, список Долгопольского и список Лейпцига–Джакарты , а также списки с более конкретной областью применения; например, Dyen , Kruskal и Black имеют 200 значений для 84 индоевропейских языков в цифровой форме. [6]
Для принятия решений о родственности требуется обученный и опытный лингвист. Однако решения могут нуждаться в уточнении по мере увеличения уровня знаний. Однако лексикостатистика не полагается на то, что все решения верны. Для каждой пары слов (в разных языках) в этом списке родственность формы может быть положительной, отрицательной или неопределенной. Иногда в языке есть несколько слов для одного значения, например, small и little для not big .
Этот процент связан с долей значений для конкретной языковой пары, которые являются родственными, т.е. относительно общего числа без неопределенности. Это значение вводится в таблицу расстояний N × N , где N — количество сравниваемых языков. После заполнения эта таблица заполняется наполовину в треугольной форме. Чем выше доля родства, тем ближе родство языков.
Создание языкового дерева основано исключительно на таблице, найденной выше. Могут быть использованы различные методы подгруппирования, но принятый Дайеном, Крускалом и Блэком:
Расчеты должны быть основаны на процентном соотношении лексических единиц ядра и группы.
Ведущим представителем применения лексикостатистики был Исидор Дьен . [7] [8] [9] [10] Он использовал лексикостатистику для классификации австронезийских языков [11] , а также индоевропейских языков. [6] Крупное исследование последних было опубликовано Дайеном, Крускалом и Блэком (1992). [6] Исследования также проводились на индейских и африканских языках .
Проблема внутреннего ветвления в языковой семье пама-ньюнган является давней проблемой для австралийской лингвистики, и общее мнение сводилось к тому, что внутренние связи между 25+ различными подгруппами пама-ньюнган либо невозможно реконструировать, либо подгруппы на самом деле вообще не были генетически связаны. [12] В 2012 году Клэр Боуэрн и Квентин Аткинсон опубликовали результаты своего применения вычислительных филогенетических методов к 194 документам, представляющим все основные подгруппы и изоляты пама-ньюнган. [13] Их модель «восстановила» многие из ветвей и подразделений, которые когда-то были предложены и приняты многими другими австралийцами, а также предоставила некоторое представление о более проблемных ветвях, таких как паман (что осложняется отсутствием данных) и нгумпин-япа (где генетическая картина затемнена очень высокими показателями заимствований между языками). Их набор данных является крупнейшим в своем роде для языковой семьи охотников-собирателей и вторым по величине в целом после австронезийской (Greenhill et al. 2008 Архивировано 19 декабря 2018 г. на Wayback Machine ). Они приходят к выводу, что пама-ньюнганский язык на самом деле не является исключением для лексикостатистических методов, которые успешно применялись к другим языковым семьям мира.
Такие люди, как Хойер (1956), показали, что существуют трудности в поиске эквивалентов для элементов значения, в то время как многие сочли необходимым модифицировать списки Сводеша. [14] Гудщинский (1956) усомнился в возможности получения универсального списка. [15]
Такие факторы, как заимствование , традиция и табу, могут исказить результаты, как и в случае с другими методами. Иногда лексикостатистика использовалась с лексическим сходством, а не родством, чтобы найти сходства. Тогда это эквивалентно массовому сравнению .
Выбор смысловых слотов субъективен, как и выбор синонимов .
Некоторые из современных методов проверки статистических гипотез можно рассматривать как усовершенствования лексикостатистики, поскольку они используют схожие списки слов и меры расстояния.
Австралия представляет собой прототипический пример языковой области. Она имеет значительную временную глубину, довольно однородную местность, что приводит к легкости взаимодействия и коммуникации, изрядную долю взаимных экзогамных браков, безудержное многоязычие и открытое отношение к заимствованиям... В австралийских языках существует базовое единообразие, которое является естественным результатом длительного периода диффузии. Хотя не было предоставлено никакого обоснования для «пама-ньюнган», он был принят. Люди приняли его, потому что он был принят — как вид верования. ... Очевидно, что «пама-ньюнган» не может быть поддержан как генетическая группа. И это не полезная типологическая группировка.