Лексикостатистика

Лексикостатистика — это метод сравнительной лингвистики , который включает сравнение процента лексических когнатов между языками для определения их взаимосвязи. Лексикостатистика связана с сравнительным методом , но не реконструирует протоязык . Ее следует отличать от глоттохронологии , которая пытается использовать лексикостатистические методы для оценки продолжительности времени с тех пор, как два или более языков разошлись с общим более ранним протоязыком. Однако это всего лишь одно из применений лексикостатистики; другие ее применения могут не разделять предположение о постоянной скорости изменения основных лексических единиц.

Термин «лексикостатистика» вводит в заблуждение, поскольку используются математические уравнения, а не статистика. Могут использоваться и другие характеристики языка, помимо лексики, хотя это необычно. В то время как сравнительный метод использовал общие идентифицированные инновации для определения подгрупп, лексикостатистика не идентифицирует их. Лексикостатистика — это метод, основанный на расстоянии, тогда как сравнительный метод рассматривает символы языка напрямую. Метод лексикостатистики — это простая и быстрая техника по сравнению со сравнительным методом, но имеет ограничения (обсуждаемые ниже). Его можно проверить путем перекрестной проверки деревьев, полученных обоими методами.

История

Лексикостатистика была разработана Моррисом Сводешем в серии статей в 1950-х годах на основе более ранних идей. ^[1]^[2]^[3] Первое известное использование этой концепции было сделано Дюмоном Дюрвилем в 1834 году, который сравнил различные «океанические» языки и предложил метод расчета коэффициента родства. Хаймс (1960) и Эмблтон (1986) оба рассматривают историю лексикостатистики. ^[4]^[5]

Метод

Создать список слов

Цель состоит в том, чтобы создать список универсально используемых значений (рука, рот, небо, я). Затем слова собираются для этих слотов значений для каждого рассматриваемого языка. Сводеш сократил больший набор значений до 200 изначально. Позже он обнаружил, что необходимо сократить его еще больше, но что он может включить некоторые значения, которых не было в его первоначальном списке, дав свой более поздний список из 100 пунктов. Список Сводеша в Викисловаре дает в общей сложности 207 значений в ряде языков. Были созданы альтернативные списки, которые применяют более строгие критерии, например, список Долгопольского и список Лейпцига–Джакарты , а также списки с более конкретной областью применения; например, Dyen , Kruskal и Black имеют 200 значений для 84 индоевропейских языков в цифровой форме. ^[6]

Определить коньяки

Для принятия решений о родственности требуется обученный и опытный лингвист. Однако решения могут нуждаться в уточнении по мере увеличения уровня знаний. Однако лексикостатистика не полагается на то, что все решения верны. Для каждой пары слов (в разных языках) в этом списке родственность формы может быть положительной, отрицательной или неопределенной. Иногда в языке есть несколько слов для одного значения, например, small и little для not big .

Рассчитать лексикостатистические проценты

Этот процент связан с долей значений для конкретной языковой пары, которые являются родственными, т.е. относительно общего числа без неопределенности. Это значение вводится в таблицу расстояний $N \times N$ , где N — количество сравниваемых языков. После заполнения эта таблица заполняется наполовину в треугольной форме. Чем выше доля родства, тем ближе родство языков.

Создать генеалогическое древо

Создание языкового дерева основано исключительно на таблице, найденной выше. Могут быть использованы различные методы подгруппирования, но принятый Дайеном, Крускалом и Блэком:

все списки помещаются в пул
два ближайших члена удаляются и образуют ядро, которое помещается в пул
этот шаг повторяется
при определенных условиях ядро становится группой
Это повторяется до тех пор, пока в пуле не останется только одна группа.

Расчеты должны быть основаны на процентном соотношении лексических единиц ядра и группы.

Приложения

Ведущим представителем применения лексикостатистики был Исидор Дьен . ^[7]^[8]^[9]^[10] Он использовал лексикостатистику для классификации австронезийских языков ^[11] , а также индоевропейских языков. ^[6] Крупное исследование последних было опубликовано Дайеном, Крускалом и Блэком (1992). ^[6] Исследования также проводились на индейских и африканских языках .

Пама-Нюнган

Проблема внутреннего ветвления в языковой семье пама-ньюнган является давней проблемой для австралийской лингвистики, и общее мнение сводилось к тому, что внутренние связи между 25+ различными подгруппами пама-ньюнган либо невозможно реконструировать, либо подгруппы на самом деле вообще не были генетически связаны. ^[12] В 2012 году Клэр Боуэрн и Квентин Аткинсон опубликовали результаты своего применения вычислительных филогенетических методов к 194 документам, представляющим все основные подгруппы и изоляты пама-ньюнган. ^[13] Их модель «восстановила» многие из ветвей и подразделений, которые когда-то были предложены и приняты многими другими австралийцами, а также предоставила некоторое представление о более проблемных ветвях, таких как паман (что осложняется отсутствием данных) и нгумпин-япа (где генетическая картина затемнена очень высокими показателями заимствований между языками). Их набор данных является крупнейшим в своем роде для языковой семьи охотников-собирателей и вторым по величине в целом после австронезийской (Greenhill et al. 2008 Архивировано 19 декабря 2018 г. на Wayback Machine ). Они приходят к выводу, что пама-ньюнганский язык на самом деле не является исключением для лексикостатистических методов, которые успешно применялись к другим языковым семьям мира.

Критика

Такие люди, как Хойер (1956), показали, что существуют трудности в поиске эквивалентов для элементов значения, в то время как многие сочли необходимым модифицировать списки Сводеша. ^[14] Гудщинский (1956) усомнился в возможности получения универсального списка. ^[15]

Такие факторы, как заимствование , традиция и табу, могут исказить результаты, как и в случае с другими методами. Иногда лексикостатистика использовалась с лексическим сходством, а не родством, чтобы найти сходства. Тогда это эквивалентно массовому сравнению .

Выбор смысловых слотов субъективен, как и выбор синонимов .

Улучшенные методы

Некоторые из современных методов проверки статистических гипотез можно рассматривать как усовершенствования лексикостатистики, поскольку они используют схожие списки слов и меры расстояния.

Смотрите также

Ссылки

^ Сводеш, Моррис (1955). «К большей точности лексикостатистического датирования». Международный журнал американской лингвистики . 21 (2): 121–137. doi :10.1086/464321. S2CID 144581963.
^ Сводеш, Моррис (1952). «Лексикостатистическое датирование доисторических этнических контактов». Труды Американского философского общества . 96 : 452–463.
^ Сводеш, Моррис (1950). «Внутренние отношения салиш». Международный журнал американской лингвистики . 16 (4): 157–167. doi :10.1086/464084. S2CID 145122561.
^ Хаймс, Делл (1960). «Лексикостатистика до сих пор». Current Anthropology . 1 (1): 3–44. doi :10.1086/200074. S2CID 144569209.
^ Эмблтон, Шейла (1986). Статистика в исторической лингвистике . Бохум.
^ abc Dyen, Isidore; Kruskal, Joseph; Black, Paul (1992). «Индоевропейская классификация, лексикостатистический эксперимент». Труды Американского философского общества . 82 (5): iii–132. doi :10.2307/1006517. JSTOR 1006517.
^ Дайен, Исидор (1962). «Лексикостатистически определённая связь языковой группы». Международный журнал американской лингвистики . 28 (3): 153–161. doi :10.1086/464687. S2CID 143070513.
^ Дайен, Исидор (1963). «Лексикостатистически обусловленное заимствование и табу». Язык . 39 (1): 60–66. doi :10.2307/410762. JSTOR 410762.
^ Дайен, Исидор, ред. (1973). Лексикостатистика в генетической лингвистике . Гаага: Mouton.
^ Дайен, Исидор (1975). Лингвистическая подгруппировка и лексикостатистика . Гаага: Мутон.
^ Дайен, Исидор (1965). «Лексикостатистическая классификация австронезийских языков». Международный журнал американской лингвистики . 19 .
^ Диксон, Роберт МВ (2002). Австралийские языки: их природа и развитие . Издательство Кембриджского университета. С. 48, 53. Австралия представляет собой прототипический пример языковой области. Она имеет значительную временную глубину, довольно однородную местность, что приводит к легкости взаимодействия и коммуникации, изрядную долю взаимных экзогамных браков, безудержное многоязычие и открытое отношение к заимствованиям... В австралийских языках существует базовое единообразие, которое является естественным результатом длительного периода диффузии. Хотя не было предоставлено никакого обоснования для «пама-ньюнган», он был принят. Люди приняли его, потому что он был принят — как вид верования. ... Очевидно, что «пама-ньюнган» не может быть поддержан как генетическая группа. И это не полезная типологическая группировка.
^ Боуэрн, Клэр; Аткинсон, Квентин (2012). «Вычислительная филогенетика и внутренняя структура пама-ньюнган». Язык . 88 (4): 817–845. doi :10.1353/lan.2012.0081. hdl : 1885/61360 . S2CID 4375648.
^ Хойер, Гарри (1956). «Лексикостатистика: критика». Язык . 32 (1): 49–60. doi :10.2307/410652. JSTOR 410652.
^ Гудщински, Сара (1956). «Азбука лексикостатистики (глоттохронологии)». Word . 12 (2): 175–210. doi : 10.1080/00437956.1956.11659599 .

Дальнейшее чтение

Добсон, Аннет (1969). Лексикостатистическая группировка. Антропологическая лингвистика 7, 216-221.
Добсон, Аннет и Блэк, Пол (1979). Многомерное шкалирование некоторых лексикостатистических данных. Mathematical Scientist 1979/4, 55-61.
Макмахон, Эйприл и Макмахон, Роберт (2005). Классификация языков по числам. Oxford University Press.
Санкофф, Дэвид (1970). «О скорости замены отношений между словом и значением». Язык 46.564-569.
Виттманн, Анри (1969). «Лексико-статистическое исследование диахронии хеттского языка». Indogermanische Forschungen 74.1-10.[1]
Виттман, Анри (1973). «Лексикостатистическая классификация креольских языков на основе французского». Лексикостатистика в генетической лингвистике: Труды Йельской конференции, 3–4 апреля 1971 г. , реж. Исидор Дьен, 89–99. La Haye: Mouton.[2]

Внешние ссылки

Найдите лексикостатистику в Викисловаре, бесплатном словаре.

Глобальная лексикостатистическая база данных, часть проекта «Эволюция человеческих языков»
база данных IE
Упрощенное объяснение разницы между глоттохронологией и лексикостатистикой.