Количественная сравнительная лингвистика

Количественная сравнительная лингвистика — это использование количественного анализа применительно к сравнительной лингвистике . Примеры включают статистические области лексикостатистики и глоттохронологии , а также заимствование филогенетики из биологии.

История

Статистические методы используются с целью количественного анализа в сравнительном языкознании уже более века. В 1950-х годах появился список Сводеша : стандартизированный набор лексических понятий , встречающихся в большинстве языков в виде слов или фраз, которые позволяют эмпирически сравнивать и противопоставлять два или более языков.

Вероятно, первое опубликованное количественное историческое лингвистическое исследование было проведено Сапиром в 1916 году ^[1] , а Кребер и Кретьен в 1937 году ^[2] исследовали девять индоевропейских (IE) языков, используя 74 морфологических и фонологических признака (расширенных в 1939 году за счет включения хеттского языка). ). Росс ^[3] в 1950 г. провел исследование теоретической основы таких исследований. Сводеш, используя списки слов, разработал лексикостатистику и глоттохронологию в серии статей ^[4], опубликованных в начале 1950-х годов, но эти методы подверглись широкой критике ^[5], хотя некоторые из критических замечаний были сочтены неоправданными другими учеными. Эмблтон опубликовал книгу «Статистика в исторической лингвистике» в 1986 году, в которой были рассмотрены предыдущие работы и расширен глоттохронологический метод. Дайен, Краскал и Блэк провели исследование лексикостатистического метода на большой базе данных IE в 1992 году. ^[6]

В 1990-е годы возобновился интерес к этой теме, основанный на применении методов вычислительной филогенетики и кладистики . В таких проектах часто участвовали ученые-лингвисты и коллеги, обладающие опытом в области информатики и/или биологической антропологии . Эти проекты часто стремились создать оптимальное филогенетическое дерево (или сеть), чтобы представить гипотезу об эволюционном происхождении и, возможно, о его языковых контактах. Пионерами в этих методах были основатели CPHL: вычислительная филогенетика в исторической лингвистике (проект CPHL): Дональд Ринг , Тэнди Уорноу , Луай Нахле и Стивен Н. Эванс .

В середине 1990-х годов группа из Пенсильванского университета компьютеризировала сравнительный метод и использовала другую базу данных IE с 20 древними языками. ^[7] В области биологии затем было разработано несколько программ, которые могли найти применение в исторической лингвистике. В частности, группа из Оклендского университета разработала метод, который позволил получить спорные старые даты для языков IE. ^[8] В августе 1999 года состоялась конференция «Временная глубина в исторической лингвистике», на которой обсуждались многие применения количественных методов. ^[9] Впоследствии было опубликовано множество статей об исследованиях различных языковых групп, а также сравнении методов.

Больше внимания средств массовой информации было привлечено в 2003 году после публикации антропологами Расселом Греем и Квентином Аткинсоном краткого исследования индоевропейских языков в природе . Грей и Аткинсон попытались количественно оценить в вероятностном смысле возраст и родство современных индоевропейских языков, а иногда и предшествующих протоязыков.

Материалы влиятельной конференции 2004 года « Филогенетические методы и предыстория языков» были опубликованы в 2006 году под редакцией Питера Форстера и Колина Ренфрю .

Изучаемые языковые семьи

Компьютерный филогенетический анализ был проведен для:

Индоевропейские языки : Букерт (2012) ^[10]
Уральские языки : Хонкола (2013) ^[11]
Тюркские языки : Хрушка (2014) ^[12]
Дравидийские языки : Колипакам (2018) ^[13]
Австроазиатские языки : Сидвелл (2015) ^[14]
Австронезийские языки : серый (2009) ^[15]
Пама-ньюнганские языки : Bowern & Atkinson (2012), ^[16] Bouckaert, Bowern and Atkinson (2018) ^[17]
Языки банту : карри (2013), ^[18] Гролемунд (2015) ^[19]
Семитские языки : Кухня (2009) ^[20]
Дене-енисейские языки : Sicoli & Holton (2014) ^[21]
Уто-ацтекские языки : Wheeler & Whiteley (2014) ^[22]
Языки майя : Аткинсон (2006) ^[23]
Аравакские языки : Уокер и Рибейро (2011) ^[24]
Языки тупи-гуарани : Майкл (2015) ^[25]
Китайско-тибетские языки : Чжан и др. (2019), ^[26] Сагарт и др. (2019) ^[27]

Фон

Стандартным методом оценки языковых взаимоотношений стал сравнительный метод . Однако это имеет ряд ограничений. Не весь лингвистический материал подходит в качестве входных данных, и существуют проблемы лингвистических уровней, на которых работает метод. Реконструированные языки идеализированы, и разные ученые могут дать разные результаты. Языковые генеалогические древа часто используются в сочетании с этим методом, и из данных необходимо исключить «заимствования», что затруднительно, когда заимствования происходят внутри семьи. Часто утверждают, что метод ограничен во времени, в течение которого он может работать. Метод сложен в применении, и независимых испытаний не существует. ^[28] Таким образом, были найдены альтернативные методы, которые имеют формализованный метод, количественно определяют отношения и могут быть проверены.

Цель сравнительной исторической лингвистики — выявить случаи генетического родства между языками. ^[29] Этапы количественного анализа заключаются в следующем: (i) разработать процедуру, основанную на теоретических основаниях, на конкретной модели или на прошлом опыте и т. д. (ii) проверить процедуру, применив ее к некоторым данным, где существует большое количество данных. совокупность лингвистических мнений для сравнения (это может привести к пересмотру процедуры этапа (i) или, в крайнем случае, к полному отказу от нее) (iii) применить процедуру к данным, по которым лингвистические заключения еще не были получены, не еще прочно укоренились или, возможно, даже находятся в конфликте. ^[30]

Применение филогенетических методов к языкам — это многоэтапный процесс: (а) этап кодирования — переход от реальных языков к некоторому выражению отношений между ними в виде числовых или государственных данных, чтобы эти данные затем можно было использовать в качестве входных данных. к филогенетическим методам (б) стадия представления - применение филогенетических методов для извлечения из этих числовых данных и/или данных о состоянии сигнала, который преобразуется в некоторую полезную форму представления, обычно двумерную графическую форму, такую как деревья или сети, которые синтезируют и " свернуть» то, что часто представляет собой очень сложные многомерные отношения в сигнале (c) этап интерпретации — оценка этих древовидных и сетевых представлений, чтобы извлечь из них то, что они на самом деле означают для реальных языков и их отношений во времени. ^[31]

Виды деревьев и сетей

Результатом количественного историко-лингвистического анализа обычно является дерево или сетевая диаграмма. Это позволяет отображать сводную визуализацию выходных данных, но не является полным результатом. Дерево — это связный ациклический граф, состоящий из набора вершин (также называемых «узлами») и набора ребер («ветвей»), каждое из которых соединяет пару вершин. ^[32] Внутренний узел представляет лингвистического предка в филогенетическом дереве или сети. Каждый язык представлен путем, пути показывают различные состояния по мере его развития. Между каждой парой вершин есть только один путь. Некорневые деревья отображают взаимосвязь между входными данными без предположений об их происхождении. Корневое дерево явно идентифицирует общего предка, часто указывая направление эволюции или включая «внешнюю группу», которая, как известно, имеет лишь отдаленное отношение к набору классифицируемых языков. Большинство деревьев являются бинарными, то есть у родителя есть два потомка. Дерево всегда можно создать, даже если это не всегда уместно. Другой вид дерева основан только на языковых сходствах/различиях. В этом случае внутренние узлы графа не представляют предков, а вводятся для обозначения конфликта между различными разбиениями («биразделениями») при анализе данных. «Фенетическое расстояние» — это сумма весов (часто представленных в виде длин) на пути между языками. Иногда делается дополнительное предположение, что эти внутренние узлы действительно представляют предков.

Когда языки сходятся, обычно посредством заимствования слов, более подходящей является сетевая модель. Появятся дополнительные края, отражающие двойное происхождение языка. Эти ребра будут двунаправленными, если оба языка заимствуют друг друга. Таким образом, дерево представляет собой простую сеть, однако существует множество других типов сетей. Филогенетическая сеть — это сеть, в которой таксоны представлены узлами, а их эволюционные отношения представлены ветвями. ^[33] Другой тип основан на расщеплении и представляет собой комбинаторное обобщение расщепленного дерева. Данный набор разбиений может иметь более одного представления, поэтому внутренние узлы не могут быть предками и являются лишь «неявным» представлением эволюционной истории в отличие от «явного» представления филогенетических сетей. В разделенной сети лихорадочное расстояние — это кратчайший путь между двумя языками. Еще одним типом является ретикулярная сеть, которая демонстрирует несовместимость (например, из-за контакта), поскольку ретикуляции и ее внутренние узлы действительно представляют предков. Сеть также может быть построена путем добавления в дерево контактных ребер. Последний основной тип — это консенсусная сеть, сформированная из деревьев. Эти деревья могут быть результатом бутстреп-анализа или выборок из апостериорного распределения.

Изменение языка

Изменения в языках происходят постоянно, но обычно не с постоянной скоростью, ^[34] и их кумулятивный эффект приводит к расколу на диалекты, языки и языковые семьи. Обычно считается, что морфология меняется медленнее, а фонология быстрее всего. По мере того, как происходят изменения, остается все меньше и меньше свидетельств исходного языка. Наконец, может произойти потеря каких-либо доказательств родства. Изменения одного типа могут не влиять на другие типы, например, изменения звука не влияют на узнаваемость. В отличие от биологии нельзя предполагать, что все языки имеют общее происхождение и необходимо установить родство. При моделировании для простоты часто предполагается, что персонажи изменяются независимо, но это может быть не так. Помимо заимствований, возможны также семантические сдвиги и полиморфизм.

Ввод анализа

Данные

Анализ можно проводить по «характерам» языков или по «расстояниям» языков. В первом случае входные данные для классификации языков обычно принимают форму матрицы данных, где строки соответствуют различным анализируемым языкам, а столбцы соответствуют различным функциям или символам, с помощью которых может быть описан каждый язык. Эти признаки относятся к двум типам родственных или типологических данных. Символы могут принимать одну или несколько форм (гомоплазия) и могут быть лексическими, морфологическими или фонологическими. Родственные слова — это морфемы (лексические или грамматические) или более крупные конструкции. Типологические символы могут происходить из любой части грамматики или лексики. Если в данных имеются пробелы, их необходимо закодировать.

В дополнение к исходной базе данных (непроверенных) данных во многих исследованиях формируются подгруппы для конкретных целей (проверенные данные).

В лексикостатистике признаками являются значения слов, точнее семантические слоты. Таким образом, записи матрицы представляют собой серию пояснений. Согласно первоначальной задумке Сводеша, нужно было выбрать единственное наиболее распространенное слово для обозначения слота, что может быть трудным и субъективным из-за семантического сдвига. Более поздние методы могут позволить включить более одного значения.

Ограничения

Некоторые методы позволяют накладывать ограничения на географию языковых контактов (изоляция расстоянием) и время разделения подгрупп.

Базы данных

Первоначально Сводеш опубликовал список из 200 слов, но позже уточнил его до списка из 100 слов. ^[35] Широко используемой базой данных IE является база данных Дайена, Крускала и Блэка, которая содержит данные для 95 языков, хотя известно, что оригинал содержит несколько ошибок. Помимо необработанных данных, он также содержит оценочные суждения. Это доступно онлайн. ^[36] База данных Ринге, Варнов и Тейлора содержит информацию о 24 языках IE, содержащих 22 фонологических символа, 15 морфологических символов и 333 лексических символа. Грей и Аткинсон использовали базу данных из 87 языков с 2449 лексическими единицами, основанную на наборе Дайена с добавлением трех древних языков. Они включили в себя суждения ряда ученых. Другие базы данных были составлены, в частности, для африканских, австралийских и андских языковых семей.

Кодирование данных может осуществляться в двоичной форме или в форме с несколькими состояниями. Первое часто используется, но приводит к предвзятости. Утверждалось, что между двумя методами кодирования существует постоянный масштабный коэффициент и что это можно сделать. Однако другое исследование предполагает, что топология может измениться ^[37]

Списки слов

Словесные слоты выбраны так, чтобы быть максимально свободными от культуры и заимствований. Чаще всего используются оригинальные списки Сводеша, но многие другие были разработаны для конкретных целей. Часто они короче списка из 100 пунктов, который предпочитает Сводеш. Кесслер написал книгу «Значение списков слов» ^[38] , а МакМахон и МакМахон провели исследования эффектов реконструируемости и сохраняемости. ^[28] Был изучен эффект увеличения количества слотов и закон убывающей отдачи . найдено, причем около 80 из них были признаны удовлетворительными ^[39] . Однако в некоторых исследованиях использовалось менее половины этого числа.

Обычно каждый родственный набор представлен как отдельный символ, но различия между словами также можно измерить как измерение расстояния по изменениям звука. Расстояния также можно измерять побуквенно.

Морфологические особенности

Традиционно они считались более важными, чем лексические, поэтому в некоторых исследованиях этому типу символов придается дополнительное значение. Такие функции были включены, например, в базы данных Ringe, Warnow и Taylor IE. Однако другие исследования их не включили.

Типологические особенности

Примеры этих функций включают голосовые константы, системы тонов, выравнивание винительного падежа в существительных, двойное число, соответствие номера падежа, порядок объекта и глагола и местоимения первого лица единственного числа. Они будут перечислены в базе данных WALS, хотя для многих языков она пока мало заполнена. ^[40]

Вероятностные модели

Некоторые методы анализа включают статистическую модель эволюции языка и используют свойства модели для оценки истории эволюции. Статистические модели также используются для моделирования данных в целях тестирования. Стохастический процесс можно использовать для описания того, как набор символов развивается в языке. Вероятность изменения персонажа может зависеть от ветви, но не все персонажи развиваются одновременно, и скорость не одинакова для всех ветвей. Часто предполагается, что каждый персонаж развивается независимо, но это не всегда так. В рамках модели также можно моделировать заимствование и параллельное развитие (гомоплазию), а также полиморфизмы.

Эффекты случайности

Случайные сходства создают определенный уровень шума, на фоне которого приходится искать требуемый сигнал родства. Ринге ^[41] провел исследование влияния случайности на метод сравнения масс . Это показало, что случайные сходства имеют решающее значение для метода и что выводы Гринберга не могут быть оправданы, хотя математическая процедура, использованная Ринге, позже подверглась критике.

В небольших базах данных ошибки выборки могут иметь важное значение.

В некоторых случаях с большой базой данных и исчерпывающим перебором всех возможных деревьев или сетей невозможно из-за ограничений времени выполнения. Таким образом, существует вероятность того, что оптимальное решение не будет найдено эвристическими методами поиска в пространстве решений.

Обнаружение заимствований

Заимствованные слова могут серьезно повлиять на топологию дерева, поэтому принимаются меры по исключению заимствований. Однако необнаруженные иногда все же существуют. МакМахон и МакМахон ^[42] показали, что около 5% заимствований могут повлиять на топологию, а 10% имеют значительные последствия. В сетях заимствование производит сетки. Минетт и Ван ^[43] исследовали способы автоматического обнаружения заимствований.

Сплит знакомства

Датировку языковых расколов можно определить, если известно, как развиваются символы вдоль каждой ветви дерева. Самое простое предположение состоит в том, что все персонажи развиваются с единой постоянной скоростью во времени и что это не зависит от ветви дерева. Таково было предположение, сделанное в глоттохронологии. Однако исследования вскоре показали, что между языками существуют различия, некоторые из которых, вероятно, связаны с наличием непризнанных заимствований. ^[44] Лучшим подходом является разрешение изменения скорости, и гамма-распределение обычно используется из-за его математического удобства. Также были проведены исследования, которые показывают, что скорость замены символов зависит от частоты использования. ^[45] Широкое распространение заимствований может искажать оценки времени расхождения, делая языки более похожими и, следовательно, более молодыми. Однако это также увеличивает длину ветки предка, так что корень не затрагивается. ^[46]

Этот аспект является наиболее противоречивой частью количественной сравнительной лингвистики.

Виды анализа

Необходимо понять, как работает метод классификации языков, чтобы определить его допущения и ограничения. Он может быть действительным только при определенных условиях или подходить для небольших баз данных. Методы различаются требованиями к данным, сложностью и временем выполнения. Методы также различаются критериями оптимизации.

Модели на основе персонажей

Максимальная экономия и максимальная совместимость

Эти два метода похожи, но цель метода максимальной экономии — найти дерево (или сеть), в котором происходит минимальное количество эволюционных изменений. В некоторых реализациях символам могут быть присвоены веса, и тогда цель состоит в том, чтобы минимизировать общую взвешенную сумму изменений. Анализ создает некорневые деревья, если не используется внешняя группа или не направляются символы. Эвристика используется для поиска лучшего дерева, но оптимизация не гарантируется. Метод часто реализуется с помощью программ PAUP или TNT.

В максимальной совместимости также используются символы с целью найти дерево, в котором максимальное количество символов развивается без гомоплазии. Опять же, символы могут быть взвешены, и когда это происходит, цель состоит в том, чтобы максимизировать сумму весов совместимых символов. Он также производит деревья без корней, если не указана дополнительная информация. Не существует доступных эвристик, которые были бы точны в работе с большими базами данных. Этот метод использовалась только группой Ринге. ^[47]

В этих двух методах часто обнаруживается несколько деревьев с одинаковым рейтингом, поэтому обычной практикой является поиск консенсусного дерева с помощью алгоритма. Консенсус большинства имеет двуразделения более чем в половине входных деревьев, тогда как жадный консенсус добавляет двуразделения в дерево большинства. Дерево строгого консенсуса наименее разрешено и содержит те разбиения, которые есть в каждом дереве.

Начальная загрузка (стратегия статистической повторной выборки) используется для обеспечения значений поддержки ветвей. Этот метод случайным образом выбирает символы из матрицы входных данных, а затем используется тот же анализ. Значение поддержки — это доля запусков с этим биразделом в наблюдаемом дереве. Однако начальная загрузка занимает очень много времени.

Максимальное правдоподобие и байесовский анализ

Оба эти метода используют явные модели эволюции. Метод максимального правдоподобия оптимизирует вероятность получения наблюдаемых данных, а байесовский анализ оценивает вероятность каждого дерева и таким образом создает распределение вероятностей. Производится случайное блуждание по «пространству дерева модели». Для запуска обоих требуется неопределенное время, а остановка может быть произвольной, поэтому принятие решения является проблемой. Однако оба предоставляют информацию поддержки для каждой ветви.

Допущения этих методов очевидны и поддаются проверке. При необходимости сложность модели может быть увеличена. Параметры модели оцениваются непосредственно на основе входных данных, поэтому можно избежать предположений о скорости эволюции.

Совершенные филогенетические сети

Этот метод создает явную филогенетическую сеть, имеющую основное дерево с дополнительными контактными ребрами. Персонажи могут быть заимствованы, но развиваться без гомоплазии. Для создания таких сетей использовался теоретико-графовый алгоритм ^{[48] .}

Метод Грея и Аткинсона

Входные лексические данные кодируются в двоичной форме, по одному символу для каждого состояния исходного многозначного символа. Этот метод допускает гомоплазию и ограничения на время разделения. Используется метод анализа на основе правдоподобия, при этом эволюция выражается в виде матрицы скоростей. Родственные приросты и потери моделируются с помощью гамма-распределения, позволяющего изменять скорость, и со сглаживанием скорости. Из-за огромного количества возможных деревьев во многих языках для поиска оптимального дерева используется байесовский вывод. Алгоритм Монте-Карло с марковской цепью ^[49] генерирует выборку деревьев как аппроксимацию апостериорного распределения вероятностей. Сводная информация об этом распределении может быть представлена в виде жадного консенсусного дерева или сети со значениями поддержки. Этот метод также предоставляет оценки дат.

Этот метод является точным, когда исходные символы являются двоичными и развиваются одинаково и независимо друг от друга в соответствии с моделью ставок по сайтам с гамма-распределенными скоростями; даты точны, когда скорость изменений постоянна. Понимание производительности метода, когда исходные символы имеют несколько состояний, сложнее, поскольку двоичное кодирование создает символы, которые не являются независимыми, в то время как метод предполагает независимость.

Метод Николлса и Грея

Этот метод ^[50] является развитием метода Грея и Аткинсона. Вместо двух параметров для символа этот метод использует три. Указаны рождаемость, смертность родственника и уровень его заимствования. Уровень рождаемости представляет собой случайную величину Пуассона с единственным рождением родственного класса, но допускается отдельная смерть ветвей (экономия Долло). Метод не допускает гомоплазии, но допускает полиморфизм и ограничения. Его основная проблема заключается в том, что он не может обрабатывать недостающие данные (эта проблема с тех пор была решена Райдером и Николлсом. ^[51] Для подгонки модели к данным используются статистические методы. Может быть включена предварительная информация, и возможно исследование MCMC. реконструкции Этот метод был применен к базе данных Грея и Никола и, похоже, дал аналогичные результаты.

Модели на основе расстояния

Они используют треугольную матрицу парных языковых сравнений. Входная матрица символов используется для вычисления матрицы расстояний с использованием расстояния Хэмминга или расстояния Левенштейна . Первый измеряет долю совпадающих символов, а второй позволяет учитывать затраты на различные возможные преобразования. Эти методы более быстры по сравнению с полностью символьными методами. Однако эти методы приводят к потере информации.

УПГМА

«Метод невзвешенных парных групп со средним арифметическим» ( UPGMA ) — это метод кластеризации, который работает путем многократного объединения двух языков, между которыми имеется наименьшее расстояние. Он работает точно, подобно часам, но в остальном может ошибаться. Этот метод использовался в оригинальной лексикостатистике Сводеша.

Сплит-декомпозиция

Это метод разделения данных на естественные группы. ^[52] Данные могут быть символами, но чаще всего представляют собой меры расстояния. Количество символов или расстояния используются для создания разбиений и вычисления весов (длин ветвей) для разбиений. Затем взвешенные разделения представляются в виде дерева или сети на основе минимизации количества изменений между каждой парой таксонов. Существуют быстрые алгоритмы создания коллекции разделений. Веса определяются исходя из расстояний от таксона к таксону. Сплит-декомпозиция эффективна, когда количество таксонов невелико или когда сигнал не слишком сложен.

Присоединение соседа

Этот метод работает с данными о расстоянии, вычисляет преобразование входной матрицы, а затем вычисляет минимальное расстояние между парами языков. ^[53] Он работает правильно, даже если языки не развиваются по лексическим часам. Также можно использовать взвешенную версию метода. Метод создает выходное дерево. Утверждается, что это наиболее близкий к ручному методу строительства деревьев.

Соседняя сеть

Он использует тот же алгоритм, что и присоединение соседей. ^[54] В отличие от расщепленной декомпозиции, он не объединяет узлы сразу, а ждет, пока узел не будет соединен в пару во второй раз. Затем узлы дерева заменяются двумя, а матрица расстояний уменьшается. Он может обрабатывать большие и сложные наборы данных. Однако на выходе получается фенограмма, а не филограмма. Это самый популярный сетевой метод.

Сеть

Это был ранний сетевой метод, который использовался для некоторого языкового анализа. Первоначально он был разработан для генетических последовательностей с более чем одним возможным происхождением. ^[55] Сеть объединяет альтернативные деревья в единую сеть. При наличии нескольких историй рисуется сетка (прямоугольная форма). Он генерирует список символов, несовместимых с деревом.

АСП

При этом используется формализм декларативного представления знаний и методы программирования набора ответов. ^[56] Одним из таких решателей является CMODELS, который можно использовать для решения небольших задач, но более крупные требуют эвристики. Предварительная обработка используется для определения информативных символов. CMODELS преобразует их в теорию высказываний, которая использует решатель SAT для вычисления моделей этой теории.

Фитч/Китч

Fitch и Kitch — это программы PHYLIP, основанные на максимальном правдоподобии, которые позволяют переставлять дерево после каждого добавления, в отличие от NJ. Китч отличается от Fitch тем, что предполагает постоянную скорость изменения по всему дереву, в то время как Fitch допускает разные ставки по каждой ветви. ^[57]

Метод уровня разделения

В 2000 году Холм представил метод для решения некоторых известных проблем лексикостатистического анализа. Это «ловушка симплезиоморфии», когда общие архаизмы трудно отличить от общих инноваций, и «ловушка пропорциональности», когда более поздние изменения могут скрыть ранние. Позже он представил усовершенствованный метод, названный SLD, для учета переменной Распределение слов по языкам ^[58] Этот метод не предполагает постоянной скорости изменений.

Методы быстрой сходимости

Для использования с большими базами данных (>200 языков) был разработан ряд методов быстрого сходящегося анализа. Одним из них является метод покрытия диска (DCM). ^[59] Это было объединено с существующими методами для повышения производительности. Статья о методе DCM-NJ+MP представлена теми же авторами в книге «Эффективность филогенетических методов на деревьях ограниченного диаметра», ^{[ нужна полная цитация ],} где она сравнивается с методом NJ.

Модели, основанные на сходстве

Эти модели сравнивают буквы слов, а не их фонетику. Данн и др. ^[60] изучили 125 типологических символов в 16 австронезийских и 15 папуасских языках. Они сравнили свои результаты с деревом MP и деревом, построенным с помощью традиционного анализа. Были обнаружены существенные различия. Аналогичным образом Вичманн и Сондерс ^[61] использовали 96 символов для изучения 63 американских языков.

Компьютеризированное сравнение масс

Для первоначальной проверки набора языков на предмет родства был предложен метод массового сравнения . Однако это подверглось резкой критике и вышло из употребления. Недавно Кесслер возродил компьютеризированную версию метода, но с использованием строгой проверки гипотез. ^[62] Цель состоит в том, чтобы использовать сходства более чем в двух языках одновременно. В другой работе ^[63] оцениваются различные критерии сравнения списков слов. Было обнаружено, что семьи IE и уральские семьи можно реконструировать, но доказательств существования совместной надсемьи не было.

метод Никола

Этот метод использует устойчивые лексические поля, такие как глаголы позиции, чтобы попытаться установить отношения на расстоянии. ^[64] Учитываются конвергенция и семантические сдвиги при поиске древних родственных слов. Описана модель и представлены результаты пилотного исследования.

АСДЖП

Программа автоматического определения сходства (ASJP) аналогична лексикостатистике , но оценка сходства выполняется компьютерной программой в соответствии с последовательным набором правил. ^[65] Деревья создаются с использованием стандартных филогенетических методов. ASJP использует 7 символов гласных и 34 символа согласных. Также существуют различные модификаторы. Два слова считаются похожими, если хотя бы две последовательные согласные в соответствующих словах идентичны, а также учитываются гласные. Доля слов с одинаковым значением, которые считаются похожими для пары языков, представляет собой процент лексического сходства (LSP). Также рассчитывается процент фонологического сходства (PSP). Затем PSP вычитается из LSP, что дает вычтенный процент сходства (SSP), а расстояние ASJP составляет 100-SSP. В настоящее время в базе данных ASJP ^[66] имеются данные о более чем 4500 языках и диалектах, на основе которых было создано дерево языков мира. ^[67]

Метод Сервы и Петрони.

Это измеряет орфографическое расстояние между словами, чтобы избежать субъективности суждений о родстве. ^[68] Он определяет минимальное количество операций, необходимых для преобразования одного слова в другое, нормализованное по длине более длинного слова. Дерево строится на основе данных о расстоянии с помощью метода UPGMA.

Методы фонетической оценки

Хеггарти предложил способ измерения степени различия между родственными словами, а не просто ответы «да» или «нет». ^[69] Это основано на рассмотрении многих (>30) особенностей фонетики глосс в сравнении с праязыком. Это может потребовать большого объема работы, но Хеггарти утверждает, что необходима только репрезентативная выборка звуков. Он также исследовал скорость изменения фонетики и обнаружил большие различия в скорости, поэтому это было непригодно для глоттохронологии. Аналогичная оценка фонетики ранее была проведена Граймсом и Агардом для романских языков, но при этом использовалось только шесть точек сравнения. ^[70]

Оценка методов

Метрики

Для измерения сходства/различия двух деревьев доступны стандартные математические методы. Для консенсусных деревьев индекс согласованности (CI) является мерой гомоплазии. Для одного символа это отношение минимально мыслимого количества шагов на любом одном дереве (= 1 для бинарных деревьев) к числу восстановленных шагов на дереве. CI дерева — это сумма CI символов, деленная на количество символов. ^[71] Он представляет собой долю правильно назначенных шаблонов.

Индекс удержания (RI) измеряет степень сходства персонажа. Это соотношение (g - s)/(g - m), где g - наибольшее количество шагов персонажа на любом дереве, m - минимальное количество шагов на любом дереве, а s - минимальное количество шагов на конкретном дереве. дерево. Существует также масштабированный CI, который является продуктом CI и RI.

Для бинарных деревьев стандартным способом сравнения их топологии является использование метрики Робинсона-Фоулдса . ^[72] Это расстояние представляет собой среднее количество ложноположительных и ложноотрицательных результатов с точки зрения возникновения ветвей. Ставки RF выше 10% считаются плохими совпадениями. Для других видов деревьев и сетей пока не существует стандартного метода сравнения.

Списки несовместимых символов создаются некоторыми методами создания деревьев. Они могут быть чрезвычайно полезны при анализе выходных данных. При использовании эвристических методов повторяемость является проблемой. Однако для решения этой проблемы используются стандартные математические методы.

Сравнение с предыдущими анализами

Для оценки методов выбирается хорошо изученное семейство языков с надежным набором данных. Это семейство часто является семейством IE, но использовались и другие. После применения сравниваемых методов к базе данных полученные деревья сравниваются с эталонным деревом, определенным традиционными лингвистическими методами. Цель состоит в том, чтобы не было конфликтов в топологии, например, отсутствия отсутствующих подгрупп и совместимых дат. Семьи, предложенные для этого анализа Николсом и Варновом ^[73], включают германские, романские, славянские, общетюркские, китайские и миксе-зоке, а также более старые группы, такие как океанические и индоевропейские.

Использование моделирования

Хотя использование реальных языков действительно добавляет реализма и создает реальные проблемы, вышеупомянутый метод проверки страдает от того, что истинная эволюция языков неизвестна. Путем создания набора данных из смоделированной эволюции становится известно правильное дерево. Однако это будет упрощенная версия реальности. Таким образом, следует использовать оба метода оценки.

Анализ чувствительности

Чтобы оценить надежность решения, желательно варьировать входные данные и ограничения и наблюдать за выходными данными. Каждая переменная поочередно слегка изменяется. Этот анализ проводился в ряде случаев, и методы оказались надежными, например, Аткинсоном и Греем. ^[74]

Исследования, сравнивающие методы

В начале 1990-х годов лингвист Дональд Ринг вместе с учеными-компьютерщиками Луаем Наклехом и Тэнди Варноу , статистиком Стивеном Н. Эвансом и другими начали сотрудничать в исследованиях в рамках проектов количественной сравнительной лингвистики. Позже они основали проект CHPL, цели которого включают: «создание и поддержание реальных наборов лингвистических данных, в частности индоевропейских языков», «формулирование статистических моделей, отражающих эволюцию исторических лингвистических данных», «разработку инструментов моделирования и точности». меры по созданию синтетических данных для изучения эффективности методов реконструкции», а также «разработка и внедрение статистически обоснованных, а также комбинаторных методов реконструкции языковых филогений, включая филогенетические сети». ^[75]

Сравнение методов кодирования было проведено Rexova et al. (2003). ^[76] Они создали сокращенный набор данных из базы данных Dyen, но с добавлением хеттского языка. Они создали стандартную матрицу с несколькими состояниями, в которой 141 состояние символов соответствует отдельным родственным классам, что допускает полиморфизм. Они также присоединились к некоторым родственным классам, чтобы уменьшить субъективность и полиморфные состояния. Наконец, они создали двоичную матрицу, в которой каждый класс слов рассматривался как отдельный символ. Матрицы были проанализированы с помощью PAUP. Было обнаружено, что использование двоичной матрицы приводит к изменениям вблизи корня дерева.

МакМахон и МакМахон (2003) использовали три программы PHYLIP (Нью-Джерси, Fitch и Kitch) для набора данных DKB. ^[77] Они обнаружили, что полученные результаты были очень похожими. Начальная загрузка использовалась для проверки устойчивости любой части дерева. Позже они использовали подмножества данных для оценки их сохраняемости и реконструируемости. ^[42] Результаты показали топологические различия, которые были связаны с заимствованиями. Затем они также использовали Network, Split Decomposition, Neighbor-net и SplitsTree для нескольких наборов данных. Между двумя последними методами были обнаружены существенные различия. Соседняя сеть считалась оптимальной для распознавания языкового контакта.

В 2005 году Нахле, Варнов, Ринг и Эванс провели сравнение шести методов анализа, используя индоевропейскую базу данных. ^[78] Сравнивались методы UPGMA, NJ MP, MC, WMC и GA. Пакет программного обеспечения PAUP использовался для UPGMA, NJ и MC, а также для расчета деревьев консенсуса большинства. Была использована база данных RWT, но 40 символов были удалены из-за признаков полиморфизма. Затем была создана проверенная база данных, исключающая всех персонажей, которые явно демонстрировали параллельное развитие, таким образом исключая 38 признаков. Деревья оценивались на основании количества несовместимых признаков и соответствия установленным результатам группировки. Они обнаружили, что UPGMA явно был худшим вариантом, но между другими методами не было большой разницы. Результаты зависели от используемого набора данных. Было обнаружено, что важно взвешивать символы, что требует лингвистического суждения.

Сондерс (2005) ^[79] сравнил Нью-Джерси, МП, Джорджию и Neighbor-Net по сочетанию лексических и типологических данных. Он рекомендовал использовать метод GA, но у Николса и Уорноу есть некоторые опасения по поводу методологии исследования. ^[80]

Цисоу и др. (2006) ^[81] сравнили оригинальный метод Холма с методами NJ, Fitch, MP и SD. Они обнаружили, что метод Холма менее точен, чем другие.

В 2013 году Франсуа Барбансон, Варнов, Эванс, Ринг и Накле (2013) изучили различные методы реконструкции деревьев с использованием смоделированных данных. ^[82] Их смоделированные данные различались по количеству контактных ребер, степени гомоплазии, отклонению от лексических часов и отклонению от предположения о скоростях по сайтам. Было обнаружено, что точность невзвешенных методов (MP, NJ, UPGMA и GA) была одинаковой во всех изученных условиях, причем MP был лучшим. Точность двух взвешенных методов (WMC и WMP) зависела от правильности схемы взвешивания. При низкой гомоплазии взвешенные методы обычно дают более точные результаты, но неправильное взвешивание может ухудшить их, чем MP или GA при умеренных или высоких уровнях гомоплазии.

Выбор лучшей модели

Выбор подходящей модели имеет решающее значение для проведения хорошего филогенетического анализа. Как недостаточно параметризованные, так и чрезмерно ограничительные модели могут привести к аномальному поведению, когда их основные предположения нарушаются, в то время как слишком сложные или чрезмерно параметризованные модели требуют длительного времени выполнения, и их параметры могут быть переопределены. ^[83] Наиболее распространенным методом выбора модели является «Тест отношения правдоподобия», который дает оценку соответствия модели данным, но в качестве альтернативы можно использовать информационный критерий Акаике или байесовский информационный критерий. Доступны компьютерные программы для выбора модели.

Смотрите также

Примечания

^ Сапир, Эдвард (1916). «Временная перспектива в культуре американских аборигенов: методическое исследование». Мемуар Геологической службы 90, № 13 . Антропологическая серия. Оттава: Государственное полиграфическое бюро.
^ Кребер, Ал.; Кретьен, CD (1937). «Количественная классификация индоевропейских языков». Язык . 13 (2): 83–103. дои : 10.2307/408715. JSTOR 408715.
^ Росс, Алан СК (1950). «Филологические проблемы вероятности». Журнал Королевского статистического общества. Серия Б (Методическая) . 12 (1): 19–59. doi :10.1111/j.2517-6161.1950.tb00040.x. JSTOR 2983831.
^ Сводеш, Моррис (1952). «Лексико-статистическое датирование доисторических этнических контактов: с особым упором на североамериканских индейцев и эскимосов». Труды Американского философского общества . 96 (4): 452–463. JSTOR 3143802.
^ Бергсланд, Кнут; Фогт, Ганс (1962). «О достоверности глоттохронологии». Современная антропология . 3 (2): 115–153. дои : 10.1086/200264. JSTOR 2739527. S2CID 144236043.
^ Дьен, Исидор; Краскал, Джозеф Б.; Блэк, Пол (1992). «Индоевропейская классификация: лексикостатистический эксперимент». Труды Американского философского общества . 82 (5): iii–132. дои : 10.2307/1006517. JSTOR 1006517.
^ Ринге, Дон; Варноу, Тэнди; Тейлор, Энн (2002). «Индоевропейская и вычислительная кладистика». Труды Филологического общества . 100 : 59–129. дои : 10.1111/1467-968X.00091 .
↑ Первоначально объявлено в «Грей», Рассел Д.; Аткинсон, Квентин Д. (2003). «Время расхождения языковых деревьев подтверждает анатолийскую теорию индоевропейского происхождения». Природа . 426 (6965): 435–439. Бибкод : 2003Natur.426..435G. дои : 10.1038/nature02029. PMID 14647380. S2CID 42340.
^ Опубликовано Ренфрю, МакМахоном и Траском в 2000 году.
^ Букерт, Р.; Леми, П.; Данн, М.; Гринхилл, SJ; Алексеенко А.В.; Драммонд, Эй Джей; Грей, РД; Сушард, Массачусетс; Аткинсон, QD (2012). «Картирование происхождения и расширения индоевропейской языковой семьи». Наука . 337 (6097): 957–960. Бибкод : 2012Sci...337..957B. дои : 10.1126/science.1219669. ПМЦ 4112997 . ПМИД 22923579.
^ Хонкола, Т.; Весакоски, О.; Корхонен, К.; Лехтинен, Дж.; Сюрьянен, К.; Уолберг, Н. (2013). «Культурные и климатические изменения формируют историю эволюции уральских языков». Журнал эволюционной биологии . 26 (6): 1244–1253. дои : 10.1111/jeb.12107 . PMID 23675756. S2CID 7966025.
^ Грушка, Дэниел Дж.; Брэнфорд, Саймон; Смит, Эрик Д.; Уилкинс, Джон; Мид, Эндрю; Пейджел, Марк; Бхаттачарья, Танмой (2015). «Обнаружение регулярных звуковых изменений в лингвистике как событий согласованной эволюции». Современная биология . 25 (1): 1–9. Бибкод : 2015CBio...25....1H. дои : 10.1016/j.cub.2014.10.064. ПМЦ 4291143 . ПМИД 25532895.
^ Колипакам, Вишнуприя; Джордан, Фиона М.; Данн, Майкл; Гринхилл, Саймон Дж.; Букерт, Ремко; Грей, Рассел Д.; Веркерк, Аннемари (2018). «Байесовское филогенетическое исследование дравидийской языковой семьи». Королевское общество открытой науки . 5 (3): 171504. Бибкод : 2018RSOS....571504K. дои : 10.1098/rsos.171504. ПМЦ 5882685 . ПМИД 29657761.
^ Сидвелл, Пол. 2015. Комплексный филогенетический анализ австроазиатских языков. Представлено на конференции «Лингвистика разнообразия: ретроспектива и перспектива», 1–3 мая 2015 г. (Лейпциг, Германия), заключительной конференции кафедры лингвистики Института эволюционной антропологии Макса Планка.
^ Грей, РД; Драммонд, Эй Джей; Гринхилл, SJ (2009). «Филогения языка выявляет импульсы и паузы расширения в тихоокеанских поселениях». Наука . 323 (5913): 479–483. Бибкод : 2009Sci...323..479G. дои : 10.1126/science.1166858. PMID 19164742. S2CID 29838345.
^ Бауэрн, Клэр и Аткинсон, Квентин, 2012. Вычислительная филогенетика и внутренняя структура Пама-Ньюнгана. Язык, Том. 88, 817-845.
^ Букерт, Ремко Р.; Бауэрн, Клэр; Аткинсон, Квентин Д. (2018). «Происхождение и распространение пама-ньюнганских языков по Австралии». Экология и эволюция природы . 2 (4): 741–749. Бибкод : 2018NatEE...2..741B. дои : 10.1038/s41559-018-0489-3. PMID 29531347. S2CID 4208351.
^ Карри, Томас Э.; Мид, Эндрю; Гийон, Миртиль; Мейс, Рут (2013). «Культурная филогеография языков банту Африки к югу от Сахары». Труды Королевского общества B: Биологические науки . 280 (1762): 20130695. doi :10.1098/rspb.2013.0695. ПМЦ 3673054 . ПМИД 23658203.
^ Гроллемунд, Ребекка; Брэнфорд, Саймон; Бостон, Коэн; Мид, Эндрю; Вендитти, Крис; Пейгель, Марк (2015). «Расширение банту показывает, что среда обитания меняет маршрут и темпы расселения людей». Труды Национальной академии наук . 112 (43): 13296–13301. Бибкод : 2015PNAS..11213296G. дои : 10.1073/pnas.1503793112 . ПМЦ 4629331 . ПМИД 26371302.
^ Кухня, Эндрю; Эрет, Кристофер; Ассефа, Шиферау; Маллиган, Конни Дж. (2009). «Байесовский филогенетический анализ семитских языков определяет происхождение семитских языков на Ближнем Востоке в раннем бронзовом веке». Труды Королевского общества B: Биологические науки . 276 (1668): 2703–2710. дои :10.1098/rspb.2009.0408. ПМЦ 2839953 . ПМИД 19403539.
^ Сиколи, Марк А.; Холтон, Гэри (2014). «Лингвистическая филогения поддерживает обратную миграцию из Берингии в Азию». ПЛОС ОДИН . 9 (3): е91722. Бибкод : 2014PLoSO...991722S. дои : 10.1371/journal.pone.0091722 . ПМЦ 3951421 . ПМИД 24621925.
^ Уиллер, Уорд К.; Уайтли, Питер М. (2015). «Историческая лингвистика как проблема оптимизации последовательности: эволюция и биогеография утто-ацтекских языков» (PDF) . Кладистика . 31 (2): 113–125. дои : 10.1111/cla.12078. PMID 34758582. S2CID 86030904.
^ Аткинсон, QD (2006). От видов к языкам – филогенетический подход к истории человечества. Докторская диссертация, Оклендский университет, Окленд.
^ Уокер, Роберт С.; Рибейро, Линкольн А. (2011). «Байесовская филогеография экспансии Араваков в низменностях Южной Америки». Труды Королевского общества B: Биологические науки . 278 (1718): 2562–2567. дои :10.1098/rspb.2010.2579. ПМК 3136831 . ПМИД 21247954.
^ Майкл, Лев, Наталья Чусу-Полидури, Кейт Бартоломей, Эрин Доннелли, Вивиан Вотерс, Сержио Мейра, Закари О'Хаган. 2015. Байесовская филогенетическая классификация тупи-гуарани. ЛАЙМС 15 (2): 193–221.
^ Чжан, Мэнхан; Ян, Ши; Пан, Уюн; Джин, Ли (2019). «Филогенетические доказательства китайско-тибетского происхождения в северном Китае в эпоху позднего неолита». Природа . 569 (7754): 112–115. Бибкод : 2019Natur.569..112Z. дои : 10.1038/s41586-019-1153-z. PMID 31019300. S2CID 129946000.
^ Сагарт, Лоран; Жак, Гийом; Лай, Юньфан; Райдер, Робин; Тузо, Валентин; Гринхилл, Саймон Дж.; Список, Иоганн-Маттис (2019). «Датированные языковые филогении проливают свет на происхождение китайско-тибетского языка». Труды Национальной академии наук Соединенных Штатов Америки . 116 (21): 10317–10322. Бибкод : 2019PNAS..11610317S. дои : 10.1073/pnas.1817972116 . ПМК 6534992 . ПМИД 31061123.
^ Аб МакМахон, апрель MS; МакМахон, Роберт (2005). Классификация языков по цифрам . Издательство Оксфордского университета. ISBN 978-0199279029.
^ Харрисон, СП (2003). «О пределах сравнительного метода». У Брайана Д. Джозефа; Ричард Д. Янда (ред.). Справочник по исторической лингвистике . Издательство Блэквелл. стр. 213–243. дои : 10.1002/9781405166201.ch2. ISBN 9781405166201.
^ Эмблтон, Шейла М (1986). Статистика в исторической лингвистике . Брокмейер. ISBN 9783883395371.
^ Хеггарти, Пол (2006). «Междисциплинарная недисциплинарность? Могут ли филогенетические методы осмысленно применяться к языковым данным и к языку датирования?» (PDF) . В Питере Форстере; Колин Ренфрю (ред.). Филогенетические методы и предыстория языков . Монографии Института Макдональда. Институт археологических исследований Макдональда. Архивировано из оригинала (PDF) 28 января 2021 г. Проверено 22 февраля 2020 г.
^ Николс, Джоанна; Варнау, Тэнди (2008). «Учебник по компьютерной лингвистической филогении». Язык и лингвистический компас . 2 (5): 760–820. дои : 10.1111/j.1749-818X.2008.00082.x.
^ Хьюсон, Дэниел Х.; Брайант, Дэвид (2006). «Применение филогенетических сетей в эволюционных исследованиях». Молекулярная биология и эволюция . 23 (2): 254–267. дои : 10.1093/molbev/msj030 . ПМИД 16221896.
^ Аткинсон, QD; Мид, А.; Вендитти, К.; Гринхилл, SJ; Пейгель, М. (2008). «Языки развиваются в пунктуационных всплесках». Наука . 319 (5863): 588. doi :10.1126/science.1149683. hdl : 1885/33371 . PMID 18239118. S2CID 29740420.
^ Сводеш, Моррис (1955). «На пути к большей точности лексикостатистического датирования». Международный журнал американской лингвистики . 21 (2): 121–137. дои : 10.1086/464321. JSTOR 1263939. S2CID 144581963.
^ На http://www.idc.upenn.edu ^{[ постоянная мертвая ссылка ]}
^ Рехова, К. (2003). «Кладистический анализ языков: индоевропейская классификация на основе лексикостатистических данных». Кладистика . 19 (2): 120–127. doi : 10.1016/S0748-3007(02)00147-0 (неактивен 21 марта 2024 г.).{{cite journal}}: CS1 maint: DOI неактивен по состоянию на март 2024 г. ( ссылка )
^ Публикации CSLI, 2001 г.
^ Холман, Эрик В.; Вихманн, Сорен; Браун, Сесил Х.; Велупилаи, Вивека; Мюллер, Андре; Баккер, Дик (2008). «Исследования в области автоматизированной классификации языков». Фолиа Лингвистика . 42 (3–4). дои :10.1515/FLIN.2008.331. S2CID 82275473.
^ Haspelmath et al. , Мировой атлас языковых структур, OUP 2005.
^ О расчете фактора случайности при сравнении языков, Труды Американского философского общества 82 (1992).
^ ab Классификация языков по номерам
^ Об обнаружении заимствований, Диахрония 20/2 (2003).
^ см., например, Бергсланд и Фогт
^ Например, Пейджел, Аткинсон и Мид, Частота использования слов предсказывает темпы лексической эволюции на протяжении всей индоевропейской истории, Nature 449, 11 октября 2007 г.
^ Аткинсон и Грей, Сколько лет индоевропейской семье (в «Филогенетических методах и предыстории языков», Форстер и Ренфрю, 2006 г.)
^ Индоевропейская и вычислительная кладистика, Труды Философского общества 100/1 (2002)
^ Нахле и др. Совершенные филогенные сети, Язык 81 (2005)
^ Метрополис и др. 1953 год
^ Николлс, Джефф К.; Грей, Рассел Д. «Количественная оценка неопределенности в стохастической модели эволюции словарного запаса». Филогенетические методы и предыстория языков . Макдональдский институт археологических исследований. стр. 161–171. CiteSeerX 10.1.1.799.8282 .
^ Райдер, Робин; Николлс, Джефф (2011), «Недостающие данные в стохастической модели Долло для родственных данных и ее применение к датировке протоиндоевропейцев», Журнал Королевского статистического общества, Серия C , 60 (1): 71– 92, номер документа : 10.1111/j.1467-9876.2010.00743.x , S2CID 118853910
^ Бандельт и платье 1992
^ Сайто и Ней (1987)
^ Брайант и Моултон: Сеть соседей, агломеративный метод построения филогенетических сетей - Молекулярная биология и эволюция 21 (2003)
^ Бандельт и др. 1995 год
^ Брукс, Эрдем. Минетт и Ринг: Символьная кладистика и программирование набора ответов.
^ МакМахон и МакМахон
^ Холм: Новый дендрарий индоевропейских деревьев - Журнал количественной лингвистики 14 (2007)
^ Наклех, Рошан, Сент-Джон, Сан и Варнов : Разработка быстро сходящихся филогенетических методов - Биоинформатика, OUP 2001
^ Структурная филогенетика и реконструкция истории древнего языка, Science 309, 2072 (2005).
^ Как использовать типологические базы данных в исторических лингвистических исследованиях ^{[ мертвая ссылка ]} , Diachronica 24, 373 (2007)
^ См., например, «Математическая оценка долгосрочных языковых отношений - Языковой и лингвистический компас 2/5» (2008).
^ Кесслер и Лехтонен: Многостороннее сравнение и проверка значимости
^ Николс: Квазиродственные слова и сдвиги лексических типов (в «Филогенетике и предыстории языков», Форстер и Ренфрю, 2006)
^ Браун и др. : Автоматизированная классификация языков мира, Sprachtypologie und Universalienforschung, 61.4: 285-308, 2008. Архивировано 23 июня 2010 г., в Wayback Machine.
^ Языки, обработанные ASJP. Архивировано 11 мая 2010 г. в Wayback Machine (15 марта 2010 г.).
^ Мюллер, А., С. Вихманн, В. Велупилаи и др. 2010. Дерево лексического сходства мировых языков ASJP: версия 3 (июль 2010 г.). Архивировано 30 июля 2010 г. в Wayback Machine.
^ Дерево индоевропейских языков по расстоянию Левенштейна
^ Количественная оценка изменений в фонетике с течением времени (в книге «Глубина времени в исторической лингвистике», Ренфрю, МакМахон и Траск, 2001)
^ Лингвистическое разнообразие романских языков, Language 35, 1959 г.
^ Клюге и Фаррис, Систематическая зоология 18, 1-32 (1969)
^ Робинсон и Фулдс: Сравнение филогенетических деревьев - Математические биологические науки - 53 (1981)
^ Учебное пособие по компьютерной лингвистической филогении, языку и лингвистическому компасу 2/5 (2008)
^ Сколько лет индоевропейской языковой семье? (в книге «Филогенетические методы и предыстория языков», Форстер и Ренфрю, 2006 г.)
^ CPHL: Вычислительная филогенетика в исторической лингвистике (домашняя страница), 2009 (17 октября 2017 г.).
^ Кладистический анализ языков, Кладистика 19/2 (2003)
^ Поиск семей, количественные методы классификации языков. Труды Филологического общества 101 (2003)
^ Наклех, Варнов, Ринг и Эванс, «Сравнение методов филогенетической реконструкции на наборе данных IE» (2005)
^ Лингвистическая филогенетика трех австронезийских семей, диссертация бакалавра Суортмор-колледжа (2005)
^ Учебное пособие по компьютерной лингвистической филогении
^ Критика метода основания разделения для генеалогической подгруппировки, с данными Mixe-Zoquean ^{[ мертвая ссылка ]} , Journal of Quantitative Linguistics 13, 225 (2006).
^ Барбансон, Варноу, Эванс, Ринг и Накле, Экспериментальное исследование, сравнивающее методы лингвистической филогенетической реконструкции
^ Салливан и Джойс, Выбор модели в филогенетике ^{[ мертвая ссылка ]} , Annual Review of Ecology, Evolution and Systematics 36 (2005)

Библиография

Аткинсон, Николлс, Уэлш и Грей: От слов к датам - Труды Филологического общества 103 (2005).
Бандельт и Дрю: Сплит-разложение - Молекулярная филогенетическая эволюция 1 (1992).
Бандельт, Форстер и Рол: Сети медианного соединения для вывода о внутривидовой филогении - Molecular Biological Evolution 16 (1999).
Брайант, Филимон и Грей: Распутывая наше прошлое: языки, деревья, расколы и сети ^{[ мертвая ссылка ]} (в «Эволюции культурного разнообразия» Мейса, Холдена и Шеннана, UCL, 2005).
Эванс и Уорноу : Время неидентифицируемого расхождения в моделях ставок между сайтами - Транзакции IEEE / ACM по вычислительной биологии и биоинформации 1 (2005).
Хюльзенбек и Ронквист: г-н Байес, Байсесовский вывод о филогении - Биоинформатика 17 (2001).
Хьюсон: Splitstree, программа для анализа и визуализации эволюционных данных – Bioinfomatics 14(1) (1998).
Варноу , Эванс, Ринг и Накле: стохастическая модель эволюции языка, включающая гомоплазию и заимствование (в книге «Филогенетические методы и предыстория языков» - Форстер и Ренфрю, 2006).
Эфрон, Холлоран и Холмс: Уровни достоверности бутстрепа для филогенетических деревьев - Труды Национальной академии наук США 93 (1996).
Ковальски и Тортон: Эффективность филогении максимальной экономии и правдоподобия, когда эволюция неоднородна - Nature 431 (2004).
Фельсентейн: Случаи, в которых методы экономности и совместимости будут вводить в заблуждение - Систематическая зоология 27 (1978).
Роджерс: Оценка максимального правдоподобия филогенетических деревьев является последовательной, когда уровень замещения варьируется в зависимости от неизменных сайтов плюс гамма-распределения - Systematic Biology 59 (2001).

Внешние ссылки

Электронная лингвистика: Количественная сравнительная лингвистика