Количественная сравнительная лингвистика — это использование количественного анализа в применении к сравнительной лингвистике . Примерами служат статистические области лексикостатистики и глоттохронологии , а также заимствование филогенетики из биологии.
Статистические методы использовались для количественного анализа в сравнительной лингвистике более века. В 1950-х годах появился список Сводеша : стандартизированный набор лексических понятий, встречающихся в большинстве языков, в виде слов или фраз, которые позволяют сравнивать и сопоставлять два или более языков эмпирически.
Вероятно, первое опубликованное количественное историческое лингвистическое исследование было проведено Сепиром в 1916 году [1] , в то время как Крёбер и Кретьен в 1937 году [2] исследовали девять индоевропейских (IE) языков, используя 74 морфологических и фонологических признака (расширенных в 1939 году включением хеттского). Росс [3] в 1950 году провел исследование теоретической основы таких исследований. Сводеш, используя списки слов, разработал лексикостатистику и глоттохронологию в серии статей [4], опубликованных в начале 1950-х годов, но эти методы подверглись широкой критике [5], хотя некоторые критические замечания были сочтены другими учеными неоправданными. Эмблтон опубликовал книгу «Статистика в исторической лингвистике» в 1986 году, в которой рассмотрел предыдущие работы и расширил глоттохронологический метод. В 1992 году Дайен, Крускал и Блэк провели исследование лексикостатистического метода на большой базе данных IE. [6]
В 1990-х годах интерес к теме возобновился, основываясь на применении методов вычислительной филогенетики и кладистики . Такие проекты часто включали сотрудничество лингвистов и коллег, имеющих опыт в области информационной науки и/или биологической антропологии . Эти проекты часто стремились прийти к оптимальному филогенетическому дереву (или сети), чтобы представить гипотезу об эволюционном происхождении и, возможно, его языковых контактах. Пионеры в этих методах включали основателей CPHL: вычислительной филогенетики в исторической лингвистике (проект CPHL): Дональд Ринге , Тэнди Уорнов , Луай Нахле и Стивен Н. Эванс .
В середине 1990-х годов группа в Пенсильванском университете компьютеризировала сравнительный метод и использовала другую базу данных IE с 20 древними языками. [7] В биологической области затем было разработано несколько программ, которые могли бы применяться в исторической лингвистике. В частности, группа в Оклендском университете разработала метод, который дал спорно древние даты для IE языков. [8] В августе 1999 года состоялась конференция на тему «Временная глубина в исторической лингвистике», на которой обсуждалось множество приложений количественных методов. [9] Впоследствии было опубликовано много статей по исследованиям различных языковых групп, а также сравнениям методов.
Большее внимание СМИ было привлечено в 2003 году после публикации антропологами Расселом Греем и Квентином Аткинсоном краткого исследования индоевропейских языков в журнале Nature . Грей и Аткинсон попытались количественно оценить, в вероятностном смысле, возраст и родство современных индоевропейских языков, а иногда и предшествующих протоязыков.
Труды влиятельной конференции 2004 года «Филогенетические методы и предыстория языков» были опубликованы в 2006 году под редакцией Питера Форстера и Колина Ренфрю .
Были проведены вычислительные филогенетические анализы для:
Стандартным методом оценки языковых отношений был сравнительный метод . Однако он имеет ряд ограничений. Не весь лингвистический материал подходит в качестве входных данных, и существуют проблемы с лингвистическими уровнями, на которых работает метод. Реконструированные языки идеализированы, и разные ученые могут давать разные результаты. Генеалогические древа языков часто используются в сочетании с методом, и «заимствования» должны быть исключены из данных, что сложно, когда заимствование происходит в пределах семьи. Часто утверждается, что метод ограничен во временной глубине, на которой он может работать. Метод сложен в применении, и не существует независимого теста. [28] Таким образом, были найдены альтернативные методы, которые имеют формализованный метод, количественно определяют отношения и могут быть проверены.
Цель сравнительно-исторической лингвистики — выявить примеры генетического родства между языками. [29] Шаги количественного анализа таковы: (i) разработать процедуру, основанную на теоретических основаниях, на конкретной модели или на прошлом опыте и т. д.; (ii) проверить процедуру, применив ее к некоторым данным, где существует большой массив лингвистических мнений для сравнения (это может привести к пересмотру процедуры этапа (i) или, в крайнем случае, к ее полному отказу); (iii) применить процедуру к данным, где лингвистические мнения еще не были выработаны, еще не были твердо установлены или, возможно, даже находятся в противоречии. [30]
Применение филогенетических методов к языкам представляет собой многоэтапный процесс: (a) этап кодирования — получение из реальных языков некоторого выражения взаимосвязей между ними в форме числовых или данных о состоянии, чтобы эти данные затем можно было использовать в качестве входных данных для филогенетических методов; (b) этап представления — применение филогенетических методов для извлечения из этих числовых и/или данных о состоянии сигнала, который преобразуется в некоторую полезную форму представления, обычно двумерную графическую, такую как деревья или сети, которые синтезируют и «сворачивают» то, что часто является очень сложными многомерными отношениями в сигнале; (c) этап интерпретации — оценка этих древовидных и сетевых представлений для извлечения из них того, что они на самом деле означают для реальных языков и их отношений во времени. [31]
Выход количественного исторического лингвистического анализа обычно представляет собой дерево или сетевую диаграмму. Это позволяет визуализировать выходные данные, но не является полным результатом. Дерево представляет собой связанный ациклический граф, состоящий из набора вершин (также известных как «узлы») и набора ребер («ветвей»), каждое из которых соединяет пару вершин. [32] Внутренний узел представляет языкового предка в филогенетическом дереве или сети. Каждый язык представлен путем, пути показывают различные состояния по мере его развития. Между каждой парой вершин существует только один путь. Некорневые деревья отображают связь между входными данными без предположений относительно их происхождения. Корневое дерево явно определяет общего предка, часто указывая направление эволюции или включая «внешнюю группу», которая, как известно, имеет лишь отдаленное отношение к набору классифицируемых языков. Большинство деревьев являются бинарными, то есть у родителя есть два потомка. Дерево всегда можно создать, хотя это не всегда уместно. Другой вид дерева — это дерево, основанное только на языковых сходствах/различиях. В этом случае внутренние узлы графа не представляют предков, а вводятся для представления конфликта между различными разделениями («бипартициями») в анализе данных. «Фенетическое расстояние» — это сумма весов (часто представленных как длины) вдоль пути между языками. Иногда делается дополнительное предположение, что эти внутренние узлы действительно представляют предков.
Когда языки сходятся, обычно с принятием слов («заимствованием»), сетевая модель более уместна. Будут дополнительные ребра, отражающие двойное происхождение языка. Эти ребра будут двунаправленными, если оба языка заимствуют друг у друга. Таким образом, дерево является простой сетью, однако существует много других типов сетей. Филогенетическая сеть - это сеть, в которой таксоны представлены узлами, а их эволюционные отношения представлены ветвями. [33] Другой тип - основанный на расщеплениях, и является комбинаторным обобщением дерева расщеплений. Данный набор расщеплений может иметь более одного представления, поэтому внутренние узлы могут не быть предками и являются только «неявным» представлением эволюционной истории в отличие от «явного» представления филогенетических сетей. В сети расщеплений френетическое расстояние - это расстояние кратчайшего пути между двумя языками. Еще один тип - это ретикулярная сеть, которая показывает несовместимости (например, из-за контакта), поскольку ретикуляции и ее внутренние узлы представляют предков. Сеть также может быть построена путем добавления контактных ребер к дереву. Последний основной тип — это консенсусная сеть, сформированная из деревьев. Эти деревья могут быть результатом бутстреп-анализа или выборок из апостериорного распределения.
Изменения происходят в языках постоянно, но обычно не с постоянной скоростью, [34] с его кумулятивным эффектом, производящим разделение на диалекты, языки и языковые семьи. Обычно считается, что морфология изменяется медленнее всего, а фонология — быстрее всего. По мере того, как происходят изменения, остается все меньше и меньше свидетельств исходного языка. Наконец, может произойти потеря любых свидетельств родства. Изменения одного типа могут не влиять на другие типы, например, звуковые изменения не влияют на родство. В отличие от биологии, нельзя предположить, что все языки имеют общее происхождение, и необходимо установление родства. При моделировании часто для простоты предполагается, что символы изменяются независимо, но это может быть не так. Помимо заимствования, могут также иметь место семантические сдвиги и полиморфизм.
Анализ может проводиться по «характерам» языков или по «расстояниям» языков. В первом случае входные данные для классификации языков обычно имеют форму матрицы данных, где строки соответствуют различным анализируемым языкам, а столбцы соответствуют различным признакам или признакам, с помощью которых каждый язык может быть описан. Эти признаки бывают двух типов: родственные слова или типологические данные. Знаки могут принимать одну или несколько форм (гомоплазия) и могут быть лексическими, морфологическими или фонологическими. Родственные слова — это морфемы (лексические или грамматические) или более крупные конструкции. Типологические признаки могут происходить из любой части грамматики или лексикона. Если в данных есть пробелы, их необходимо закодировать.
В дополнение к исходной базе данных (неотфильтрованных) данных во многих исследованиях формируются подмножества для определенных целей (отфильтрованные данные).
В лексикостатистике признаки — это значения слов или, скорее, семантические слоты. Таким образом, записи матрицы — это ряд глоссов. Как изначально задумал Сводеш, для слота нужно было выбрать одно наиболее распространенное слово, что может быть сложным и субъективным из-за семантического сдвига. Более поздние методы могут позволить включать более одного значения.
Некоторые методы позволяют накладывать ограничения на географию языковых контактов (изоляция по расстоянию) и на время разделения подгрупп.
Первоначально Сводеш опубликовал список из 200 слов, но позже уточнил его до списка из 100 слов. [35] Обычно используемая база данных IE — это база данных Дайена, Краскала и Блэка, которая содержит данные для 95 языков, хотя известно, что оригинал содержит несколько ошибок. Помимо исходных данных, она также содержит суждения о родстве. Она доступна в Интернете. [36] База данных Ринге, Уорноу и Тейлора содержит информацию о 24 языках IE с 22 фонологическими символами, 15 морфологическими символами и 333 лексическими символами. Грей и Аткинсон использовали базу данных из 87 языков с 2449 лексическими элементами, основанную на наборе Дайена с добавлением трех древних языков. Они включили суждения о родстве ряда ученых. Другие базы данных были составлены для африканских, австралийских и андских языковых семей, среди прочих.
Кодирование данных может быть в двоичной форме или в форме с несколькими состояниями. Первый вариант используется часто, но приводит к смещению. Утверждается, что между двумя методами кодирования существует постоянный масштабный коэффициент, и что это можно учесть. Однако другое исследование предполагает, что топология может измениться [37]
Слоты слов выбираются так, чтобы быть максимально свободными от культурных различий и заимствований. Оригинальные списки Сводеша используются чаще всего, но для определенных целей были разработаны и многие другие. Часто они короче, чем предпочтительный список Сводеша из 100 пунктов. Кесслер написал книгу «Значение списков слов» [38] , в то время как Макмахон и Макмахон проводили исследования эффектов восстанавливаемости и сохраняемости. [28] Был изучен эффект увеличения количества слотов и обнаружен закон убывающей доходности, при этом около 80 были признаны удовлетворительными. [39] Однако в некоторых исследованиях использовалось менее половины этого числа.
Обычно каждый набор родственных слов представлен как отдельный символ, но различия между словами также могут быть измерены как измерение расстояния по изменению звука. Расстояния также могут быть измерены по буквам.
Традиционно они считались более важными, чем лексические, поэтому некоторые исследования придавали этому типу характера дополнительный вес. Такие особенности были включены, например, в базу данных Ringe, Warnow и Taylor IE. Однако другие исследования их исключили.
Примерами таких особенностей являются глоттализованные константы, тоновые системы, винительный падеж в существительных, двойственное число, соответствие падежных чисел, порядок объект-глагол и местоимения первого лица единственного числа. Они будут перечислены в базе данных WALS, хотя для многих языков она пока еще мало заполнена. [40]
Некоторые методы анализа включают статистическую модель эволюции языка и используют свойства модели для оценки истории эволюции. Статистические модели также используются для моделирования данных в целях тестирования. Стохастический процесс может использоваться для описания того, как набор символов развивается в языке. Вероятность, с которой символ изменится, может зависеть от ветви, но не все символы развиваются вместе, и скорость не одинакова на всех ветвях. Часто предполагается, что каждый символ развивается независимо, но это не всегда так. В рамках модели также могут моделироваться заимствования и параллельное развитие (гомоплазия), а также полиморфизмы.
Случайные сходства создают уровень шума, на фоне которого должен быть найден требуемый сигнал родства. Ринге [41] провел исследование влияния случайности на метод сравнения масс . Оно показало, что случайные сходства имеют решающее значение для техники и что выводы Гринберга не могут быть оправданы, хотя математическая процедура, использованная Ринге, была позже подвергнута критике.
При небольших базах данных ошибки выборки могут быть существенными.
В некоторых случаях с большой базой данных и исчерпывающий поиск всех возможных деревьев или сетей невозможен из-за ограничений по времени выполнения. Таким образом, есть вероятность, что оптимальное решение не будет найдено эвристическими методами поиска в пространстве решений.
Заимствованные слова могут серьезно повлиять на топологию дерева, поэтому прилагаются усилия для исключения заимствований. Однако иногда все еще существуют необнаруженные заимствования. Макмахон и Макмахон [42] показали, что около 5% заимствований могут повлиять на топологию, а 10% имеют значительные эффекты. В сетях заимствования приводят к ретикуляциям. Минетт и Ванг [43] исследовали способы автоматического обнаружения заимствований.
Датировка разделения языка может быть определена, если известно, как символы развиваются вдоль каждой ветви дерева. Самое простое предположение заключается в том, что все символы развиваются с одной постоянной скоростью со временем и что это не зависит от ветви дерева. Это предположение было сделано в глоттохронологии. Однако исследования вскоре показали, что между языками существуют различия, некоторые из которых, вероятно, связаны с наличием нераспознанных заимствований. [44] Лучшим подходом является допущение изменения скорости, и гамма-распределение обычно используется из-за его математического удобства. Также были проведены исследования, которые показывают, что скорость замены символов зависит от частоты использования. [45] Широко распространенное заимствование может смещать оценки времени расхождения, делая языки более похожими и, следовательно, более молодыми. Однако это также увеличивает длину ветви предка, так что корень не затрагивается. [46]
Этот аспект является наиболее спорной частью количественной сравнительной лингвистики.
Необходимо понять, как работает метод классификации языка, чтобы определить его предположения и ограничения. Он может быть действителен только при определенных условиях или подходить для небольших баз данных. Методы различаются по требованиям к данным, сложности и времени выполнения. Методы также различаются по критериям оптимизации.
Эти два метода похожи, но цель метода максимальной экономии — найти дерево (или сеть), в котором происходит минимальное количество эволюционных изменений. В некоторых реализациях символам можно присвоить веса, а затем цель — минимизировать общую взвешенную сумму изменений. Анализ создает некорневые деревья, если только не используется внешняя группа или не направлены символы. Эвристика используется для поиска наилучшего дерева, но оптимизация не гарантируется. Метод часто реализуется с использованием программ PAUP или TNT.
Максимальная совместимость также использует символы с целью нахождения дерева, на котором максимальное количество символов развивается без гомоплазии. Опять же, символы могут быть взвешены, и когда это происходит, цель состоит в том, чтобы максимизировать сумму весов совместимых символов. Он также создает некорневые деревья, если не включена дополнительная информация. Нет доступных эвристик, которые были бы точны с большими базами данных. Этот метод использовался только группой Ринге. [47]
В этих двух методах часто находится несколько деревьев с одинаковым счетом, поэтому обычной практикой является поиск консенсусного дерева с помощью алгоритма. Большинство консенсуса имеет двуразделы в более чем половине входных деревьев, в то время как жадный консенсус добавляет двуразделы к большинству дерева. Строгое консенсусное дерево наименее решено и содержит те разделения, которые есть в каждом дереве.
Бутстрэппинг (стратегия статистической перевыборки) используется для предоставления значений поддержки ветвей. Метод случайным образом выбирает символы из матрицы входных данных, а затем используется тот же анализ. Значение поддержки — это доля запусков с этим разделением в наблюдаемом дереве. Однако бутстрэппинг занимает очень много времени.
Оба эти метода используют явные модели эволюции. Метод максимального правдоподобия оптимизирует вероятность получения наблюдаемых данных, в то время как байесовский анализ оценивает вероятность каждого дерева и, таким образом, производит распределение вероятностей. Случайное блуждание выполняется через «пространство модель-дерево». Оба требуют неопределенного времени для выполнения, и остановка может быть произвольной, поэтому решение является проблемой. Однако оба производят вспомогательную информацию для каждой ветви.
Предположения этих методов являются открытыми и проверяемыми. Сложность модели может быть увеличена при необходимости. Параметры модели оцениваются непосредственно из входных данных, поэтому предположения о скорости эволюции избегаются.
Этот метод создает явную филогенетическую сеть, имеющую базовое дерево с дополнительными контактными ребрами. Персонажи могут быть заимствованы, но эволюционировать без гомоплазии. Для создания таких сетей был использован граф-теоретический алгоритм [48] .
Входные лексические данные кодируются в двоичной форме, с одним символом для каждого состояния исходного многосостоянного символа. Метод допускает гомоплазию и ограничения на время разделения. Используется метод анализа на основе правдоподобия с эволюцией, выраженной в виде матрицы скоростей. Когнативный прирост и потеря моделируются с помощью гамма-распределения, чтобы разрешить изменение скорости и сглаживание скорости. Из-за огромного количества возможных деревьев со многими языками для поиска оптимального дерева используется байесовский вывод. Алгоритм Монте-Карло с цепями Маркова [49] генерирует выборку деревьев в качестве приближения к апостериорному распределению вероятностей. Сводка этого распределения может быть предоставлена в виде жадного консенсусного дерева или сети с опорными значениями. Метод также предоставляет оценки дат.
Метод точен, когда исходные символы являются бинарными и развиваются идентично и независимо друг от друга в модели скоростей по всем сайтам с гамма-распределенными скоростями; даты точны, когда скорость изменения постоянна. Понимание производительности метода, когда исходные символы являются многосостоянными, более сложно, поскольку двоичное кодирование создает символы, которые не являются независимыми, в то время как метод предполагает независимость.
Этот метод [50] является продолжением метода Грея и Аткинсона. Вместо двух параметров для персонажа этот метод использует три. Указываются уровень рождаемости, уровень смертности когната и его уровень заимствования. Уровень рождаемости является случайной величиной Пуассона с единственным рождением когната, но допускается раздельная смерть ветвей (экономия Долло). Метод не допускает гомоплазию, но допускает полиморфизм и ограничения. Его главная проблема заключается в том, что он не может обрабатывать отсутствующие данные (эта проблема с тех пор была решена Райдером и Николсом. [51] Для подгонки модели к данным используются статистические методы. Может быть включена предварительная информация, и проводится исследование MCMC возможных реконструкций. Метод был применен к базе данных Грея и Николса и, по-видимому, дает схожие результаты.
Они используют треугольную матрицу парных языковых сравнений. Входная символьная матрица используется для вычисления матрицы расстояний с использованием либо расстояния Хэмминга , либо расстояния Левенштейна . Первое измеряет долю совпадающих символов, тогда как второе позволяет включать затраты на различные возможные преобразования. Эти методы быстры по сравнению с полностью символьными. Однако эти методы приводят к потере информации.
«Невзвешенный парный групповой метод с арифметическим средним» ( UPGMA ) — это метод кластеризации, который работает путем многократного объединения двух языков, которые имеют наименьшее расстояние между собой. Он работает точно с часовой эволюцией, но в противном случае он может быть ошибочным. Этот метод используется в оригинальной лексикостатистике Сводеша.
Это метод разделения данных на естественные группы. [52] Данные могут быть символами, но чаще всего это меры расстояния. Количество символов или расстояния используются для генерации разделений и вычисления весов (длин ветвей) для разделений. Взвешенные разделы затем представляются в виде дерева или сети на основе минимизации количества изменений между каждой парой таксонов. Существуют быстрые алгоритмы для генерации коллекции разделений. Веса определяются из расстояний между таксонами. Разложение на разделение эффективно, когда количество таксонов невелико или когда сигнал не слишком сложен.
Этот метод работает с данными о расстоянии, вычисляет преобразование входной матрицы, а затем вычисляет минимальное расстояние пар языков. [53] Он работает правильно, даже если языки не развиваются с лексическими часами. Также может использоваться взвешенная версия метода. Метод создает выходное дерево. Утверждается, что это наиболее близкий метод к ручным методам построения дерева.
Он использует алгоритм, аналогичный алгоритму присоединения соседей. [54] В отличие от Split Decomposition, он не объединяет узлы немедленно, а ждет, пока узел не будет объединен во второй раз. Затем узлы дерева заменяются двумя, а матрица расстояний уменьшается. Он может обрабатывать большие и сложные наборы данных. Однако на выходе получается фенограмма, а не филограмма. Это самый популярный сетевой метод.
Это был ранний сетевой метод, который использовался для некоторого языкового анализа. Первоначально он был разработан для генетических последовательностей с более чем одним возможным происхождением. [55] Сеть сворачивает альтернативные деревья в одну сеть. Там, где есть несколько историй, рисуется сетка (форма ящика). Она генерирует список символов, несовместимых с деревом.
Это использует декларативный формализм представления знаний и методы программирования набора ответов. [56] Одним из таких решателей является CMODELS, который может использоваться для небольших проблем, но для более крупных требуется эвристика. Предварительная обработка используется для определения информативных символов. CMODELS преобразует их в пропозициональную теорию, которая использует решатель SAT для вычисления моделей этой теории.
Fitch и Kitch — это программы на основе максимального правдоподобия в PHYLIP, которые позволяют перестраивать дерево после каждого добавления, в отличие от NJ. Kitch отличается от Fitch тем, что предполагает постоянную скорость изменения по всему дереву, тогда как Fitch допускает разные скорости вниз по каждой ветви. [57]
В 2000 году Холм представил метод для решения некоторых известных проблем лексикостатистического анализа. Это «ловушка симплезиоморфии», когда общие архаизмы трудно отличить от общих инноваций, и «ловушка пропорциональности», когда более поздние изменения могут скрыть ранние. Позже он представил усовершенствованный метод, названный SLD, для учета переменного распределения слов в языках. [58] Метод не предполагает постоянную скорость изменений.
Разработано несколько методов быстрого сходящегося анализа для использования с большими базами данных (>200 языков). Одним из них является метод покрытия диска (DCM). [59] Он был объединен с существующими методами для повышения производительности. Статья о методе DCM-NJ+MP представлена теми же авторами в "The performance of Phylogenetic Methods on Trees of Bounded Diameter", [ необходима полная ссылка ] , где он сравнивается с методом NJ.
Эти модели сравнивают буквы слов, а не их фонетику. Данн и др. [60] изучили 125 типологических символов в 16 австронезийских и 15 папуасских языках. Они сравнили свои результаты с деревом MP и деревом, построенным традиционным анализом. Были обнаружены значительные различия. Аналогично Вихманн и Сондерс [61] использовали 96 символов для изучения 63 американских языков.
Метод, который был предложен для первоначальной проверки набора языков, чтобы увидеть, являются ли они родственными, был методом массового сравнения . Однако он подвергся жесткой критике и вышел из употребления. Недавно Кесслер возродил компьютерную версию метода, но с использованием строгой проверки гипотез. [62] Цель состоит в том, чтобы использовать сходства более чем двух языков одновременно. В другой статье [63] оцениваются различные критерии для сравнения списков слов. Было обнаружено, что семьи IE и уральские семьи могут быть реконструированы, но не было никаких доказательств для совместной суперсемьи.
Этот метод использует стабильные лексические поля, такие как глаголы позиции, чтобы попытаться установить дальние связи. [64] Учитываются конвергенция и семантические сдвиги для поиска древних когнатов. Описывается модель и представляются результаты пилотного исследования.
Программа автоматизированной оценки сходства (ASJP) похожа на лексикостатистику , но оценка сходства выполняется компьютерной программой, следующей последовательному набору правил. [65] Деревья генерируются с использованием стандартных филогенетических методов. ASJP использует 7 символов гласных и 34 символа согласных. Существуют также различные модификаторы. Два слова считаются похожими, если по крайней мере две последовательные согласные в соответствующих словах идентичны, при этом гласные также принимаются во внимание. Доля слов с одинаковым значением, которые считаются похожими для пары языков, называется процентом лексического сходства (LSP). Также вычисляется процент фонологического сходства (PSP). Затем PSP вычитается из LSP, давая процент вычтенного сходства (SSP), а расстояние ASJP составляет 100-SSP. В настоящее время в базе данных ASJP [66] имеются данные о более чем 4500 языках и диалектах, на основе которых было создано дерево языков мира. [67]
Это измеряет орфографическое расстояние между словами, чтобы избежать субъективности суждений о близости. [68] Это определяет минимальное количество операций, необходимых для преобразования одного слова в другое, нормализованное по длине более длинного слова. Дерево строится из данных о расстоянии с помощью техники UPGMA.
Хеггарти предложил способ измерения степени различия между родственными словами, а не просто ответы «да/нет». [69] Это основано на изучении многих (>30) особенностей фонетики глоссов в сравнении с протоязыком. Это может потребовать большого объема работы, но Хеггарти утверждает, что необходима только репрезентативная выборка звуков. Он также исследовал скорость изменения фонетики и обнаружил большую вариацию скорости, поэтому она не подходит для глоттохронологии. Подобная оценка фонетики ранее была проведена Граймсом и Агардом для романских языков, но в ней использовалось только шесть точек сравнения. [70]
Стандартные математические методы доступны для измерения сходства/различия двух деревьев. Для консенсусных деревьев индекс согласованности (CI) является мерой гомоплазии. Для одного символа это отношение минимально возможного числа шагов на любом дереве (= 1 для бинарных деревьев), деленное на число реконструированных шагов на дереве. CI дерева является суммой CI символов, деленной на число символов. [71] Он представляет собой долю правильно назначенных шаблонов.
Индекс сохранения (RI) измеряет степень сходства в символе. Это отношение (g - s) / (g - m), где g - наибольшее количество шагов символа на любом дереве, m - минимальное количество шагов на любом дереве, а s - минимальное количество шагов на конкретном дереве. Существует также перемасштабированный CI, который является произведением CI и RI.
Для бинарных деревьев стандартным способом сравнения их топологии является использование метрики Робинсона-Фоулдса . [72] Это расстояние является средним числом ложных положительных и ложных отрицательных результатов с точки зрения появления ветвей. Показатели RF выше 10% считаются плохими совпадениями. Для других видов деревьев и сетей пока нет стандартного метода сравнения.
Списки несовместимых символов создаются некоторыми методами создания деревьев. Они могут быть чрезвычайно полезны при анализе выходных данных. При использовании эвристических методов повторяемость становится проблемой. Однако для решения этой проблемы используются стандартные математические методы.
Для оценки методов выбирается хорошо изученная семья языков с надежным набором данных. Часто эта семья — IE, но использовались и другие. После применения методов для сравнения с базой данных полученные деревья сравниваются с эталонным деревом, определенным традиционными лингвистическими методами. Цель состоит в том, чтобы не иметь конфликтов в топологии, например, не иметь пропущенных подгрупп и совместимых дат. Семейства, предложенные для этого анализа Николсом и Варнов [73], — это германские, романские, славянские, общетюркские, китайские и михе-зоке, а также более старые группы, такие как океанийские и IE.
Хотя использование реальных языков действительно добавляет реализма и создает реальные проблемы, указанный выше метод проверки страдает от того, что истинная эволюция языков неизвестна. При генерации набора данных из смоделированной эволюции правильное дерево становится известным. Однако это будет упрощенная версия реальности. Таким образом, следует использовать оба метода оценки.
Для оценки надежности решения желательно изменять входные данные и ограничения и наблюдать за выходными данными. Каждая переменная немного изменяется по очереди. Этот анализ был проведен в ряде случаев, и методы оказались надежными, например, Аткинсоном и Греем. [74]
В начале 1990-х годов лингвист Дональд Ринге вместе с компьютерными учёными Луаем Нахлехом и Тэнди Уорноу , статистиком Стивеном Н. Эвансом и другими начали сотрудничать в исследованиях в области количественных сравнительных лингвистических проектов. Позже они основали проект CHPL, цели которого включают: «создание и поддержание реальных лингвистических наборов данных, в частности индоевропейских языков», «формулирование статистических моделей, которые фиксируют эволюцию исторических лингвистических данных», «разработка инструментов моделирования и мер точности для генерации синтетических данных для изучения эффективности методов реконструкции» и «разработка и внедрение статистических и комбинаторных методов для реконструкции языковых филогений, включая филогенетические сети». [75]
Сравнение методов кодирования было проведено Рексовой и др. (2003). [76] Они создали сокращенный набор данных из базы данных Dyen, но с добавлением хеттского языка. Они создали стандартную матрицу с несколькими состояниями, где 141 состояние символа соответствует отдельным родственным классам, что позволяет использовать полиморфизм. Они также объединили некоторые родственные классы, чтобы уменьшить субъективность, и полиморфные состояния не были разрешены. Наконец, они создали бинарную матрицу, где каждый класс слов рассматривался как отдельный символ. Матрицы были проанализированы с помощью PAUP. Было обнаружено, что использование бинарной матрицы приводило к изменениям вблизи корня дерева.
МакМахон и МакМахон (2003) использовали три программы PHYLIP (NJ, Fitch и Kitch) на наборе данных DKB. [77] Они обнаружили, что полученные результаты были очень похожи. Бутстрэппинг использовался для проверки надежности любой части дерева. Позже они использовали подмножества данных для оценки их сохраняемости и восстанавливаемости. [42] Выходные данные показали топологические различия, которые были отнесены к заимствованию. Затем они также использовали Network, Split Decomposition, Neighbor-net и SplitsTree на нескольких наборах данных. Между двумя последними методами были обнаружены значительные различия. Neighbor-net считался оптимальным для различения языковых контактов.
В 2005 году Накхлех, Варнов, Ринге и Эванс провели сравнение шести методов анализа с использованием индоевропейской базы данных. [78] Сравнивались методы UPGMA, NJ MP, MC, WMC и GA. Пакет программного обеспечения PAUP использовался для UPGMA, NJ и MC, а также для вычисления большинства консенсусных деревьев. Использовалась база данных RWT, но 40 символов были удалены из-за признаков полиморфизма. Затем была создана проверенная база данных, исключающая все символы, которые явно демонстрировали параллельное развитие, таким образом исключая 38 признаков. Деревья оценивались на основе количества несовместимых символов и на основе согласия с установленными результатами подгруппирования. Они обнаружили, что UPGMA был явно наихудшим, но между другими методами не было большой разницы. Результаты зависели от используемого набора данных. Было обнаружено, что взвешивание символов было важным, что требует лингвистического суждения.
Saunders (2005) [79] сравнил NJ, MP, GA и Neighbor-Net по комбинации лексических и типологических данных. Он рекомендовал использовать метод GA, но у Nichols и Warnow есть некоторые опасения по поводу методологии исследования. [80]
Cysouw et al. (2006) [81] сравнили оригинальный метод Холма с NJ, Fitch, MP и SD. Они обнаружили, что метод Холма менее точен, чем другие.
В 2013 году Франсуа Барбансон, Варнов, Эванс, Ринге и Наклех (2013) изучили различные методы реконструкции деревьев с использованием смоделированных данных. [82] Их смоделированные данные различались по количеству контактных ребер, степени гомоплазии, отклонению от лексических часов и отклонению от предположения о скоростях по всем сайтам. Было обнаружено, что точность невзвешенных методов (MP, NJ, UPGMA и GA) была одинаковой во всех изученных условиях, причем MP был лучшим. Точность двух взвешенных методов (WMC и WMP) зависела от уместности схемы взвешивания. При низкой гомоплазии взвешенные методы, как правило, давали более точные результаты, но неправильное взвешивание могло сделать их хуже, чем MP или GA при умеренных или высоких уровнях гомоплазии.
Выбор подходящей модели имеет решающее значение для производства хороших филогенетических анализов. Как недостаточно параметризованные, так и чрезмерно ограничительные модели могут давать аномальное поведение, когда нарушаются их основные предположения, в то время как чрезмерно сложные или чрезмерно параметризованные модели требуют длительного времени выполнения, а их параметры могут быть переобучены. [83] Наиболее распространенным методом выбора модели является «тест отношения правдоподобия», который дает оценку соответствия между моделью и данными, но в качестве альтернативы можно использовать информационный критерий Акаике или байесовский информационный критерий. Доступны компьютерные программы выбора модели.
{{cite journal}}
: CS1 maint: DOI неактивен по состоянию на март 2024 г. ( ссылка )