Кладограмма (от греческого clados «ветвь» и gramma «характер») — это диаграмма, используемая в кладистике для отображения отношений между организмами . Однако кладограмма не является эволюционным деревом , поскольку она не показывает, как предки связаны с потомками, а также не показывает, насколько они изменились, поэтому многие разные эволюционные деревья могут соответствовать одной и той же кладограмме. [1] [2] [3] [4] [5] Кладограмма использует линии, которые разветвляются в разных направлениях и заканчиваются кладой , группой организмов с последним общим предком . Существует множество форм кладограмм, но все они имеют линии, ответвляющиеся от других линий. Линии можно проследить до того места, где они разветвляются. Эти точки разветвления представляют собой гипотетического предка (а не реального объекта), который, как можно предположить, демонстрирует черты, общие для конечных таксонов, находящихся над ним. [4] [6] Этот гипотетический предок мог бы затем дать подсказки о порядке эволюции различных особенностей, адаптации и других эволюционных повествованиях о предках. Хотя традиционно такие кладограммы создавались в основном на основе морфологических признаков, данные секвенирования ДНК и РНК и компьютерная филогенетика теперь очень часто используются при создании кладограмм, либо сами по себе, либо в сочетании с морфологией.
Характеристики, используемые для создания кладограммы, можно грубо разделить на морфологические (синапсидный череп, теплокровность, хорда , одноклеточные и т. д.) или молекулярные (ДНК, РНК или другая генетическая информация). [7] До появления секвенирования ДНК кладистический анализ в основном использовал морфологические данные. Также могут быть использованы поведенческие данные (для животных). [8]
Поскольку секвенирование ДНК стало дешевле и проще, молекулярная систематика становится все более популярным способом вывода филогенетических гипотез. [9] Использование критерия экономии — лишь один из нескольких методов вывода филогении на основе молекулярных данных. Такие подходы, как метод максимального правдоподобия , которые включают в себя явные модели эволюции последовательностей, являются нехенниговскими способами оценки данных о последовательностях. Еще одним мощным методом реконструкции филогений является использование геномных маркеров ретротранспозонов , которые, как полагают, менее подвержены проблеме реверсии , которая портит данные о последовательностях. Также обычно предполагается, что у них низкая частота гомоплазий, поскольку когда-то считалось, что их интеграция в геном была полностью случайной; Однако, по крайней мере, иногда кажется, что это не так.
Исследователи должны решить, какие состояния характера являются «предковыми» ( плезиоморфии ), а какие производными ( синапоморфии ), поскольку только синапоморфные состояния характера предоставляют доказательства группировки. [10] Это определение обычно делается путем сравнения с состояниями персонажей одной или нескольких внешних групп . Состояния, общие для внешней группы и некоторых членов внутренней группы, являются симплезиоморфиями; состояния, которые присутствуют только в подмножестве внутренней группы, являются синапоморфиями. Обратите внимание, что состояния персонажей, уникальные для одного терминала (аутапоморфии), не являются свидетельством группировки. Выбор внешней группы — решающий шаг в кладистическом анализе, поскольку разные внешние группы могут создавать деревья с совершенно разной топологией.
Гомоплазия — это состояние признака, которое является общим для двух или более таксонов по какой-либо причине, отличной от общего происхождения. [11] Двумя основными типами гомоплазии являются конвергенция (эволюция «одного и того же» признака как минимум в двух различных линиях) и реверсия (возврат к состоянию предкового характера). Признаки, которые явно гомопластичны, такие как белый мех у разных линий арктических млекопитающих, не должны включаться в качестве признаков в филогенетический анализ, поскольку они не вносят никакого вклада в наше понимание взаимоотношений. Однако гомоплазия часто не очевидна при проверке самого признака (как, например, в последовательности ДНК), а затем обнаруживается по ее несоответствию (неэкономному распределению) на наиболее экономной кладограмме. Обратите внимание, что гомопластические символы все еще могут содержать филогенетический сигнал . [12]
Хорошо известным примером гомоплазии, возникшей в результате конвергентной эволюции, может быть признак «наличие крыльев». Хотя крылья птиц, летучих мышей и насекомых выполняют одну и ту же функцию, каждое из них развивалось независимо, как видно из их анатомии . Если бы птица, летучая мышь и крылатое насекомое были оценены по признаку «наличие крыльев», в набор данных была бы введена гомоплазия, и это потенциально могло бы исказить анализ, что, возможно, привело бы к ложной гипотезе взаимоотношений. Конечно, единственная причина, по которой гомоплазию можно распознать, в первую очередь, заключается в том, что существуют другие признаки, которые подразумевают структуру отношений, раскрывающую ее гомопластическое распространение.
Кладограмма - это схематический результат анализа, в котором таксоны группируются только на основе синапоморфий. Существует множество других филогенетических алгоритмов, которые обрабатывают данные несколько по-другому и приводят к созданию филогенетических деревьев, которые выглядят как кладограммы, но не являются кладограммами. Например, фенетические алгоритмы, такие как UPGMA и Neighbor-Joining, группируются по общему сходству и рассматривают как синапоморфии, так и симплезиоморфии как свидетельство группировки. Полученные диаграммы представляют собой фенограммы, а не кладограммы. Подходы правдоподобия или байесовского подхода), которые принимают во внимание как порядок ветвления, так и «длину ветвления», рассматривают как синапоморфии, так и аутапоморфии как свидетельство за или против группировки. Диаграммы, полученные в результате такого анализа, также не являются кладограммами. [13]
Существует несколько алгоритмов для определения «лучшей» кладограммы. [14] Большинство алгоритмов используют метрику для измерения того, насколько кладограмма-кандидат соответствует данным. Большинство алгоритмов кладограмм используют математические методы оптимизации и минимизации.
В общем, алгоритмы генерации кладограмм должны быть реализованы в виде компьютерных программ, хотя некоторые алгоритмы можно выполнять вручную, когда наборы данных скромны (например, всего несколько видов и пара характеристик).
Некоторые алгоритмы полезны только в том случае, если характеристические данные являются молекулярными (ДНК, РНК); другие алгоритмы полезны только тогда, когда характеристические данные являются морфологическими. Другие алгоритмы можно использовать, когда характеристические данные включают как молекулярные, так и морфологические данные.
Алгоритмы для кладограмм или других типов филогенетических деревьев включают метод наименьших квадратов , соединение соседей , экономию , максимальное правдоподобие и байесовский вывод .
Биологи иногда используют термин «экономность» для обозначения определенного типа алгоритма генерации кладограмм, а иногда как общий термин для всех филогенетических алгоритмов. [15]
Алгоритмы, выполняющие задачи оптимизации (например, построение кладограмм), могут быть чувствительны к порядку представления входных данных (списка видов и их характеристик). Ввод данных в разных порядках может привести к тому, что один и тот же алгоритм будет создавать разные «лучшие» кладограммы. В таких ситуациях пользователю следует вводить данные в различном порядке и сравнивать результаты.
Использование разных алгоритмов в одном наборе данных иногда может дать разные «лучшие» кладограммы, поскольку каждый алгоритм может иметь уникальное определение того, что является «лучшим».
Из-за астрономического количества возможных кладограмм алгоритмы не могут гарантировать, что решение является лучшим в целом. Неоптимальная кладограмма будет выбрана, если программа остановится на локальном минимуме, а не на желаемом глобальном минимуме. [16] Чтобы решить эту проблему, многие алгоритмы кладограмм используют подход моделирования отжига , чтобы повысить вероятность того, что выбранная кладограмма является оптимальной. [17]
Базальное положение — это направление основания (или корня) укорененного филогенетического дерева или кладограммы. Базальная клада - это самая ранняя клада (данного таксономического ранга [a]), которая разветвляется внутри более крупной клады.
Тест на разницу длин несоответствия (ILD) — это измерение того, как комбинация различных наборов данных (например, морфологических и молекулярных, пластидных и ядерных генов) способствует созданию более длинного дерева. Он измеряется путем сначала вычисления общей длины дерева каждого раздела и их суммирования. Затем создаются реплики путем создания случайно собранных разделов, состоящих из исходных разделов. Длины суммируются. Значение p, равное 0,01, получается для 100 повторов, если 99 повторов имеют большую общую длину дерева.
Некоторые меры пытаются измерить степень гомоплазии в наборе данных со ссылкой на дерево, [18] хотя не обязательно ясно, какое именно свойство эти меры направлены на количественную оценку [19]
Индекс согласованности (CI) измеряет согласованность дерева с набором данных — мера минимального количества гомоплазии, подразумеваемой деревом. [20] Он рассчитывается путем подсчета минимального количества изменений в наборе данных и деления его на фактическое количество изменений, необходимых для кладограммы. [20] Индекс согласованности также может быть рассчитан для отдельного символа i , обозначаемого c i .
Помимо отражения количества гомоплазии, метрика также отражает количество таксонов в наборе данных, [21] (в меньшей степени) количество символов в наборе данных, [22] степень, в которой каждый признак несет филогенетическую информацию, [ 23] и способ кодирования аддитивных символов, что делает его непригодным для использования. [24]
c i занимает диапазон от 1 до 1/[ n.taxa /2] в двоичных символах с равномерным распределением состояний; его минимальное значение больше, когда штаты распределены неравномерно. [23] [18] В общем, для двоичного или недвоичного символа с , c i занимает диапазон от 1 до . [23]
Индекс удержания (RI) был предложен как улучшение CI «для определенных приложений» [25]. Этот показатель также предназначен для измерения количества гомоплазии, но также измеряет, насколько хорошо синапоморфии объясняют дерево. Он рассчитывается путем деления (максимальное количество изменений в дереве минус количество изменений в дереве) на (максимальное количество изменений в дереве минус минимальное количество изменений в наборе данных).
Перемасштабированный индекс согласованности (RC) получается путем умножения CI на RI; по сути, это расширяет диапазон CI так, что его минимальное теоретически достижимое значение масштабируется до 0, а максимальное остается на уровне 1. [18] [25] Индекс гомоплазии (HI) равен просто 1 - CI.
Это измеряет количество гомоплазии, наблюдаемой на дереве, относительно максимального количества гомоплазии, которое теоретически может присутствовать - 1 - (наблюдаемый избыток гомоплазии) / (максимальный избыток гомоплазии). [22] Значение 1 указывает на отсутствие гомоплазии; 0 представляет собой столько гомоплазии, сколько было бы в полностью случайном наборе данных, а отрицательные значения указывают на еще большую гомоплазию (и имеют тенденцию возникать только в надуманных примерах). [22] HER представлен как лучший доступный в настоящее время показатель гомоплазии. [18] [26]