В филогенетике и вычислительной филогенетике максимальная экономия является критерием оптимальности , при котором филогенетическое дерево , которое минимизирует общее количество изменений состояний признаков (или минимизирует стоимость дифференциально взвешенных изменений состояний признаков). При критерии максимальной экономии оптимальное дерево будет минимизировать количество гомоплазии (т. е. конвергентной эволюции , параллельной эволюции и эволюционных реверсий ). Другими словами, при этом критерии кратчайшее возможное дерево, которое объясняет данные, считается наилучшим. Некоторые из основных идей, лежащих в основе максимальной экономии, были представлены Джеймсом С. Фаррисом [1] в 1970 году и Уолтером М. Фитчем в 1971 году. [2]
Максимальная экономия — интуитивно понятный и простой критерий, и по этой причине он популярен. Однако, хотя легко оценить филогенетическое дерево (подсчитав количество изменений состояний признаков), не существует алгоритма для быстрой генерации наиболее экономного дерева. Вместо этого наиболее экономное дерево должно быть найдено в «пространстве деревьев» (т. е. среди всех возможных деревьев). Для небольшого числа таксонов (т. е. менее девяти) можно выполнить исчерпывающий поиск , в котором каждое возможное дерево оценивается, и выбирается лучшее. Для девяти-двадцати таксонов, как правило, предпочтительнее использовать метод ветвей и границ , который также гарантированно вернет лучшее дерево. Для большего числа таксонов необходимо выполнить эвристический поиск .
Поскольку наиболее экономичное дерево всегда является наиболее коротким возможным деревом, это означает, что — по сравнению с гипотетическим «истинным» деревом, которое фактически описывает неизвестную эволюционную историю изучаемых организмов — «лучшее» дерево согласно критерию максимальной экономичности часто будет недооценивать фактические эволюционные изменения, которые могли бы произойти. Кроме того, максимальная экономичность статистически не последовательна. То есть, она не гарантирует создания истинного дерева с высокой вероятностью при наличии достаточных данных. Как продемонстрировал в 1978 году Джо Фельзенштейн [3] , максимальная экономичность может быть непоследовательной при определенных условиях, таких как притяжение длинных ветвей . Конечно, любой филогенетический алгоритм также может быть статистически непоследовательным, если модель, которую он использует для оценки предпочтительного дерева, не соответствует точно тому, как происходила эволюция в этой кладе. Это непознаваемо. Поэтому, хотя статистическая согласованность является интересным теоретическим свойством, она лежит за пределами области проверяемости и не имеет отношения к эмпирическим филогенетическим исследованиям. [4]
В филогенетике бережливость в основном интерпретируется как предпочтение деревьев, которые минимизируют количество требуемых эволюционных изменений (см., например, [2] ). В качестве альтернативы филогенетическую бережливость можно охарактеризовать как предпочтение деревьев, которые максимизируют объяснительную силу, минимизируя количество наблюдаемых сходств, которые не могут быть объяснены наследованием и общим происхождением. [5] [6] Минимизация требуемых эволюционных изменений, с одной стороны, и максимизация наблюдаемых сходств, которые могут быть объяснены как гомологичность, с другой, могут привести к различным предпочтительным деревьям, когда некоторые наблюдаемые особенности неприменимы в некоторых группах, включенных в дерево, и последний можно рассматривать как более общий подход. [7] [8] [9]
Хотя эволюция не является изначально экономным процессом, многовековой научный опыт подтверждает вышеупомянутый принцип экономии ( бритва Оккама ). А именно, предположение о более простой, более экономной цепи событий предпочтительнее предположения о более сложной, менее экономной цепи событий. Следовательно, экономия ( sensu lato ) обычно ищется при выводе филогенетических деревьев и в научном объяснении в целом. [10]
Экономия является частью класса методов оценки деревьев на основе признаков, которые используют матрицу дискретных филогенетических признаков и состояний признаков для выведения одного или нескольких оптимальных филогенетических деревьев для набора таксонов , обычно набора видов или репродуктивно изолированных популяций одного вида. Эти методы работают путем оценки филогенетических деревьев-кандидатов в соответствии с явным критерием оптимальности ; дерево с наиболее благоприятной оценкой принимается в качестве наилучшей гипотезы филогенетических отношений включенных таксонов. Максимальная экономия используется с большинством видов филогенетических данных; до недавнего времени это был единственный широко используемый метод оценки деревьев на основе признаков, используемый для морфологических данных.
Вывод филогений — нетривиальная задача. Существует огромное количество возможных филогенетических деревьев для любого разумно большого набора таксонов; например, всего лишь десять видов дают более двух миллионов возможных неукорененных деревьев. Эти возможности необходимо изучить, чтобы найти дерево, которое наилучшим образом соответствует данным в соответствии с критерием оптимальности. Однако сами данные не приводят к простому арифметическому решению проблемы. В идеале мы ожидали бы, что распределение любых эволюционных признаков (таких как фенотипические признаки или аллели ) будет напрямую следовать схеме ветвления эволюции. Таким образом, мы могли бы сказать, что если два организма обладают общим признаком, они должны быть более тесно связаны друг с другом, чем с третьим организмом, у которого этот признак отсутствует (при условии, что признак не присутствовал у последнего общего предка всех трех, в этом случае это будет симплезиоморфия ) . Мы бы предсказали, что летучие мыши и обезьяны более тесно связаны друг с другом, чем любой из них со слоном, потому что у самцов летучих мышей и обезьян есть внешние яички , которых нет у слонов. Однако мы не можем сказать, что летучие мыши и обезьяны более тесно связаны друг с другом, чем с китами, хотя у этих двоих есть внешние яички, отсутствующие у китов, потому что мы считаем, что у самцов последнего общего предкового вида из трех были внешние яички.
Однако явления конвергентной эволюции , параллельной эволюции и эволюционных реверсий (совместно именуемые гомоплазией ) добавляют неприятную морщину к проблеме вывода филогении. По ряду причин два организма могут обладать признаком, который, как предполагается, не присутствовал у их последнего общего предка: если бы мы наивно приняли наличие этого признака как доказательство родства, мы бы вывели неправильное дерево. Эмпирические филогенетические данные могут включать существенную гомоплазию, причем разные части данных иногда предполагают очень разные отношения. Методы, используемые для оценки филогенетических деревьев, явно предназначены для разрешения конфликта внутри данных путем выбора филогенетического дерева, которое наилучшим образом соответствует всем данным в целом, принимая во внимание, что некоторые данные просто не подойдут. Часто ошибочно полагают, что экономия предполагает, что конвергенция редка; Фактически, даже конвергентно полученные признаки имеют некоторую ценность в филогенетическом анализе, основанном на максимальной экономии, а распространенность конвергенции не оказывает систематического влияния на результаты методов, основанных на экономии. [11]
Данные, которые не вписываются в дерево идеально, не являются просто «шумом», они могут содержать соответствующий филогенетический сигнал в некоторых частях дерева, даже если они противоречат дереву в целом. В приведенном выше примере с китом отсутствие внешних яичек у китов является гомопластичным: оно отражает возврат к состоянию, которое, как предполагается, присутствовало у древних предков млекопитающих, у которых яички были внутренними. Это предполагаемое сходство между китами и древними предками млекопитающих противоречит дереву, которое мы принимаем на основе веса других признаков, поскольку оно подразумевает, что млекопитающие с внешними яичками должны образовывать группу, исключающую китов. Однако среди китов возврат к внутренним яичкам на самом деле правильно связывает различные типы китов (включая дельфинов и морских свиней) в группу Cetacea . Тем не менее, определение наиболее подходящего дерева — и, следовательно, какие данные не вписываются в дерево — является сложным процессом. Максимальная экономия — один из методов, разработанных для этого.
Входные данные, используемые в анализе максимальной экономии, имеют форму «признаков» для ряда таксонов. Не существует общепринятого определения филогенетического признака, но с операционной точки зрения признак можно рассматривать как атрибут, ось, вдоль которой таксоны, как наблюдается, изменяются. Эти атрибуты могут быть физическими (морфологическими), молекулярными, генетическими, физиологическими или поведенческими. Единственное широко распространенное соглашение о признаках, по-видимому, заключается в том, что вариация, используемая для анализа признаков, должна отражать наследственную изменчивость . Должна ли она быть напрямую наследуемой или допускается косвенная наследование (например, выученное поведение), не полностью решено.
Каждый символ разделен на дискретные состояния символа , в которые классифицируются наблюдаемые вариации. Состояния символа часто формулируются как дескрипторы, описывающие состояние субстрата символа. Например, символ «цвет глаз» может иметь состояния «голубой» и «карий». Символы могут иметь два или более состояний (они могут иметь только одно, но эти символы ничего не дают для анализа максимальной экономии и часто исключаются).
Кодирование признаков для филогенетического анализа не является точной наукой, и существует множество сложных вопросов. Обычно таксоны оцениваются с одним и тем же состоянием, если они более похожи друг на друга по этому конкретному атрибуту, чем каждый из них на таксоны, оцененные с другим состоянием. Это не просто, когда состояния признаков четко не разграничены или когда они не охватывают все возможные вариации признака. Как можно оценить ранее упомянутый признак для таксона (или особи) с карими глазами? Или зелеными? Как отмечалось выше, кодирование признаков, как правило, основано на сходстве: карие и зеленые глаза могут быть объединены с голубыми, потому что они больше похожи на этот цвет (будучи светлыми), и признак затем может быть перекодирован как «цвет глаз: светлый; темный». В качестве альтернативы могут быть многосостояния признаков, например, «цвет глаз: карий; карий, голубой; зеленый».
Неоднозначность в определении и оценке состояний символов может быть основным источником путаницы, споров и ошибок в филогенетическом анализе с использованием данных символов. Обратите внимание, что в приведенном выше примере «глаза: присутствуют; отсутствуют» также являются возможным символом, что создает проблемы, поскольку «цвет глаз» неприменим, если глаза отсутствуют. В таких ситуациях оценивается «?» («неизвестно»), хотя иногда используются «X» или «-» (последний обычно в данных последовательности ), чтобы отличить случаи, когда символ не может быть оценен, от случая, когда состояние просто неизвестно. Текущие реализации максимальной экономии обычно обрабатывают неизвестные значения таким же образом: причины, по которым данные неизвестны, не оказывают особого влияния на анализ. Фактически программа обрабатывает ? так, как если бы он содержал состояние, которое потребовало бы наименьшего количества дополнительных шагов в дереве (см. ниже), хотя это не является явным шагом в алгоритме.
Генетические данные особенно поддаются филогенетическим методам на основе символов, таким как максимальная экономия, поскольку последовательности белков и нуклеотидов по своей природе дискретны: определенная позиция в последовательности нуклеотидов может быть либо аденином , цитозином , гуанином или тимином / урацилом , либо пробелом в последовательности; позиция ( остаток ) в последовательности белка будет одной из основных аминокислот или пробелом в последовательности. Таким образом, оценка символов редко бывает неоднозначной, за исключением случаев, когда методы секвенирования не дают окончательного назначения для конкретной позиции последовательности. Пробелы в последовательностях иногда рассматриваются как символы, хотя нет единого мнения о том, как их следует кодировать.
Персонажи могут рассматриваться как неупорядоченные или упорядоченные. Для бинарного (двухсостоянного) персонажа это не имеет большого значения. Для персонажа с несколькими состояниями неупорядоченные персонажи можно рассматривать как имеющие одинаковую «стоимость» (с точки зрения количества «эволюционных событий») для перехода из любого одного состояния в любое другое; дополнительно им не требуется прохождение через промежуточные состояния. Упорядоченные персонажи имеют определенную последовательность, в которой состояния должны происходить в ходе эволюции, так что переход между некоторыми состояниями требует прохождения через промежуточное. Это можно рассматривать дополнительно как имеющие разные стоимости для перехода между различными парами состояний. В приведенном выше примере с цветом глаз можно оставить его неупорядоченным, что налагает ту же эволюционную «стоимость» для перехода от каре-голубого, зелено-голубого, зелено-карего и т. д. В качестве альтернативы его можно упорядочить как каре-каре-зелено-голубой; это обычно подразумевает, что для перехода от каре-зеленого потребуется два эволюционных события, от каре-голубого — три, но от каре-карего — только одно. Это также можно рассматривать как требование, чтобы глаза прошли «стадию ореха», чтобы перейти от коричневого к зеленому, и «стадию зеленого», чтобы перейти от ореха к синему и т. д. Для многих символов не очевидно, следует ли их упорядочивать и как именно. Напротив, для символов, которые представляют собой дискретизацию базовой непрерывной переменной, такой как форма, размер и соотношение символов, упорядочивание является логичным, [12] и моделирование показало, что это улучшает способность восстанавливать правильные клады, одновременно уменьшая восстановление ошибочных кладов. [13] [14] [15]
Существует оживленная дискуссия о полезности и целесообразности упорядочивания символов, но нет единого мнения. Некоторые авторитеты упорядочивают символы, когда есть четкий логический, онтогенетический или эволюционный переход между состояниями (например, «ноги: короткие; средние; длинные»). Некоторые принимают только некоторые из этих критериев. Некоторые проводят неупорядоченный анализ и упорядочивают символы, которые показывают четкий порядок перехода в результирующем дереве (такую практику можно обвинить в циклическом рассуждении ). Некоторые авторитеты вообще отказываются упорядочивать символы, предполагая, что это искажает анализ, требуя, чтобы эволюционные переходы следовали определенному пути.
Также возможно применять дифференциальное взвешивание к отдельным признакам. Обычно это делается относительно «стоимости» 1. Таким образом, некоторые признаки могут рассматриваться как более вероятно отражающие истинные эволюционные отношения между таксонами, и, таким образом, они могут быть взвешены со значением 2 или более; изменения в этих признаках затем будут считаться двумя эволюционными «шагами», а не одним при расчете оценок деревьев (см. ниже). В прошлом было много дискуссий о взвешивании признаков. Большинство авторитетных источников теперь взвешивают все признаки одинаково, хотя исключения являются обычным явлением. Например, данные о частоте аллелей иногда объединяются в ячейки и оцениваются как упорядоченный признак. В этих случаях сам признак часто занижается, так что небольшие изменения в частотах аллелей учитываются меньше, чем серьезные изменения в других признаках. Кроме того, третья позиция кодона в кодирующей нуклеотидной последовательности особенно лабильна и иногда занижается или ей присваивается вес 0, исходя из предположения, что она с большей вероятностью проявит гомоплазию. В некоторых случаях проводятся повторные анализы, при этом признаки переоцениваются обратно пропорционально степени гомоплазии, обнаруженной в предыдущем анализе (так называемое последовательное взвешивание); это еще один метод, который можно считать круговым рассуждением .
Изменения состояния символов также могут быть взвешены индивидуально. Это часто делается для данных о последовательностях нуклеотидов ; эмпирически было определено, что определенные изменения оснований (AC, AT, GC, GT и обратные изменения) происходят гораздо реже, чем другие (AG, CT и их обратные изменения). Поэтому эти изменения часто взвешиваются больше. Как показано выше при обсуждении порядка символов, упорядоченные символы можно рассматривать как форму взвешивания состояния символов.
Некоторые систематики предпочитают исключать признаки, которые известны или предположительно являются высоко гомопластичными или имеют большое количество неизвестных записей («?»). Как отмечено ниже, теоретические и имитационные работы продемонстрировали, что это, скорее всего, пожертвует точностью, чем улучшит ее. Это также касается признаков, которые являются изменчивыми в терминальных таксонах: теоретические, конгруэнтные и имитационные исследования продемонстрировали, что такие полиморфные признаки содержат значительную филогенетическую информацию. [ необходима цитата ]
Время, необходимое для анализа экономии (или любого филогенетического анализа), пропорционально количеству таксонов (и признаков), включенных в анализ. Кроме того, поскольку больше таксонов требуют оценки большего количества ветвей, можно ожидать большей неопределенности в больших анализах. Поскольку затраты на сбор данных по времени и деньгам часто напрямую зависят от количества включенных таксонов, большинство анализов включают только часть таксонов, которые могли бы быть отобраны. Действительно, некоторые авторы утверждают, что четыре таксона (минимум, необходимый для получения осмысленного некорневого дерева) — это все, что необходимо для точного филогенетического анализа, и что больше признаков более ценно, чем больше таксонов в филогенетике. Это привело к яростным спорам о выборке таксонов.
Эмпирические, теоретические и имитационные исследования привели к ряду драматических демонстраций важности адекватной выборки таксонов. Большинство из них можно суммировать простым наблюдением: матрица филогенетической информации имеет размеры признаков, умноженные на таксоны. Удвоение числа таксонов удваивает объем информации в матрице так же, как и удвоение числа признаков. Каждый таксон представляет собой новый образец для каждого признака, но, что еще важнее, он (обычно) представляет собой новую комбинацию состояний признаков. Эти состояния признаков могут не только определять, где этот таксон находится на дереве, они могут информировать весь анализ, возможно, вызывая различные отношения между оставшимися таксонами, которые будут предпочтительными за счет изменения оценок модели изменений признаков.
Самая тревожная слабость анализа экономии, а именно притяжение длинных ветвей (см. ниже), особенно ярко выражена при плохой выборке таксонов, особенно в случае с четырьмя таксонами. Это хорошо изученный случай, в котором дополнительная выборка признаков может не улучшить качество оценки. По мере добавления таксонов они часто разбивают длинные ветви (особенно в случае ископаемых), эффективно улучшая оценку изменений состояний признаков вдоль них. Благодаря богатству информации, добавленной выборкой таксонов, можно даже производить высокоточные оценки филогений с сотнями таксонов, используя всего несколько тысяч признаков. [ необходима цитата ]
Хотя было проведено много исследований, предстоит еще много работы по стратегиям выборки таксонов. Благодаря достижениям в производительности компьютеров, снижению стоимости и повышению автоматизации молекулярного секвенирования, размеры выборок в целом растут, и исследования, посвященные взаимосвязям сотен таксонов (или других терминальных сущностей, таких как гены), становятся обычным явлением. Конечно, это не означает, что добавление символов также не полезно; число символов также увеличивается.
Некоторые систематики предпочитают исключать таксоны на основе количества неизвестных записей символов («?»), которые они демонстрируют, или потому что они имеют тенденцию «прыгать» по дереву в анализах (т. е. они являются «джокерами»). Как отмечено ниже, теоретические и имитационные работы показали, что это, скорее всего, пожертвует точностью, чем улучшит ее. Хотя эти таксоны могут генерировать больше наиболее экономных деревьев (см. ниже), такие методы, как поддеревья согласия и сокращенный консенсус, все еще могут извлекать информацию об интересующих отношениях.
Было замечено, что включение большего количества таксонов имеет тенденцию к снижению общих значений поддержки ( проценты бутстрепа или индексы распада, см. ниже). Причина этого ясна: по мере добавления дополнительных таксонов к дереву они подразделяют ветви, к которым они присоединяются, и, таким образом, разбавляют информацию, которая поддерживает эту ветвь. В то время как поддержка отдельных ветвей уменьшается, поддержка общих отношений на самом деле увеличивается. Рассмотрим анализ, который дает следующее дерево: (рыба, (ящерица, (кит, (кошка, обезьяна))). Добавление крысы и моржа, вероятно, уменьшит поддержку клады (кит, (кошка, обезьяна)), потому что крыса и морж могут попадать в эту кладу или за ее пределы, и поскольку все эти пять животных относительно тесно связаны, должно быть больше неопределенности относительно их отношений. В пределах ошибки может быть невозможно определить отношения каких-либо из этих животных относительно друг друга. Однако крыса и морж, вероятно, добавят данные о признаках, которые скрепляют группировку любых двух из этих млекопитающих, за исключением рыбы или ящерицы; там, где первоначальный анализ мог быть введен в заблуждение, скажем, из-за наличия плавников у рыб и китовых, присутствие моржа с жиром и плавниками, как у кита, но усами, как у кошки и крысы, прочно связывает кита с млекопитающими.
Чтобы справиться с этой проблемой, поддеревья согласия, сокращенный консенсус и анализ двойного распада стремятся идентифицировать поддерживаемые связи (в форме «n-таксонных утверждений», таких как четырехтаксонное утверждение «(рыба, (ящерица, (кошка, кит)))»), а не целые деревья. Если целью анализа является разрешенное дерево, как в случае сравнительной филогенетики , эти методы не могут решить проблему. Однако, если оценка дерева так плохо подкреплена, результаты любого анализа, полученного из дерева, вероятно, будут слишком подозрительными, чтобы их использовать в любом случае.
Анализ максимальной экономии выполняется очень просто. Деревья оцениваются в соответствии со степенью, в которой они подразумевают экономное распределение данных о признаках. Самое экономное дерево для набора данных представляет собой предпочтительную гипотезу взаимоотношений между таксонами в анализе.
Деревья оцениваются (подсчитываются) с помощью простого алгоритма, определяющего, сколько «шагов» (эволюционных переходов) требуется для объяснения распределения каждого символа. Шаг, по сути, представляет собой изменение одного состояния символа на другое, хотя в случае с упорядоченными символами некоторые переходы требуют более одного шага. Вопреки распространенному мнению, алгоритм явно не назначает конкретные состояния символа узлам (соединению ветвей) на дереве: наименьшее количество шагов может включать несколько одинаково затратных назначений и распределений эволюционных переходов. Оптимизируется общее количество изменений.
Существует гораздо больше возможных филогенетических деревьев , чем можно полностью просмотреть для более чем восьми таксонов или около того. Поэтому для поиска среди возможных деревьев используется ряд алгоритмов. Многие из них включают в себя взятие начального дерева (обычно предпочитаемого дерева из последней итерации алгоритма) и его возмущение, чтобы посмотреть, приведет ли изменение к более высокой оценке.
Деревья, полученные в результате поиска по принципу экономии, не имеют корней: они показывают все возможные связи включенных таксонов, но в них отсутствует какое-либо утверждение об относительном времени расхождения. Пользователь выбирает определенную ветвь для укоренения дерева. Затем эта ветвь считается находящейся вне всех других ветвей дерева, которые вместе образуют монофилетическую группу. Это придает дереву ощущение относительного времени. Неправильный выбор корня может привести к неправильным связям на дереве, даже если само дерево правильно в своей неукорененной форме.
Анализ экономии часто возвращает несколько одинаково экономных деревьев (MPT). Большое количество MPT часто рассматривается как аналитическая ошибка и широко распространено мнение, что это связано с количеством пропущенных записей ("?") в наборе данных, признаками, показывающими слишком много гомоплазии, или наличием топологически лабильных таксонов "wildcard" (которые могут иметь много пропущенных записей). Было предложено множество методов для сокращения количества MPT, включая удаление признаков или таксонов с большим количеством пропущенных данных перед анализом, удаление или понижение веса высоко гомопластичных признаков (последовательное взвешивание) или удаление таксонов "wildcard" (метод филогенетического ствола) апостериори и последующий повторный анализ данных.
Многочисленные теоретические и имитационные исследования продемонстрировали, что высоко гомопластичные признаки, признаки и таксоны с обильными отсутствующими данными, а также таксоны «wildcard» вносят вклад в анализ. Хотя исключение признаков или таксонов может показаться улучшающим разрешение, полученное дерево основано на меньшем количестве данных и, следовательно, является менее надежной оценкой филогении (если только признаки или таксоны не являются неинформативными, см. безопасное таксономическое сокращение). Сегодня общее мнение заключается в том, что наличие нескольких MPT является допустимым аналитическим результатом; это просто указывает на то, что недостаточно данных для полного разрешения дерева. Во многих случаях в MPT имеется существенная общая структура, а различия незначительны и подразумевают неопределенность в размещении нескольких таксонов. Существует ряд методов для обобщения отношений в этом наборе, включая консенсусные деревья, которые показывают общие отношения между всеми таксонами, и сокращенные поддеревья соглашений, которые показывают общую структуру путем временного сокращения таксонов «wildcard» из каждого дерева, пока все они не согласятся. Сокращенный консенсус делает еще один шаг вперед, показывая все поддеревья (и, следовательно, все отношения), поддерживаемые входными деревьями.
Даже если возвращается несколько MPT, анализ экономии все равно в основном дает точечную оценку, не имея никаких доверительных интервалов . Это часто выдвигалось в качестве критики, поскольку в оценке наиболее экономного дерева, безусловно, есть ошибка, и метод по своей сути не включает никаких средств установления того, насколько его выводы чувствительны к этой ошибке. Для оценки поддержки использовалось несколько методов.
Jackknifing и bootstrapping , известные статистические процедуры повторной выборки, использовались с анализом экономии. jackknife, который включает повторную выборку без замены («leave-one-out»), может использоваться для признаков или таксонов; интерпретация может усложниться в последнем случае, поскольку интересующей переменной является дерево, а сравнение деревьев с различными таксонами не является простым. Bootstrap, повторная выборка с заменой (выборка x элементов случайным образом из выборки размером x, но элементы могут быть выбраны несколько раз), используется только для признаков, поскольку добавление дубликатов таксонов не изменяет результат анализа экономии. Bootstrap гораздо чаще используется в филогенетике (как и в других местах); оба метода включают произвольное, но большое количество повторных итераций, включающих возмущение исходных данных с последующим анализом. Полученные MPT из каждого анализа объединяются, и результаты обычно представляются на дереве консенсуса правила большинства 50%, с отдельными ветвями (или узлами), помеченными процентом MPT бутстрепа, в которых они появляются. Этот «процент бутстрепа» (который не является P-значением , как иногда утверждают) используется в качестве меры поддержки. Технически, он должен быть мерой повторяемости, вероятностью того, что эта ветвь (узел, клада) будет восстановлена, если таксоны будут отобраны снова. Экспериментальные тесты с вирусными филогениями показывают, что процент бутстрепа не является хорошим оценщиком повторяемости для филогенетики, но это разумная оценка точности. [ необходима цитата ] Фактически, было показано, что процент бутстрепа, как оценщик точности, является смещенным, и что это смещение в среднем приводит к заниженной оценке достоверности (так что даже 70% поддержки может на самом деле указывать на 95% достоверности). Однако направление смещения невозможно определить в отдельных случаях, поэтому предположение о том, что высокие значения бутстреп-поддержки указывают на еще большую уверенность, необоснованно.
Другим средством оценки поддержки является поддержка Бремера [16] [17] или индекс распада, который является параметром заданного набора данных, а не оценкой, основанной на псевдореплицированных подвыборках, как процедуры bootstrap и jackknife, описанные выше. Поддержка Бремера (также известная как поддержка ветвей) — это просто разница в количестве шагов между оценкой MPT(s) и оценкой самого экономного дерева, которое не содержит определенную кладу (узел, ветвь). Ее можно рассматривать как количество шагов, которые вам нужно добавить, чтобы потерять эту кладу; неявно она подразумевает, насколько большой должна быть ошибка в оценке оценки MPT, чтобы клада больше не поддерживалась анализом, хотя это не обязательно то, что она делает. Значения поддержки ветвей часто довольно низкие для наборов данных скромного размера (типичными являются один или два шага), но они часто кажутся пропорциональными процентам bootstrap. По мере того, как матрицы данных становятся больше, значения поддержки ветвей часто продолжают расти, поскольку значения бутстрапа выходят на плато на 100%. Таким образом, для больших матриц данных значения поддержки ветвей могут предоставить более информативные средства для сравнения поддержки для сильно поддерживаемых ветвей. [18] Однако интерпретация значений распада не является простой, и, по-видимому, они предпочитаются авторами с философскими возражениями против бутстрапа (хотя многие морфологические систематики, особенно палеонтологи, сообщают об обоих). Анализ двойного распада является аналогом распада сокращенного консенсуса, который оценивает индекс распада для всех возможных отношений поддерева (n-таксонные утверждения) в пределах дерева.
Максимальная экономия — это эпистемологически простой подход, который делает мало механистических предположений и популярен по этой причине. Однако он может быть статистически несостоятельным при определенных обстоятельствах. Согласованность, здесь означающая монотонную сходимость к правильному ответу с добавлением большего количества данных, является желательным свойством статистических методов . Как продемонстрировал в 1978 году Джо Фельзенштейн [3] , максимальная экономия может быть непоследовательной при определенных условиях. Категория ситуаций, в которых это, как известно, происходит, называется притяжением длинных ветвей и происходит, например, когда есть длинные ветви (высокий уровень замен) для двух символов (A и C), но короткие ветви для еще двух (B и D). A и B расходятся от общего предка, как и C и D. Конечно, чтобы знать, что метод дает вам неправильный ответ, вам нужно знать, каков правильный ответ. Это, как правило, не так в науке. По этой причине некоторые считают статистическую согласованность нерелевантной для эмпирических филогенетических вопросов. [19]
Предположим для простоты, что мы рассматриваем один бинарный символ (он может быть как +, так и -). Поскольку расстояние от B до D невелико, в подавляющем большинстве случаев B и D будут одинаковыми. Здесь мы предположим, что они оба + (+ и - назначаются произвольно, и их замена является лишь вопросом определения). Если это так, то остается четыре возможности. A и C могут быть оба +, в этом случае все таксоны одинаковы, и все деревья имеют одинаковую длину. A может быть +, а C может быть -, в этом случае отличается только один символ, и мы не можем ничего узнать, поскольку все деревья имеют одинаковую длину. Аналогично, A может быть -, а C может быть +. Единственная оставшаяся возможность заключается в том, что A и C оба - -. Однако в этом случае доказательства предполагают, что A и C группируются вместе, а B и D вместе. Как следствие, если «истинное дерево» является деревом этого типа, чем больше данных мы соберем (т. е. чем больше символов мы изучим), тем больше доказательств будет поддерживать неправильное дерево. Конечно, за исключением математических симуляций, мы никогда не узнаем, что такое «истинное дерево». Таким образом, если мы не сможем разработать модель, которая гарантированно точно восстановит «истинное дерево», любой другой критерий оптимальности или схема взвешивания также могут быть, в принципе, статистически несостоятельными. Суть в том, что хотя статистическая несостоятельность является интересным теоретическим вопросом, эмпирически это чисто метафизическая проблема, выходящая за рамки эмпирического тестирования. Любой метод может быть несостоятельным, и нет способа узнать наверняка, является он таковым или нет. Именно по этой причине многие систематики характеризуют свои филогенетические результаты как гипотезы взаимосвязи.
Еще одно осложнение с максимальной экономией и другими филогенетическими методами, основанными на критерии оптимальности, заключается в том, что поиск кратчайшего дерева является NP-трудной задачей. [20] Единственный доступный в настоящее время эффективный способ получения решения, учитывая произвольно большой набор таксонов, — это использование эвристических методов, которые не гарантируют, что будет восстановлено кратчайшее дерево. Эти методы используют алгоритмы восхождения на вершину для постепенного приближения к наилучшему дереву. Однако было показано, что могут быть «острова деревьев» неоптимальных решений, и анализ может застрять в этих локальных оптимумах . Таким образом, требуются сложные, гибкие эвристики, чтобы гарантировать, что пространство дерева было адекватно исследовано. Доступно несколько эвристик, включая обмен ближайшими соседями (NNI), пересоединение бисекции дерева (TBR) и храповой механизм экономии.
Утверждалось, что главная проблема, особенно для палеонтологии , заключается в том, что максимальная экономия предполагает, что единственный способ, которым два вида могут иметь один и тот же нуклеотид в одной и той же позиции, — это если они генетически связаны. [ требуется ссылка ] Это утверждает, что филогенетические приложения экономии предполагают, что все сходства являются гомологичными (другие интерпретации, такие как утверждение, что два организма могут вообще не быть родственными, бессмысленны). Это решительно не так: как и в любой форме оценки филогении на основе признаков, экономия используется для проверки гомологичной природы сходств путем нахождения филогенетического дерева, которое наилучшим образом учитывает все сходства.
Часто утверждается, что бережливость не имеет отношения к филогенетическому выводу, потому что «эволюция не является бережливой». [ требуется ссылка ] В большинстве случаев не предлагается явной альтернативы; если альтернативы нет, любой статистический метод предпочтительнее, чем вообще никакого. Кроме того, неясно, что бы подразумевалось, если бы утверждение «эволюция является бережливой» было на самом деле верным. Это можно было бы принять за то, что исторически могло произойти больше изменений признаков, чем предсказывается с использованием критерия бережливости. Поскольку оценка филогении бережливости реконструирует минимальное количество изменений, необходимых для объяснения дерева, это вполне возможно. Однако было показано с помощью имитационных исследований, тестирования с известными вирусными филогениями in vitro и соответствия другим методам, что точность бережливости в большинстве случаев не ставится под угрозу этим. Анализ бережливости использует количество изменений признаков на деревьях для выбора наилучшего дерева, но он не требует, чтобы именно столько изменений и не больше создавало дерево. Пока неучтенные изменения случайным образом распределены по дереву (разумное нулевое ожидание), результат не должен быть смещенным. На практике этот метод надежен: максимальная экономия демонстрирует минимальное смещение в результате выбора дерева с наименьшим количеством изменений.
Можно провести аналогию с выбором подрядчиков на основе их первоначальной (необязательной) оценки стоимости работы. Фактическая конечная стоимость, скорее всего, будет выше оценки. Несмотря на это, выбор подрядчика, предоставившего самую низкую оценку, теоретически должен привести к самой низкой окончательной стоимости проекта. Это связано с тем, что при отсутствии других данных мы предполагаем, что все соответствующие подрядчики имеют одинаковый риск перерасхода средств. На практике, конечно, недобросовестная деловая практика может исказить этот результат; в филогенетике также некоторые конкретные филогенетические проблемы (например, притяжение длинных ветвей , описанное выше) могут потенциально исказить результаты. Однако в обоих случаях нет способа сказать, будет ли результат смещенным или в какой степени он будет смещен, на основе самой оценки. При экономии также нет способа сказать, что данные определенно вводят в заблуждение, без сравнения с другими доказательствами.
Экономия часто характеризуется как неявное принятие позиции, что эволюционные изменения редки или что гомоплазия (конвергенция и инверсия) минимальна в эволюции. Это не совсем так: экономия минимизирует количество конвергенций и инверсий, которые предполагаются предпочтительным деревом, но это может привести к относительно большому количеству таких гомопластических событий. Было бы более уместно сказать, что экономия предполагает только минимальное количество изменений, подразумеваемых данными. Как и выше, это не требует, чтобы это были единственные произошедшие изменения; она просто не предполагает изменений, для которых нет доказательств. Сокращенно для описания этого, перефразируя Фарриса [5], это так: «экономия минимизирует предполагаемые гомоплазии, она не предполагает, что гомоплазия минимальна».
Недавние исследования моделирования показывают, что экономия может быть менее точной, чем деревья, построенные с использованием байесовских подходов для морфологических данных, [21] возможно, из-за чрезмерной точности, [22] хотя это было оспорено. [23] Исследования с использованием новых методов моделирования продемонстрировали, что различия между методами вывода являются результатом стратегии поиска и используемого метода консенсуса, а не используемой оптимизации. [24] Кроме того, анализ 38 молекулярных и 86 морфологических эмпирических наборов данных показал, что общий механизм, предполагаемый эволюционными моделями, используемыми в филогенетике на основе моделей, применим к большинству молекулярных, но немногим морфологическим наборам данных. [25] Это открытие подтверждает использование филогенетики на основе моделей для молекулярных данных, но предполагает, что для морфологических данных экономия остается выгодной, по крайней мере, до тех пор, пока более сложные модели не станут доступны для фенотипических данных.
Существует несколько других методов вывода филогений на основе дискретных данных о характере, включая максимальное правдоподобие и байесовский вывод . Каждый из них имеет потенциальные преимущества и недостатки. На практике эти методы, как правило, отдают предпочтение деревьям, которые очень похожи на наиболее экономные деревья для того же набора данных; [26] однако, они позволяют выполнять сложное моделирование эволюционных процессов, и поскольку классы методов статистически последовательны и не подвержены притяжению длинных ветвей . Обратите внимание, однако, что производительность методов правдоподобия и байесовских методов зависит от качества конкретной используемой модели эволюции ; неверная модель может привести к предвзятому результату - так же, как и экономия. Кроме того, они все еще довольно медленные в вычислительном отношении по сравнению с методами экономии, иногда требуя недель для обработки больших наборов данных. У большинства этих методов есть особенно ярые сторонники и противники; экономия особенно пропагандировалась как философски превосходящая (в первую очередь ярыми кладистами ). [ необходима цитата ] Одной из областей, где бережливость все еще имеет большое влияние, является анализ морфологических данных, поскольку до недавнего времени стохастические модели изменения признаков не были доступны для немолекулярных данных, и они все еще не получили широкого распространения. Недавно также было показано, что бережливость с большей вероятностью восстанавливает истинное дерево в условиях глубоких изменений в эволюционных («модельных») параметрах (например, скорости эволюционных изменений) внутри дерева. [27]
Матрицы расстояний также могут использоваться для создания филогенетических деревьев. Непараметрические методы расстояний изначально применялись к фенетическим данным с использованием матрицы парных расстояний и согласовывались для создания дерева . Матрица расстояний может поступать из различных источников, включая иммунологическое расстояние, морфометрический анализ и генетические расстояния . Для филогенетических данных о признаках необработанные значения расстояний можно вычислить, просто подсчитав количество парных различий в состояниях признаков ( манхэттенское расстояние ) или применив модель эволюции. В частности, методы расстояний также позволяют использовать данные, которые не могут быть легко преобразованы в данные о признаках, такие как анализы гибридизации ДНК-ДНК . Сегодня методы, основанные на расстояниях, часто не одобряются, поскольку филогенетически-информативные данные могут быть потеряны при преобразовании признаков в расстояния. Существует ряд методов матрицы расстояний и критериев оптимальности, из которых критерий минимальной эволюции наиболее тесно связан с максимальной экономией.
Среди методов расстояния существует критерий филогенетических оценок, известный как минимальная эволюция (МЭ), который разделяет с максимальной экономией аспект поиска филогении, которая имеет наименьшую общую сумму длин ветвей. [28] [29]
Тонкое различие отличает критерий максимальной экономии от критерия ME: в то время как критерий максимальной экономии основан на абдуктивной эвристике, т. е. правдоподобии простейшей эволюционной гипотезы таксонов по отношению к более сложным, критерий ME основан на гипотезах Кидда и Сгарамеллы-Зонты (доказанных 22 года спустя Ржецким и Неем [30] ), утверждающих, что если бы эволюционные расстояния от таксонов были несмещенными оценками истинных эволюционных расстояний, то истинная филогения таксонов имела бы длину короче, чем любая другая альтернативная филогения, совместимая с этими расстояниями. Результаты Ржецки и Нея освобождают критерий ME от принципа бритвы Оккама и дают ему прочную теоретическую и количественную основу. [31]