Максимальная экономия (филогенетика)

В филогенетике и вычислительной филогенетике максимальная экономия - это критерий оптимальности , при котором филогенетическое дерево минимизирует общее количество изменений состояния персонажа (или минимизирует стоимость дифференциально взвешенных изменений состояния персонажа). Согласно критерию максимальной экономии оптимальное дерево минимизирует количество гомоплазии (т. е. конвергентную эволюцию , параллельную эволюцию и эволюционные развороты ). Другими словами, по этому критерию лучшим считается самое короткое дерево, объясняющее данные. Некоторые из основных идей максимальной экономности были представлены Джеймсом С. Фаррисом ^[1] в 1970 году и Уолтером М. Фитчем в 1971 году. ^[2]

Максимальная экономия — это интуитивно понятный и простой критерий, и именно по этой причине он популярен. Однако, хотя филогенетическое дерево легко оценить ( подсчитав количество изменений состояний символов), не существует алгоритма, позволяющего быстро создать наиболее экономное дерево. Вместо этого самое экономное дерево необходимо искать в «пространстве дерева» (т. е. среди всех возможных деревьев). Для небольшого числа таксонов (т. е. менее девяти) можно провести исчерпывающий поиск , при котором оцениваются все возможные деревья и выбирается лучшее. Для девяти-двадцати таксонов, как правило, предпочтительнее использовать метод ветвей и границ , который также гарантированно возвращает лучшее дерево. Для большего числа таксонов необходимо выполнить эвристический поиск .

Поскольку самое экономное дерево всегда является самым коротким из возможных, это означает, что — по сравнению с гипотетическим «истинным» деревом, которое фактически описывает неизвестную эволюционную историю изучаемых организмов — «лучшее» дерево в соответствии с максимальной экономией. критерий часто недооценивает фактические эволюционные изменения, которые могли произойти. Кроме того, максимальная экономия не является статистически последовательной. То есть не гарантируется создание истинного дерева с высокой вероятностью при наличии достаточного количества данных. Как продемонстрировал в 1978 году Джо Фельзенштейн ^[3] , максимальная экономность может быть непоследовательной при определенных условиях, таких как притяжение длинных ветвей . Конечно, любой филогенетический алгоритм также может быть статистически непоследовательным, если модель, которую он использует для оценки предпочтительного дерева, не точно соответствует тому, как происходила эволюция в этой кладе. Это непознаваемо. Таким образом, хотя статистическая последовательность является интересным теоретическим свойством, она лежит за пределами проверяемости и не имеет отношения к эмпирическим филогенетическим исследованиям. ^[4]

Альтернативная характеристика и обоснование

В филогенетике экономность в основном интерпретируется как предпочтение деревьев, которые сводят к минимуму количество необходимых эволюционных изменений (см., например, ^[2] ). С другой стороны, филогенетическую экономность можно охарактеризовать как предпочтение деревьев, которые максимизируют объяснительную силу за счет минимизации количества наблюдаемых сходств, которые не могут быть объяснены наследственностью и общим происхождением. ^[5]^[6] Минимизация необходимых эволюционных изменений, с одной стороны, и максимизация наблюдаемых сходств, которые можно объяснить как гомологии, с другой, могут привести к появлению разных предпочтительных деревьев, когда некоторые наблюдаемые признаки неприменимы в некоторых группах, включенных в дерево, и последний можно рассматривать как более общий подход. ^[7]^[8]^[9]

Хотя эволюция по своей сути не является бережливым процессом, столетия научного опыта подтверждают вышеупомянутый принцип бережливости (« бритва Оккама »). А именно, предположение о более простой и экономной цепочке событий предпочтительнее предположения о более сложной и менее экономной цепочке событий. Следовательно, бережливость ( sensu lato ) обычно требуется при построении филогенетических деревьев и в научном объяснении в целом. ^[10]

В деталях

Parsimony является частью класса методов оценки деревьев на основе признаков, которые используют матрицу дискретных филогенетических признаков и состояний признаков для вывода одного или нескольких оптимальных филогенетических деревьев для набора таксонов , обычно набора видов или репродуктивно изолированных популяций одного разновидность. Эти методы работают путем оценки филогенетических деревьев-кандидатов в соответствии с явным критерием оптимальности ; дерево с наиболее благоприятной оценкой принимается как лучшая гипотеза филогенетических связей включенных таксонов. Максимальная экономия применяется к большинству видов филогенетических данных; до недавнего времени это был единственный широко используемый метод оценки дерева на основе символов, используемый для морфологических данных.

Выявление филогении — нетривиальная проблема. Для любого набора таксонов разумного размера существует огромное количество возможных филогенетических деревьев; например, всего десять видов дают более двух миллионов возможных деревьев без корней. Эти возможности необходимо искать, чтобы найти дерево, которое наилучшим образом соответствует данным по критерию оптимальности. Однако сами данные не приводят к простому арифметическому решению проблемы. В идеале мы ожидали бы, что распределение любых эволюционных признаков (например, фенотипических признаков или аллелей ) будет напрямую следовать ветвящейся схеме эволюции. Таким образом, мы могли бы сказать, что если два организма обладают общим признаком, они должны быть более тесно связаны друг с другом, чем с третьим организмом, у которого отсутствует этот признак (при условии, что признак не присутствовал у последнего общего предка всех трех, и в этом случае это была бы симплезиоморфия ). Мы могли бы предсказать, что летучие мыши и обезьяны более тесно связаны друг с другом, чем они со слонами, потому что у самцов летучих мышей и обезьян есть внешние яички , которых нет у слонов. Однако мы не можем сказать, что летучие мыши и обезьяны более тесно связаны друг с другом, чем с китами, хотя у них есть наружные яички, отсутствующие у китов, потому что мы полагаем, что самцы последнего общего предкового вида из трех имели наружные яички. .

Однако явления конвергентной эволюции , параллельной эволюции и эволюционных разворотов (в совокупности называемые гомоплазией ) добавляют неприятную морщинку к проблеме установления филогении. По ряду причин два организма могут обладать признаком, который, как предполагается, не присутствовал у их последнего общего предка: если бы мы наивно приняли наличие этого признака как свидетельство родства, мы бы сделали вывод о неправильном дереве. Эмпирические филогенетические данные могут включать существенную гомоплазию, при этом разные части данных предполагают иногда очень разные отношения. Методы, используемые для оценки филогенетических деревьев, явно предназначены для разрешения конфликта внутри данных путем выбора филогенетического дерева, которое лучше всего подходит для всех данных в целом, принимая во внимание, что некоторые данные просто не подходят. Часто ошибочно полагают, что экономия предполагает, что конвергенция встречается редко; на самом деле, даже конвергентно полученные признаки имеют некоторую ценность в филогенетическом анализе, основанном на максимальной экономии, и преобладание конвергенции не влияет систематически на результаты методов, основанных на экономии. ^[11]

Данные, которые не идеально соответствуют дереву, не являются просто «шумом», они могут содержать соответствующий филогенетический сигнал в некоторых частях дерева, даже если они противоречат дереву в целом. В приведенном выше примере с китами отсутствие наружных яичек у китов гомопластично: оно отражает возврат к состоянию, которое, как предполагается, присутствовало у древних предков млекопитающих, у которых яички были внутренними. Это предполагаемое сходство между китами и древними предками млекопитающих противоречит древу, которое мы принимаем на основе веса других признаков, поскольку оно подразумевает, что млекопитающие с внешними яичками должны образовывать группу, исключающую китов. Однако среди китов обращение к внутренним яичкам на самом деле правильно связывает различные типы китов (включая дельфинов и морских свиней) с группой китообразных . Тем не менее, определение наиболее подходящего дерева (и, следовательно, того, какие данные ему не подходят) — сложный процесс. Максимальная экономия — один из методов, разработанных для этого.

Данные персонажа

Входные данные, используемые при анализе максимальной экономии, представлены в форме «символов» для ряда таксонов. Не существует общепринятого определения филогенетического признака, но с практической точки зрения признак можно рассматривать как атрибут, ось, вдоль которой наблюдаются различия таксонов. Эти атрибуты могут быть физическими (морфологическими), молекулярными, генетическими, физиологическими или поведенческими. Единственное широко распространенное мнение о признаках, по-видимому, заключается в том, что вариации, используемые для анализа характера, должны отражать наследственные вариации . Должен ли он передаваться по наследству напрямую или допустимо косвенное наследование (например, приобретенное поведение), до конца не решено.

Каждый признак разделен на дискретные состояния признака, по которым классифицируются наблюдаемые вариации. Состояния персонажа часто формулируются как дескрипторы, описывающие состояние субстрата персонажа. Например, персонаж «цвет глаз» может иметь состояния «синий» и «карий». Персонажи могут иметь два или более состояний (они могут иметь только одно, но эти персонажи не поддаются максимально экономному анализу и часто исключаются).

Кодирование символов для филогенетического анализа не является точной наукой, и существует множество сложных проблем. Обычно таксонам присваивается один и тот же статус, если они больше похожи друг на друга по этому конкретному признаку, чем каждый из таксонов, которым присвоен другой статус. Это непросто, когда состояния персонажа четко не очерчены или когда они не могут охватить все возможные вариации персонажа. Как можно оценить ранее упомянутый признак таксона (или особи) с карими глазами? Или зеленый? Как отмечалось выше, кодирование символов обычно основано на сходстве: карие и зеленые глаза могут быть объединены с синими, потому что они больше похожи на этот цвет (будучи светлыми), а затем символ можно перекодировать как «цвет глаз: светлый; темный». " Альтернативно могут быть символы с несколькими состояниями, например «цвет глаз: карий; ореховый, синий; зеленый».

Неясности в описании и оценке состояния персонажа могут быть основным источником путаницы, споров и ошибок в филогенетическом анализе с использованием данных о характере. Обратите внимание, что в приведенном выше примере «глаза: присутствуют; отсутствуют» также является возможным символом, что создает проблемы, поскольку «цвет глаз» неприменим, если глаза отсутствуют. В таких ситуациях знак "?" («неизвестно») оценивается, хотя иногда «X» или «-» (последнее обычно в данных последовательности ) используются, чтобы отличить случаи, когда символ не может быть оценен, от случая, когда состояние просто неизвестно. Текущие реализации максимальной экономии обычно обрабатывают неизвестные значения одинаково: причины, по которым данные неизвестны, не оказывают особого влияния на анализ. Фактически программа лечит ? как если бы он содержал состояние, которое включало бы наименьшее количество дополнительных шагов в дереве (см. ниже), хотя это не является явным шагом в алгоритме.

Генетические данные особенно поддаются филогенетическим методам, основанным на признаках, таким как максимальная экономия, поскольку белковые и нуклеотидные последовательности естественным образом дискретны: конкретная позиция в нуклеотидной последовательности может быть либо аденином , цитозином , гуанином , либо тимином / урацилом , либо пробелом в последовательности; положение ( остаток ) в последовательности белка будет одной из основных аминокислот или пробелом в последовательности. Таким образом, оценка символов редко бывает неоднозначной, за исключением случаев, когда методы секвенирования не могут обеспечить однозначное присвоение конкретной позиции последовательности. Пропуски последовательностей иногда рассматриваются как символы, хотя нет единого мнения о том, как их следует кодировать.

Символы можно рассматривать как неупорядоченные или упорядоченные. Для двоичного символа (с двумя состояниями) это не имеет большого значения. Для персонажа с несколькими состояниями неупорядоченные персонажи можно рассматривать как имеющие равную «стоимость» (с точки зрения количества «эволюционных событий») перехода из любого одного состояния в любое другое; кроме того, они не требуют прохождения через промежуточные состояния. У упорядоченных персонажей есть определенная последовательность, в которой состояния должны возникать в ходе эволюции, так что переход между некоторыми состояниями требует прохождения через промежуточный этап. Это можно рассматривать как дополнение к разным издержкам, которые приходится переносить между разными парами состояний. В приведенном выше примере цвета глаз можно оставить его неупорядоченным, что влечет за собой ту же эволюционную «стоимость» перехода от коричнево-синего, зелено-синего, зелено-орехового и т. д. В качестве альтернативы его можно упорядочить как коричнево-ореховый. -Зеленый, голубой; обычно это означает, что для перехода от коричнево-зеленого цвета потребуется два эволюционных события, три — от коричнево-синего и только одно — от коричнево-орехового. Это также можно рассматривать как требование эволюции глаз через «карие стадии», чтобы перейти от коричневого к зеленому, и «зеленую стадию», чтобы перейти от карих к синим и т. д. Для многих персонажей не очевидно, если и как это сделать. их следует заказать. Напротив, для символов, которые представляют собой дискретизацию базовой непрерывной переменной, таких как символы формы, размера и отношения, порядок является логичным ^[12], и моделирование показало, что это улучшает способность восстанавливать правильные клады, одновременно уменьшая восстановление ошибочных клады. ^[13]^[14]^[15]

О полезности и целесообразности упорядочения символов ведутся оживленные споры, но единого мнения нет. Некоторые авторитеты упорядочивают персонажей, когда между состояниями существует четкий логический, онтогенетический или эволюционный переход (например, «ноги: короткие; средние; длинные»). Некоторые принимают только некоторые из этих критериев. Некоторые проводят неупорядоченный анализ и упорядочивают символы, которые показывают четкий порядок перехода в результирующем дереве (эту практику можно обвинить в циклическом рассуждении ). Некоторые авторитеты вообще отказываются упорядочивать персонажей, предполагая, что это искажает анализ, требуя, чтобы эволюционные переходы следовали определенным путем.

Также возможно применять дифференциальный вес к отдельным символам. Обычно это делается относительно «стоимости» 1. Таким образом, некоторые признаки могут рассматриваться как более вероятно отражающие истинные эволюционные отношения между таксонами, и, таким образом, им может быть присвоено значение 2 или более; изменения в этих признаках тогда будут считаться двумя эволюционными «шагами», а не одним при расчете показателей дерева (см. Ниже). В прошлом было много дискуссий о взвешивании персонажей. Большинство авторитетных источников теперь одинаково оценивают всех персонажей, хотя исключения нередки. Например, данные о частоте аллелей иногда объединяются в ячейки и оцениваются как упорядоченный символ. В этих случаях вес самого персонажа часто принижается, так что небольшие изменения в частотах аллелей учитываются меньше, чем значительные изменения в других признаках. Кроме того, третье положение кодона в кодирующей нуклеотидной последовательности особенно лабильно, и иногда ему присваивается весовой коэффициент, равный 0, исходя из предположения, что он с большей вероятностью будет проявлять гомоплазию. В некоторых случаях проводятся повторные анализы, при этом символы повторно взвешиваются обратно пропорционально степени гомоплазии, обнаруженной в предыдущем анализе (так называемое последовательное взвешивание); это еще один метод, который можно назвать циклическим рассуждением .

Изменения состояния персонажа также могут быть взвешены индивидуально. Это часто делается для данных о нуклеотидных последовательностях ; Эмпирически установлено, что одни изменения оснований (АС, АТ, ГК, ГТ и обратные изменения) происходят значительно реже других (АГ, КТ и их обратные изменения). Поэтому эти изменения часто имеют больший вес. Как показано выше при обсуждении порядка символов, упорядоченные символы можно рассматривать как форму взвешивания состояния символов.

Некоторые систематики предпочитают исключать символы, о которых известно или предполагается, что они очень гомопластичны или имеют большое количество неизвестных записей («?»). Как отмечается ниже, теоретические работы и работы по моделированию показали, что это, скорее всего, принесет в жертву точность, а не улучшит ее. То же самое относится и к признакам, которые изменчивы в терминальных таксонах: теоретические исследования, исследования конгруэнтности и моделирования показали, что такие полиморфные признаки содержат значительную филогенетическую информацию. ^{[ нужна цитата ]}

Выборка таксонов

Время, необходимое для экономного анализа (или любого филогенетического анализа), пропорционально количеству таксонов (и признаков), включенных в анализ. Кроме того, поскольку для оценки большего количества таксонов требуется больше ветвей, можно ожидать большей неопределенности при проведении масштабного анализа. Поскольку затраты времени и денег на сбор данных часто напрямую зависят от количества включенных таксонов, большинство анализов включают только часть таксонов, которые можно было бы собрать в выборку. Действительно, некоторые авторы утверждали, что четыре таксона (минимум, необходимый для создания значимого некорневого дерева) - это все, что необходимо для точного филогенетического анализа, и что большее количество признаков более ценно, чем большее количество таксонов в филогенетике. Это привело к яростным спорам по поводу выборки таксонов.

Эмпирические, теоретические и модельные исследования привели к ряду впечатляющих демонстраций важности адекватной выборки таксонов. Большинство из них можно резюмировать простым наблюдением: матрица филогенетических данных имеет размеры символов, умноженных на таксоны. Удвоение количества таксонов удваивает объем информации в матрице так же верно, как и удвоение количества символов. Каждый таксон представляет собой новую выборку для каждого признака, но, что более важно, он (обычно) представляет собой новую комбинацию состояний признака. Эти состояния признаков могут не только определять, где этот таксон расположен на дереве, но и могут служить основой для всего анализа, возможно, вызывая предпочтение различных отношений между оставшимися таксонами за счет изменения оценок характера изменений признаков.

Самая тревожная слабость анализа экономности - привлечение длинных ветвей (см. ниже) - особенно выражена при плохой выборке таксонов, особенно в случае с четырьмя таксонами. Это хорошо понятный случай, когда дополнительная выборка символов не может улучшить качество оценки. По мере добавления таксонов они часто разбивают длинные ветви (особенно в случае ископаемых), эффективно улучшая оценку изменений состояния признаков вдоль них. Благодаря богатству информации, добавляемой в результате выборки таксонов, можно даже получить очень точные оценки филогении сотен таксонов, используя всего несколько тысяч символов. ^{[ нужна цитата ]}

Несмотря на то, что было проведено множество исследований, предстоит еще много работы над стратегиями выборки таксонов. Из-за достижений в производительности компьютеров, а также снижения стоимости и увеличения автоматизации молекулярного секвенирования размеры выборок в целом растут, а исследования, посвященные взаимоотношениям сотен таксонов (или других терминальных объектов, таких как гены), становятся обычным явлением. Конечно, это не означает, что добавление символов тоже бесполезно; количество персонажей также увеличивается.

Некоторые систематики предпочитают исключать таксоны на основании количества неизвестных записей символов («?»), которые они имеют, или потому, что они имеют тенденцию «прыгать» по дереву при анализе (т. е. они являются «подстановочными знаками»). Как отмечается ниже, теоретические работы и работы по моделированию показали, что это, скорее всего, принесет в жертву точность, а не улучшит ее. Хотя эти таксоны могут генерировать более экономичные деревья (см. Ниже), такие методы, как согласованные поддеревья и уменьшенный консенсус, все же могут извлекать информацию об интересующих отношениях.

Было замечено, что включение большего количества таксонов имеет тенденцию к снижению общих значений поддержки ( проценты начальной загрузки или индексы распада, см. ниже). Причина этого ясна: по мере того, как к дереву добавляются дополнительные таксоны, они подразделяют ветви, к которым прикрепляются, и, таким образом, размывают информацию, поддерживающую эту ветвь. Хотя поддержка отдельных ветвей снижается, поддержка общих отношений фактически увеличивается. Рассмотрим анализ, в результате которого получается следующее дерево: (рыба, (ящерица, (кит, (кошка, обезьяна)))). Добавление крысы и моржа, вероятно, уменьшит поддержку клады (кит, (кошка, обезьяна)), поскольку крыса и морж могут входить в эту кладу или за ее пределы, и поскольку все эти пять животных относительно тесно связаны, в их отношениях должно быть больше неопределенности. В пределах ошибки может оказаться невозможным определить взаимоотношения этих животных друг с другом. Однако крыса и морж, вероятно, добавят данные о признаках, которые закрепят группировку любых двух из этих млекопитающих, за исключением рыбы и ящерицы; там, где первоначальный анализ мог быть введен в заблуждение, например, из-за наличия плавников у рыбы и кита, присутствие моржа с жиром и плавниками, как у кита, но усами, как у кошки и крысы, прочно привязывает кита к млекопитающие.

Чтобы справиться с этой проблемой, поддеревья согласия, уменьшенный консенсус и анализ двойного распада направлены на выявление поддерживаемых отношений (в форме «утверждений n-таксонов», таких как утверждение четырех таксонов «(рыба, (ящерица, (кошка) ,кит)))"), а не целые деревья. Если целью анализа является решенное дерево, как в случае сравнительной филогенетики , эти методы не могут решить проблему. Однако, если оценка дерева так плохо поддерживается, результаты любого анализа, полученного на основе дерева, вероятно, в любом случае будут слишком подозрительными, чтобы их можно было использовать.

Анализ

Анализ максимальной экономии проводится очень просто. Деревья оцениваются в соответствии со степенью, в которой они подразумевают экономное распределение данных символов. Наиболее экономное дерево для набора данных представляет собой предпочтительную гипотезу взаимоотношений между таксонами в анализе.

Деревья оцениваются (оцениваются) с использованием простого алгоритма, позволяющего определить, сколько «шагов» (эволюционных переходов) требуется для объяснения распределения каждого признака. По сути, шаг — это переход из одного состояния символа в другое, хотя для упорядоченных символов некоторые переходы требуют более одного шага. Вопреки распространенному мнению, алгоритм не присваивает явным образом определенные состояния символов узлам (ветвям ветвей) дерева: наименьшее количество шагов может включать в себя множество одинаково дорогостоящих назначений и распределений эволюционных переходов. Оптимизируется общее количество изменений.

Существует гораздо больше возможных филогенетических деревьев , чем можно провести исчерпывающий поиск по более чем восьми таксонам или около того. Поэтому для поиска среди возможных деревьев используется ряд алгоритмов. Многие из них включают в себя взятие исходного дерева (обычно предпочтительного дерева из последней итерации алгоритма) и его возмущение, чтобы увидеть, приведет ли изменение к более высокому баллу.

Деревья, полученные в результате экономного поиска, не укоренены: они показывают все возможные взаимоотношения включенных таксонов, но в них отсутствуют какие-либо сведения об относительном времени расхождения. Конкретная ветвь выбирается пользователем для создания корня дерева. Тогда эта ветвь считается находящейся вне всех других ветвей дерева, которые вместе образуют монофилетическую группу. Это придает дереву ощущение относительного времени. Неправильный выбор корня может привести к неправильным отношениям в дереве, даже если дерево само по себе правильное в своей некорневой форме.

Анализ экономии часто возвращает несколько одинаково экономичных деревьев (MPT). Большое количество MPT часто рассматривается как аналитическая ошибка и широко распространено мнение, что оно связано с количеством отсутствующих записей («?») в наборе данных, слишком большой гомоплазией символов или наличием топологически нестабильных «подстановочных знаков». таксоны (у которых может быть много пропущенных записей). Было предложено множество методов для уменьшения количества MPT, включая удаление признаков или таксонов с большим количеством недостающих данных перед анализом, удаление или понижение веса высоко гомопластических признаков (последовательное взвешивание) или удаление таксонов с подстановочными знаками (метод филогенетического ствола) апостериорно , а затем повторный анализ данных.

Многочисленные теоретические и симуляционные исследования показали, что в анализ вносят свой вклад высоко гомопластические признаки, признаки и таксоны с большим количеством отсутствующих данных, а также таксоны с «подстановочными знаками». Хотя исключение признаков или таксонов может улучшить разрешение, полученное дерево основано на меньшем количестве данных и, следовательно, является менее надежной оценкой филогении (если только признаки или таксоны не информативны, см. «Безопасное таксономическое сокращение»). Сегодня общее мнение заключается в том, что наличие нескольких MPT является достоверным аналитическим результатом; это просто указывает на то, что данных недостаточно для полного разрешения дерева. Во многих случаях в MPT существует значительная общая структура, а различия незначительны и связаны с неопределенностью в размещении нескольких таксонов. Существует ряд методов обобщения отношений внутри этого набора, включая деревья консенсуса, которые показывают общие отношения между всеми таксонами, и поддеревья сокращенного соглашения, которые показывают общую структуру путем временного удаления таксонов с подстановочными знаками из каждого дерева до тех пор, пока все они не согласуются. . Сокращенный консенсус делает еще один шаг вперед, показывая все поддеревья (и, следовательно, все отношения), поддерживаемые входными деревьями.

Даже если возвращается несколько MPT, экономный анализ по-прежнему дает точечную оценку без каких-либо доверительных интервалов . Это часто воспринималось как критика, поскольку в оценке наиболее экономного дерева определенно существует ошибка, и метод по своей сути не включает в себя какие-либо средства определения того, насколько чувствительны его выводы к этой ошибке. Для оценки поддержки использовалось несколько методов.

Складывание и бутстрэппинг — хорошо известные статистические процедуры повторной выборки — использовались при экономичном анализе. Складной нож, который предполагает повторную выборку без замены («исключение одного»), можно использовать для персонажей или таксонов; В последнем случае интерпретация может усложниться, поскольку интересующей переменной является дерево, а сравнение деревьев разных таксонов не является простым. Бутстрап, повторная выборка с заменой (выборка x элементов случайным образом из выборки размером x, но элементы могут быть выбраны несколько раз), используется только для символов, поскольку добавление повторяющихся таксонов не меняет результат анализа экономии. Бутстрап гораздо чаще используется в филогенетике (как и везде); оба метода предполагают произвольное, но большое количество повторяющихся итераций, включающих возмущение исходных данных с последующим анализом. Полученные в результате каждого анализа MPT объединяются, и результаты обычно представляются в виде дерева консенсуса по правилу большинства с 50%-ным большинством, с отдельными ветвями (или узлами), помеченными процентом начальных MPT, в которых они появляются. Этот «процент начальной загрузки» (который не является P-значением , как иногда утверждают) используется как мера поддержки. Технически это должно быть мерой повторяемости, вероятности того, что эта ветвь (узел, клада) будет восстановлена, если таксоны будут отобраны снова. Экспериментальные тесты с вирусной филогенией показывают, что процент начальной загрузки не является хорошим показателем повторяемости для филогенетики, но является разумным показателем точности. ^{[ нужна цитация ]} Фактически, было показано, что процент начальной загрузки, как показатель точности, является предвзятым, и что это смещение приводит в среднем к недооценке уверенности (например, даже 70% поддержки может действительно указывать на повышение до 95% уверенности). Однако направление смещения не может быть установлено в отдельных случаях, поэтому предположение о том, что поддержка начальной загрузки высоких значений указывает на еще более высокую достоверность, необоснованно.

Другим средством оценки поддержки является поддержка Бремера ^[16]^[17] или индекс затухания, который является параметром данного набора данных, а не оценкой, основанной на псевдореплицированных подвыборках, как описанные выше процедуры начальной загрузки и складного ножа. Поддержка Бремера (также известная как поддержка ветвей) — это просто разница в количестве шагов между оценкой MPT(ов) и оценкой наиболее экономного дерева, которое не содержит конкретной клады (узла, ветви). Его можно рассматривать как количество шагов, которые вам нужно добавить, чтобы потерять эту кладу; неявно это означает, насколько велика должна быть ошибка в оценке оценки MPT, чтобы клада больше не подтверждалась анализом, хотя это не обязательно именно то, что она делает. Значения поддержки ветвей часто довольно низкие для наборов данных небольшого размера (обычно один или два шага), но они часто кажутся пропорциональными процентам начальной загрузки. По мере того как матрицы данных становятся больше, значения поддержки ветвей часто продолжают увеличиваться, поскольку значения начальной загрузки выходят на плато на уровне 100%. Таким образом, для больших матриц данных значения поддержки ветвей могут предоставить более информативные средства для сравнения поддержки ветвей с сильной поддержкой. ^[18] Однако интерпретация значений распада не является простой, и, похоже, им отдают предпочтение авторы с философскими возражениями против бутстрепа (хотя многие морфологические систематики, особенно палеонтологи, сообщают и о том, и о другом). Анализ двойного распада является аналогом снижения консенсуса, который оценивает индекс распада для всех возможных отношений поддерева (операторов n-таксонов) внутри дерева.

Проблемы с филогенетическим выводом максимальной экономии

Пример притяжения длинных ветвей . Если ветви A и C имеют большое количество замен в «истинном дереве» (предполагается, что на самом деле никогда не известно, за исключением моделирования), то экономия может интерпретировать параллельные изменения как синапоморфии и группировать A и C вместе.

Максимальная экономия — это эпистемологически простой подход, который делает мало механистических предположений и популярен по этой причине. Однако при определенных обстоятельствах оно может быть статистически несогласованным . Согласованность, означающая здесь монотонную сходимость к правильному ответу при добавлении большего количества данных, является желательным свойством статистических методов . Как продемонстрировал в 1978 году Джо Фельзенштейн ^[3] , максимальная экономность может быть непоследовательной при определенных условиях. Категория ситуаций, в которых, как известно, это происходит, называется притяжением длинных ветвей и возникает, например, когда имеются длинные ветки (высокий уровень замен) для двух символов (A и C), но короткие ветки для еще двух (Б&Д). A и B произошли от общего предка, как и C и D. Конечно, чтобы знать, что метод дает неправильный ответ, вам нужно знать, какой ответ правильный. В науке это, как правило, не так. По этой причине некоторые считают, что статистическая последовательность не имеет отношения к эмпирическим филогенетическим вопросам. ^[19]

Предположим для простоты, что мы рассматриваем один двоичный символ (это может быть + или -). Поскольку расстояние от B до D невелико, в подавляющем большинстве случаев B и D будут одинаковыми. Здесь мы будем предполагать, что они оба + (+ и - назначаются произвольно, и их замена является лишь вопросом определения). Если это так, то остаются четыре возможности. A и C могут быть +, и в этом случае все таксоны одинаковы и все деревья имеют одинаковую длину. A может быть +, а C может быть -, и в этом случае отличается только один символ, и мы ничего не можем узнать, так как все деревья имеют одинаковую длину. Точно так же А может быть -, а С может быть +. Единственная оставшаяся возможность состоит в том, что A и C оба являются -. Однако в этом случае данные свидетельствуют о том, что A и C группируются вместе, а B и D вместе. Как следствие, если «истинное дерево» — это дерево этого типа, то чем больше данных мы собираем (т. е. чем больше символов изучаем), тем больше доказательств будет поддерживать неправильное дерево. Конечно, за исключением математического моделирования, мы никогда не узнаем, что такое «истинное дерево». Таким образом, если мы не сможем разработать модель, которая гарантированно точно восстановит «истинное дерево», любой другой критерий оптимальности или схема взвешивания также могут в принципе быть статистически несовместимыми. Суть в том, что, хотя статистическая несогласованность является интересной теоретической проблемой, эмпирически это чисто метафизическая проблема, выходящая за рамки эмпирического тестирования. Любой метод может быть противоречивым, и невозможно узнать наверняка, так это или нет. Именно по этой причине многие систематики характеризуют свои филогенетические результаты как гипотезы родства.

Еще одна сложность, связанная с максимальной экономией и другими филогенетическими методами, основанными на критериях оптимальности, заключается в том, что поиск кратчайшего дерева является NP-сложной проблемой. ^[20] Единственный доступный в настоящее время эффективный способ получения решения для сколь угодно большого набора таксонов — это использование эвристических методов, которые не гарантируют, что будет восстановлено кратчайшее дерево. Эти методы используют алгоритмы восхождения на холм для постепенного приближения к лучшему дереву. Однако было показано, что могут существовать «островки деревьев» неоптимальных решений, и анализ может оказаться в ловушке этих локальных оптимумов . Таким образом, для обеспечения адекватного исследования древовидного пространства требуются сложные и гибкие эвристики. Доступно несколько эвристик, включая обмен ближайшими соседями (NNI), пересоединение дерева пополам (TBR) и храповик экономии.

Критика

Утверждалось, что главная проблема, особенно для палеонтологии , заключается в том, что максимальная экономия предполагает, что единственный способ, которым два вида могут иметь один и тот же нуклеотид в одном и том же положении, - это если они генетически связаны. ^{[ нужна цитата ]} Это утверждает, что филогенетические применения экономии предполагают, что все сходства гомологичны (другие интерпретации, такие как утверждение о том, что два организма вообще не могут быть связаны между собой, бессмысленны). Это категорически не так: как и в случае любой формы оценки филогении на основе признаков, экономия используется для проверки гомологичной природы сходств путем нахождения филогенетического дерева, которое лучше всего объясняет все сходства.

Часто утверждают, что экономия не имеет отношения к филогенетическим выводам, потому что «эволюция не экономна». ^{[ нужна ссылка ]} В большинстве случаев явная альтернатива не предлагается; если альтернативы нет, любой статистический метод предпочтительнее, чем его отсутствие вообще. Кроме того, неясно, что бы имелось в виду, если бы утверждение «эволюция экономна» было на самом деле правдой. Это можно понимать так, что исторически могло произойти больше изменений характера, чем прогнозируется с использованием критерия экономности. Поскольку оценка экономной филогении восстанавливает минимальное количество изменений, необходимых для объяснения дерева, это вполне возможно. Однако с помощью симуляционных исследований, тестирования с известными вирусными филогениями in vitro и сравнения с другими методами было показано , что точность экономии в большинстве случаев не подвергается риску. Анализ экономии использует количество изменений символов в деревьях, чтобы выбрать лучшее дерево, но он не требует, чтобы дерево было создано именно таким количеством изменений и не более. Пока неучтенные изменения распределены по дереву случайным образом (разумное нулевое ожидание), результат не должен быть систематическим. На практике этот метод надежен: максимальная экономия демонстрирует минимальную предвзятость в результате выбора дерева с наименьшим количеством изменений.

Можно провести аналогию с выбором подрядчиков на основе их первоначальной (необязательной) оценки стоимости работы. Реальная стоимость готовой продукции, скорее всего, окажется выше запланированной. Несмотря на это, выбор подрядчика, предоставившего наименьшую смету, теоретически должен привести к самой низкой конечной стоимости проекта. Это связано с тем, что в отсутствие других данных мы предполагаем, что все соответствующие подрядчики имеют одинаковый риск перерасхода средств. На практике, конечно, недобросовестная деловая практика может исказить этот результат; В филогенетике некоторые конкретные филогенетические проблемы (например, притяжение длинных ветвей , описанное выше) потенциально могут искажать результаты. Однако в обоих случаях невозможно определить, будет ли результат смещен или насколько он будет смещен, основываясь на самой оценке. При скромности также невозможно сказать, что данные вводят в заблуждение, без сравнения с другими доказательствами.

Экономность часто характеризуют как неявное принятие позиции, согласно которой эволюционные изменения редки или что гомоплазия (конвергенция и инверсия) минимальна в эволюции. Это не совсем так: экономия минимизирует количество сходений и разворотов, предполагаемых предпочтительным деревом, но это может привести к относительно большому числу таких гомопластических событий. Было бы более уместно сказать, что экономия предполагает лишь минимальное количество изменений, подразумеваемых данными. Как указано выше, это не требует, чтобы это были единственные произошедшие изменения; он просто не предполагает изменений, для которых нет доказательств. Если перефразировать Фарриса ^[5] , это можно описать следующим образом: «Экономность сводит к минимуму предполагаемые гомоплазии, но не предполагает, что гомоплазия минимальна».

Недавние исследования моделирования показывают, что экономия может быть менее точной, чем деревья, построенные с использованием байесовских подходов к морфологическим данным, ^[21] , возможно, из-за чрезмерной точности, ^[22], хотя это оспаривается. ^[23] Исследования с использованием новых методов моделирования показали, что различия между методами вывода являются результатом используемой стратегии поиска и метода консенсуса, а не используемой оптимизации. ^[24] Кроме того, анализ 38 молекулярных и 86 морфологических наборов эмпирических данных показал, что общий механизм, предполагаемый эволюционными моделями, используемыми в модельной филогенетике, применим к большинству молекулярных, но к небольшому количеству наборов морфологических данных. ^[25] Это открытие подтверждает использование филогенетики на основе моделей для молекулярных данных, но предполагает, что для морфологических данных экономия остается выгодной, по крайней мере, до тех пор, пока не станут доступны более сложные модели для фенотипических данных.

Альтернативы

Существует несколько других методов вывода филогении на основе данных о дискретных признаках, включая метод максимального правдоподобия и байесовский вывод . Каждый из них имеет потенциальные преимущества и недостатки. На практике эти методы имеют тенденцию отдавать предпочтение деревьям, которые очень похожи на наиболее экономные деревья для того же набора данных; ^[26] однако они позволяют проводить сложное моделирование эволюционных процессов, а классы методов являются статистически последовательными и не подвержены притяжению длинных ветвей . Однако обратите внимание, что эффективность метода правдоподобия и байесовского метода зависит от качества конкретной используемой модели эволюции ; неправильная модель может привести к предвзятому результату, как и экономия. Кроме того, они по-прежнему довольно медленны в вычислительном отношении по сравнению с методами экономии, и иногда для обработки больших наборов данных требуются недели. У большинства этих методов есть особенно ярые сторонники и противники; бережливость особенно пропагандировалась как философски превосходящая (особенно ярые кладисты ). ^{[ нужна цитата ]} Одной из областей, где экономия все еще имеет большое влияние, является анализ морфологических данных, потому что - до недавнего времени - стохастические модели изменения характера не были доступны для немолекулярных данных, и они до сих пор широко не применяются. Недавно было также показано, что бережливость с большей вероятностью восстановит истинное дерево перед лицом глубоких изменений в эволюционных («модельных») параметрах (например, скорости эволюционных изменений) внутри дерева. ^[27]

Матрицы расстояний также можно использовать для создания филогенетических деревьев. Непараметрические методы расстояния первоначально применялись к фенетическим данным с использованием матрицы парных расстояний и согласовывались для создания дерева . Матрица расстояний может быть получена из различных источников, включая иммунологическое расстояние, морфометрический анализ и генетические расстояния . Для филогенетических данных о персонажах необработанные значения расстояний можно рассчитать, просто подсчитав количество парных различий в состояниях персонажей ( Манхэттенское расстояние ) или применив модель эволюции. Примечательно, что дистанционные методы также позволяют использовать данные, которые нелегко преобразовать в характерные данные, например, анализы гибридизации ДНК-ДНК . Сегодня методы, основанные на расстоянии, часто не одобряются, поскольку филогенетически информативные данные могут быть потеряны при преобразовании символов в расстояния. Существует ряд матричных методов расстояний и критериев оптимальности, из которых критерий минимальной эволюции наиболее тесно связан с максимальной экономией.

Минимальная эволюция

Среди дистанционных методов существует критерий филогенетической оценки, известный как минимальная эволюция (ME), который разделяет с максимальной экономией аспект поиска филогении, имеющей наименьшую общую сумму длин ветвей. ^[28]^[29]

Тонкое различие отличает критерий максимальной экономии от критерия ME: в то время как критерий максимальной экономии основан на абдуктивной эвристике, т. е. на правдоподобии простейшей эволюционной гипотезы таксонов по отношению к более сложным, критерий ME основан на Гипотезы Кидда и Сгарамеллы-Зонты (подтвержденные 22 года спустя Ржецким и Неем ^[30] ), утверждающие, что если бы эволюционные расстояния от таксонов были несмещенными оценками истинных эволюционных расстояний, то истинная филогения таксонов имела бы длину короче, чем любая другая альтернативная филогения, совместимая с этими расстояниями. Результаты Ржецкого и Нея освобождают критерий МЭ от принципа бритвы Оккама и придают ему прочную теоретическую и количественную основу. ^[31]