Молекулярная филогенетика ( / mə ˈ lɛ k j ʊ lər ˌ f aɪ l oʊ dʒ ə ˈ nɛ t ɪ k s , mɒ - , m oʊ - / [1] [2] ) — раздел филогении , который анализирует генетические , наследственные молекулярные различия, преимущественно в последовательностях ДНК, для получения информации об эволюционных связях организма. Из этих анализов можно определить процессы, посредством которых было достигнуто разнообразие среди видов. Результат молекулярно- филогенетического анализа выражается в филогенетическом дереве . Молекулярная филогенетика — один из аспектов молекулярной систематики , более широкого термина, который также включает использование молекулярных данных в таксономии и биогеографии . [3] [4] [5]
Молекулярная филогенетика и молекулярная эволюция коррелируют. Молекулярная эволюция — это процесс селективных изменений (мутаций) на молекулярном уровне (гены, белки и т. д.) на различных ветвях древа жизни (эволюция). Молекулярная филогенетика делает выводы об эволюционных связях, которые возникают из-за молекулярной эволюции и приводят к построению филогенетического дерева. [6]
Теоретические основы молекулярной систематики были заложены в 1960-х годах в работах Эмиля Цукеркандля , Эмануэля Марголиаша , Линуса Полинга и Уолтера М. Фитча . [7] Приложения молекулярной систематики были пионерами Чарльза Г. Сибли ( птицы ), Герберта К. Дессауэра ( герпетология ) и Морриса Гудмана ( приматы ), за которыми последовали Аллан К. Уилсон , Роберт К. Селандер и Джон К. Авизе (которые изучали различные группы). Работа с электрофорезом белков началась около 1956 года. Хотя результаты не были количественными и изначально не улучшили морфологическую классификацию, они дали заманчивые намеки на то, что давние представления о классификациях птиц , например, нуждались в существенном пересмотре. В период 1974–1986 годов ДНК-ДНК гибридизация была доминирующей техникой, используемой для измерения генетических различий. [8]
Ранние попытки молекулярной систематики также назывались хемотаксономией и использовали белки, ферменты , углеводы и другие молекулы, которые были разделены и охарактеризованы с помощью таких методов, как хроматография . В последнее время их в значительной степени заменило секвенирование ДНК , которое производит точные последовательности нуклеотидов или оснований в сегментах ДНК или РНК, извлеченных с помощью различных методов. В целом, они считаются лучшими для эволюционных исследований, поскольку действия эволюции в конечном итоге отражаются в генетических последовательностях. В настоящее время секвенирование всей ДНК организма (его генома ) по-прежнему является длительным и дорогостоящим процессом. Однако вполне возможно определить последовательность определенной области конкретной хромосомы . Типичные молекулярные систематические анализы требуют секвенирования около 1000 пар оснований . В любом месте внутри такой последовательности основания, обнаруженные в заданном положении, могут различаться между организмами. Конкретная последовательность, обнаруженная в данном организме, называется его гаплотипом . В принципе, поскольку существует четыре базовых типа с 1000 парами оснований, у нас может быть 4 1000 различных гаплотипов. Однако для организмов в пределах определенного вида или в группе родственных видов эмпирически было обнаружено, что только меньшинство участков показывает какие-либо вариации вообще, и большинство обнаруженных вариаций коррелируют, так что количество обнаруженных отдельных гаплотипов относительно невелико. [9]
В молекулярном систематическом анализе гаплотипы определяются для определенной области генетического материала ; используется значительная выборка особей целевого вида или другого таксона ; однако многие текущие исследования основаны на отдельных особях. Также определяются гаплотипы особей близкородственных, но разных таксонов. Наконец, определяются гаплотипы из меньшего числа особей из определенно другого таксона: они называются внешней группой . Затем сравниваются последовательности оснований для гаплотипов. В простейшем случае разница между двумя гаплотипами оценивается путем подсчета количества мест, где они имеют разные основания: это называется количеством замен ( другие виды различий между гаплотипами также могут иметь место, например, вставка участка нуклеиновой кислоты в один гаплотип, который отсутствует в другом). Различие между организмами обычно выражается в виде процентного отклонения путем деления числа замен на число проанализированных пар оснований: есть надежда, что эта мера не будет зависеть от местоположения и длины секвенируемого участка ДНК.
Более старый и вытесненный подход заключался в определении расхождений между генотипами индивидуумов с помощью ДНК-ДНК гибридизации . Преимущество, заявленное в пользу использования гибридизации вместо секвенирования генов, состояло в том, что она основывалась на всем генотипе, а не на отдельных участках ДНК. Современные методы сравнения последовательностей преодолевают это возражение за счет использования нескольких последовательностей.
После определения расхождений между всеми парами образцов полученная треугольная матрица различий подвергается некоторому виду статистического кластерного анализа , а полученная дендрограмма исследуется, чтобы увидеть, кластеризуются ли образцы так, как можно было бы ожидать из текущих представлений о таксономии группы. Любая группа гаплотипов, которые все более похожи друг на друга, чем любой из них похож на любой другой гаплотип, может считаться кладой , которую можно визуально представить, как показано на рисунке справа. Статистические методы, такие как бутстреппинг и jackknifing, помогают в предоставлении оценок надежности для позиций гаплотипов в эволюционных деревьях.
Каждый живой организм содержит дезоксирибонуклеиновую кислоту ( ДНК ), рибонуклеиновую кислоту ( РНК ) и белки . В целом, близкородственные организмы имеют высокую степень сходства в молекулярной структуре этих веществ, в то время как молекулы организмов, находящихся в отдаленном родстве, часто демонстрируют картину несходства. Ожидается, что консервативные последовательности, такие как митохондриальная ДНК, будут накапливать мутации с течением времени, и, предполагая постоянную скорость мутаций, предоставляют молекулярные часы для датирования расхождения. Молекулярная филогения использует такие данные для построения «дерева взаимоотношений», которое показывает вероятную эволюцию различных организмов. С изобретением секвенирования по Сэнгеру в 1977 году стало возможным изолировать и идентифицировать эти молекулярные структуры. [10] [11] Высокопроизводительное секвенирование также может использоваться для получения транскриптома организма, позволяя делать выводы о филогенетических связях с использованием транскриптомных данных .
Наиболее распространенным подходом является сравнение гомологичных последовательностей генов с использованием методов выравнивания последовательностей для выявления сходства. Другое применение молекулярной филогении — это ДНК-штрихкодирование , где вид отдельного организма идентифицируется с использованием небольших участков митохондриальной ДНК или хлоропластной ДНК . Другое применение методов, которые делают это возможным, можно увидеть в очень ограниченной области генетики человека, например, все более популярное использование генетического тестирования для определения отцовства ребенка , а также возникновение новой ветви криминалистической экспертизы, ориентированной на доказательства, известной как генетическая дактилоскопия .
Существует несколько методов, доступных для проведения молекулярного филогенетического анализа. Один из методов, включающий комплексный пошаговый протокол построения филогенетического дерева, включая сборку смежных последовательностей ДНК/аминокислот, множественное выравнивание последовательностей , модельный тест (тестирование наиболее подходящих моделей замещения) и реконструкцию филогении с использованием максимального правдоподобия и байесовского вывода, доступен на Nature Protocol. [12]
Другой метод молекулярного филогенетического анализа был описан Певзнером и будет кратко изложен в следующих предложениях (Певзнер, 2015). Филогенетический анализ обычно состоит из пяти основных этапов. Первый этап включает получение последовательности. Следующий этап состоит из выполнения множественного выравнивания последовательностей, что является фундаментальной основой построения филогенетического дерева. Третий этап включает различные модели замены ДНК и аминокислот. Существует несколько моделей замены. Несколько примеров включают расстояние Хэмминга , однопараметрическую модель Джукса и Кантора и двухпараметрическую модель Кимуры (см. Модели эволюции ДНК ). Четвертый этап состоит из различных методов построения дерева, включая методы, основанные на расстоянии и на признаках. Нормализованное расстояние Хэмминга и формулы коррекции Джукса-Кантора обеспечивают степень расхождения и вероятность того, что один нуклеотид изменится на другой, соответственно. Распространенные методы построения деревьев включают невзвешенный метод парных групп с использованием арифметического среднего ( UPGMA ) и метод объединения соседей , которые являются методами, основанными на расстоянии, метод максимальной экономии , который является методом, основанным на символах, и метод оценки максимального правдоподобия и байесовский вывод , которые являются методами, основанными на символах/моделях. UPGMA — простой метод; однако он менее точен, чем подход объединения соседей. Наконец, последний шаг включает оценку деревьев. Эта оценка точности состоит из согласованности, эффективности и надежности. [13]
MEGA (молекулярно-эволюционный генетический анализ) — это программное обеспечение для анализа, которое удобно для пользователя и бесплатно для загрузки и использования. Это программное обеспечение способно анализировать как методологии деревьев на основе расстояний, так и методологии деревьев на основе символов. MEGA также содержит несколько опций, которые можно использовать, например, эвристические подходы и бутстраппинг. Бутстраппинг — это подход, который обычно используется для измерения надежности топологии в филогенетическом дереве, который демонстрирует процент поддержки каждой клады после многочисленных репликаций. В целом, значение, превышающее 70%, считается значимым. Блок-схема, представленная справа, наглядно демонстрирует порядок пяти описанных этапов метода молекулярно-филогенетического анализа Певзнера. [13]
Молекулярная систематика по сути является кладистическим подходом: она предполагает, что классификация должна соответствовать филогенетическому происхождению, и что все валидные таксоны должны быть монофилетическими . Это ограничение при попытке определить оптимальное дерево(а), которое часто включает в себя деление пополам и повторное соединение частей филогенетического дерева(ов).
Недавнее открытие обширного горизонтального переноса генов между организмами значительно усложняет молекулярную систематику, указывая на то, что разные гены в пределах одного организма могут иметь разные филогении. Горизонтальный перенос генов можно обнаружить и исключить с помощью ряда филогенетических методов (см. Вывод о горизонтальном переносе генов § Явные филогенетические методы ).
Кроме того, молекулярные филогении чувствительны к предположениям и моделям, которые используются для их создания. Во-первых, последовательности должны быть выровнены; затем должны быть решены такие проблемы, как притяжение длинных ветвей , насыщение и проблемы выборки таксонов . Это означает, что можно получить поразительно разные результаты, применяя разные модели к одному и тому же набору данных. [14] [15] Метод построения дерева также приносит с собой определенные предположения о топологии дерева, скорости эволюции и выборке. Упрощенный UPGMA предполагает корневое дерево и однородные молекулярные часы, оба из которых могут быть неверными. [13]