stringtranslate.com

Модели эволюции ДНК

Был предложен ряд различных марковских моделей эволюции последовательности ДНК . [1] Эти модели замещения различаются параметрами, используемыми для описания скорости, с которой один нуклеотид заменяет другой в ходе эволюции. Эти модели часто используются в молекулярно-филогенетическом анализе . В частности, они используются при расчете правдоподобия дерева (в байесовском подходе и подходе максимального правдоподобия к оценке дерева) и для оценки эволюционного расстояния между последовательностями на основе наблюдаемых различий между последовательностями.

Введение

Эти модели представляют собой феноменологическое описание эволюции ДНК как цепочки из четырех дискретных состояний. Эти марковские модели не отражают ни механизм мутации, ни действие естественного отбора. Скорее они описывают относительные скорости различных изменений. Например, мутационные предвзятости и очищающий отбор в пользу консервативных изменений, вероятно, ответственны за относительно высокую скорость переходов по сравнению с трансверсиями в развивающихся последовательностях. Однако модель Кимуры (K80), описанная ниже, пытается лишь уловить влияние обеих сил в параметре, который отражает относительную скорость перехода к трансверсиям.

Эволюционный анализ последовательностей проводится в самых разных временных масштабах. Таким образом, эти модели удобно выражать через мгновенные скорости изменения между различными состояниями ( матрицы Q ниже). Если нам даны начальное (предковое) состояние в одной позиции, матрица Q модели и длина ветви, выражающая ожидаемое количество изменений, которые произошли со времени предка, то мы можем вывести вероятность того, что последовательность потомков будет иметь каждый из четырех состояния. Математические детали этого преобразования из матрицы ставок в матрицу вероятностей описаны в разделе математики моделей замещения на странице модели замещения . Выражая модели в терминах мгновенных скоростей изменений, мы можем избежать оценки большого количества параметров для каждой ветви филогенетического дерева (или каждого сравнения, если анализ включает в себя множество парных сравнений последовательностей).

Модели, описанные на этой странице, описывают эволюцию одного сайта в наборе последовательностей. Их часто используют для анализа эволюции целого локуса, делая упрощающее предположение, что разные сайты развиваются независимо и одинаково распределены . Это предположение может быть оправданным, если можно предположить, что сайты развиваются нейтрально . Если основным эффектом естественного отбора на эволюцию последовательностей является ограничение некоторых сайтов, то можно использовать модели гетерогенности скорости между сайтами. Этот подход позволяет оценить только одну матрицу относительных скоростей замещения и другой набор параметров, описывающих дисперсию общей скорости замещения по сайтам.

Эволюция ДНК как цепь Маркова с непрерывным временем

Цепи Маркова с непрерывным временем

Цепи Маркова с непрерывным временем имеют обычные матрицы переходов, которые, кроме того, параметризуются временем . В частности, если состояния, то матрица перехода

где каждая отдельная запись относится к вероятности того, что состояние изменится на состояние со временем .

Пример: Мы хотели бы смоделировать процесс замещения в последовательностях ДНК ( например, Джукса-Кантора , Кимуры и т. д. ) в непрерывном режиме. Соответствующие матрицы перехода будут иметь вид:

где верхний левый и нижний правый блоки 2 × 2 соответствуют вероятностям перехода , а верхний правый и нижний левый блоки 2 × 2 соответствуют вероятностям трансверсии .

Предположение: Если в некоторый момент времени цепь Маркова находится в состоянии , то вероятность того, что в момент времени она будет в состоянии, зависит только от , и . Это позволяет нам записать эту вероятность как .

Теорема: Матрицы перехода с непрерывным временем удовлетворяют:

Примечание. Здесь возможна путаница между двумя значениями слова « переход» . (i) В контексте цепей Маркова переход — это общий термин, обозначающий переход между двумя состояниями. (ii) В контексте нуклеотидных изменений в последовательностях ДНК переход — это особый термин, обозначающий обмен либо между двумя пуринами (A ↔ G), либо двумя пиримидинами (C ↔ T) (дополнительную информацию см. в статье о переходах ). по генетике ). Напротив, обмен между одним пуриновым и одним пиримидиновым называется трансверсией .

Вывод динамики замещения

Рассмотрим последовательность ДНК фиксированной длины m , эволюционирующую во времени за счет замены оснований. Предположим, что процессы, сопровождаемые m узлами, независимы по марковски, одинаково распределены и что этот процесс постоянен во времени. Для конкретного сайта пусть

быть набором возможных состояний сайта, и

их соответствующие вероятности в данный момент времени . Для двух различных пусть будет скорость перехода из состояния в состояние . Аналогично, для любого пусть общая скорость изменения от будет

Изменения в распределении вероятностей для малых приращений времени определяются выражением

Другими словами (на языке частотности), частота 's в момент времени равна частоте в момент времени минус частота потерянных ' s' плюс частота вновь созданных '''.

Аналогично для вероятностей , и . Эти уравнения можно компактно записать в виде

где

известна как матрица ставок . Обратите внимание, что по определению сумма записей в каждой строке равна нулю. Следует, что

Для стационарного процесса где не зависит от времени t это дифференциальное уравнение можно решить. Первый,

где обозначает экспоненту матрицы . Как результат,

Эргодичность

Если цепь Маркова неприводима [ разорванный якорь ] , т. е. если всегда можно перейти из состояния в состояние (возможно, за несколько шагов), то она также эргодична . В результате он имеет уникальное стационарное распределение , где соответствует доле времени, проведенного в состоянии после того, как цепь Маркова проработала бесконечное количество времени. В эволюции ДНК, в предположении общего процесса для каждого сайта, стационарные частоты соответствуют равновесному составу оснований. Действительно, обратите внимание, что, поскольку стационарное распределение удовлетворяет , мы видим, что, когда текущее распределение является стационарным, мы имеем

Другими словами, частоты не меняются.

Обратимость времени

Определение : Стационарный марковский процесс является обратимым во времени, если (в установившемся состоянии) величина изменения от состояния до равна величине изменения от до (хотя эти два состояния могут возникать с разной частотой). Это значит, что:

Не все стационарные процессы обратимы, однако наиболее часто используемые модели эволюции ДНК предполагают обратимость во времени, что считается разумным предположением.

В предположении обратимости времени пусть , тогда легко видеть, что:

Определение. Симметричным термином называется возможность обмена между состояниями и . Другими словами, это доля частоты состояния , являющаяся результатом переходов из состояния в состояние .

Следствие. 12 недиагональных элементов матрицы ставок (обратите внимание, что недиагональные элементы определяют диагональные элементы, поскольку строки суммы равны нулю) могут быть полностью определены 9 числами; это: 6 членов взаимозаменяемости и 3 стационарные частоты (поскольку сумма стационарных частот равна 1).

Масштабирование длины ветвей

Сравнивая существующие последовательности, можно определить степень расхождения последовательностей. Это необработанное измерение расхождения предоставляет информацию о количестве изменений, произошедших на пути, разделяющем последовательности. Простой подсчет различий ( расстояние Хэмминга ) между последовательностями часто приводит к недооценке количества замен из-за множественных совпадений (см. гомоплазия ). Попытка оценить точное количество произошедших изменений сложна, и обычно в этом нет необходимости. Вместо этого длины ветвей (и длины путей) в филогенетическом анализе обычно выражаются в ожидаемом количестве изменений на сайт. Длина пути — это произведение продолжительности пути во времени и средней скорости замен. Хотя их произведение можно оценить, скорость и время невозможно определить по расхождению последовательностей.

Описания матриц скоростей на этой странице точно отражают относительную величину различных замен, но эти матрицы скоростей не масштабированы таким образом, чтобы длина ветви, равная 1, давала одно ожидаемое изменение. Это масштабирование может быть достигнуто путем умножения каждого элемента матрицы на один и тот же коэффициент или просто путем масштабирования длин ветвей. Если мы используем β для обозначения масштабного коэффициента и ν для обозначения длины ветви, измеряемой в ожидаемом количестве замен на сайт, тогда βν используется в формулах вероятности перехода ниже вместо µ t . Обратите внимание, что ν — это параметр, который необходимо оценить на основе данных, и он называется длиной ветки, а β — это просто число, которое можно вычислить из матрицы скоростей (это не отдельный свободный параметр).

Значение β можно найти, придав ожидаемую скорость потока состояний равной 1. Диагональные элементы матрицы скоростей ( матрицы Q ) представляют -1-кратную скорость выхода из каждого состояния. Для обратимых во времени моделей мы знаем частоты состояний равновесия (это просто значение параметра π i для состояния i ). Таким образом, мы можем найти ожидаемую скорость изменений, рассчитав сумму потоков из каждого состояния, взвешенную по доле сайтов, которые, как ожидается, будут принадлежать этому классу. Установка β как обратной величины этой суммы будет гарантировать, что масштабированный процесс будет иметь ожидаемый поток, равный 1:

Например, в алгоритме Джукса-Кантора масштабный коэффициент будет равен 4/(3μ), поскольку скорость выхода из каждого состояния равна 3μ/4 .

Наиболее распространенные модели эволюции ДНК

Модель JC69 (Jukes and Cantor 1969)

JC69, модель Джукса и Кантора 1969 года, [2] является простейшей моделью замещения . Есть несколько предположений. Он предполагает равные базовые частоты и равные скорости мутаций . Таким образом, единственным параметром этой модели является общий коэффициент замещения. Как упоминалось ранее, эта переменная становится константой, когда мы нормализуем среднюю скорость до 1.

Вероятность перехода из начального состояния в конечное в зависимости от длины ветви ( ) для JC69. Красная кривая: состояния нуклеотидов и различны. Синяя кривая: начальное и конечное состояния одинаковы. По прошествии длительного времени вероятности стремятся к равновесным частотам нуклеотидов (0,25: пунктирная линия).

Когда длина ветки измеряется ожидаемым количеством изменений на сайт, тогда:

Стоит отметить, что это означает сумму любого столбца (или строки) матрицы , умноженную на время, и, таким образом, означает ожидаемое количество замен во времени (длительность ветвления) для каждого конкретного сайта (на сайт), когда скорость замены равна .

Учитывая долю сайтов, которые различаются между двумя последовательностями, оценка Джукса-Кантора эволюционного расстояния (с точки зрения ожидаемого числа изменений) между двумя последовательностями определяется выражением

В этой формуле часто называют -расстоянием . Это достаточная статистика для расчета поправки на расстояние Джукса – Кантора, но недостаточна для расчета эволюционного расстояния в рамках последующих более сложных моделей (также обратите внимание, что используемое в последующих формулах не идентично « -расстоянию»). .

Модель К80 (Кимура 1980 г.)

K80, модель Кимуры 1980 года, [3] , часто называемая двухпараметрической моделью Кимуры (или моделью K2P ), различает переходы ( т.е. от пурина к пурину или т.е. от пиримидина к пиримидину) и трансверсии (от пурина к пиримидину) и трансверсии (от пурина к пиримидину ). пиримидин или наоборот). В первоначальном описании модели Кимурой α и β использовались для обозначения скоростей этих типов замен, но теперь более распространено устанавливать скорость трансверсий равной 1 и использовать κ для обозначения соотношения скоростей перехода/трансверсии (как сделано ниже). Модель K80 предполагает, что все основания имеют одинаковую частоту ( ).

Матрица ставок со столбцами , соответствующими , , и соответственно.

Двухпараметрическое расстояние Кимуры определяется выражением:

где p — доля сайтов, демонстрирующих переходные различия, а q — доля сайтов, демонстрирующих трансверсионные различия.

Модель К81 (Кимура 1981 г.)

K81, модель Кимуры 1981 года, [4] часто называемая трехпараметрической моделью Кимуры (модель K3P) или моделью трех типов замещения Кимуры (K3ST), имеет разные скорости переходов и два различных типа трансверсий . Двумя типами трансверсии являются те, которые сохраняют слабые/сильные свойства нуклеотидов (т.е. и , обозначенные символом [4] ), и те, которые сохраняют амино/кето-свойства нуклеотидов (т.е. и , обозначенные символом [4]). ] ). Модель K81 предполагает, что все равновесные базовые частоты равны (т.е. ).

Матрица ставок со столбцами , соответствующими , , и соответственно.

Модель K81 используется гораздо реже, чем модель K80 (K2P) для оценки расстояний, и она редко является наиболее подходящей моделью в филогенетике максимального правдоподобия. Несмотря на эти факты, модель K81 продолжает изучаться в контексте математической филогенетики. [5] [6] [7] Одним из важных свойств является способность выполнять преобразование Адамара , предполагая, что шаблоны сайтов были созданы на дереве с нуклеотидами, развивающимися в соответствии с моделью K81. [8] [9] [10]

При использовании в контексте филогенетики преобразование Адамара обеспечивает элегантный и полностью обратимый способ расчета ожидаемых частот шаблонов сайтов с учетом набора длин ветвей (или наоборот). В отличие от многих вычислений максимального правдоподобия, относительные значения , и могут варьироваться в зависимости от ветвей, а преобразование Адамара может даже свидетельствовать о том, что данные не соответствуют дереву. Преобразование Адамара также можно комбинировать с широким спектром методов для учета неоднородности показателей между сайтами [11] с использованием непрерывных распределений, а не дискретных приближений, обычно используемых в филогенетике максимального правдоподобия [12] (хотя нужно пожертвовать обратимостью Преобразование Адамара для использования определенных распределений неоднородности ставок между сайтами [11] ).

Модель F81 (Фельзенштейн, 1981 г.)

F81, модель Фельзенштейна 1981 года, [13] является расширением модели JC69, в которой базовые частоты могут варьироваться от 0,25 ( )

Матрица тарифов:

Когда длина ветки ν измеряется ожидаемым количеством изменений на сайт, тогда:

Модель HKY85 (Хасэгава, Кишино и Яно 1985 г.)

HKY85, модель Hasegawa, Kishino and Yano 1985, [14] можно рассматривать как объединение расширений, сделанных в моделях Kimura80 и Felsenstein81. А именно, он различает скорость переходов и трансверсий (с использованием параметра κ) и допускает неравные базовые частоты ( ). [ Фельзенштейн описал аналогичную (но не эквивалентную) модель в 1984 году, используя другую параметризацию; В [15] эта последняя модель называется моделью F84. [16] ]

Матрица ставок

Если мы выразим длину ветки ν через ожидаемое количество изменений на сайт, то:

а формулу для других комбинаций состояний можно получить, подставив соответствующие базовые частоты.

Модель Т92 (Тамура 1992 г.)

T92, модель Тамуры 1992 года, [17] представляет собой математический метод, разработанный для оценки количества нуклеотидных замен на сайт между двумя последовательностями ДНК путем расширения двухпараметрического метода Кимуры (1980) на случай, когда существует смещение содержания G + C. . Этот метод будет полезен, когда есть сильные смещения переход-трансверсия и содержание G + C, как в случае с митохондриальной ДНК дрозофилы . [17]

T92 включает в себя один составной параметр базовой частоты (также отмечено ).

Поскольку T92 повторяет второе правило четности Чаргаффа — спаривающиеся нуклеотиды действительно имеют одинаковую частоту в одной цепи ДНК, G и C с одной стороны, а A и T с другой стороны — из этого следует, что четыре основные частоты могут быть выражены как функция

и

Матрица ставок

Эволюционное расстояние между двумя последовательностями ДНК согласно этой модели определяется выражением

где и – содержание G+C ( ).

Модель TN93 (Тамура и Ней, 1993 г.)

TN93, модель Тамуры и Нея 1993 года, [18] различает два разных типа перехода ; т.е. ( ) может иметь скорость, отличную от ( ). Предполагается, что все трансверсии происходят с одинаковой скоростью, но эта скорость может отличаться от обеих скоростей переходов.

TN93 также допускает неравные базовые частоты ( ).

Матрица ставок

Модель GTR (Таваре, 1986 г.)

ОТО, обобщенная обратимая во времени модель Таваре 1986, [19] является наиболее общей нейтральной, независимой, обратимой во времени моделью с конечными узлами. Впервые в общей форме он был описан Симоном Таваре в 1986 году. [19]

Параметры GTR состоят из равновесного вектора базовой частоты, определяющего частоту, с которой каждая база встречается в каждом месте, и матрицы скоростей

Где

– параметры скорости перехода.

Следовательно, ГТР (для четырех символов, как это часто бывает в филогенетике) требует 6 параметров скорости замещения, а также 4 равновесных параметров базовой частоты. Однако обычно это исключается до 9 параметров плюс общее количество замен в единицу времени. При измерении времени в подстановках ( =1) остается всего 8 свободных параметров.

В общем, чтобы вычислить количество параметров, необходимо подсчитать количество записей выше диагонали в матрице, т. е. для n значений признаков на сайт , а затем добавить n для равновесных базовых частот и вычесть 1, поскольку оно фиксировано. Получаешь

Например, для аминокислотной последовательности (есть 20 «стандартных» аминокислот, составляющих белки ) можно обнаружить 209 параметров. Однако при изучении кодирующих участков генома чаще работают с моделью замены кодонов (кодон состоит из трех оснований и кодирует одну аминокислоту в белке). Кодоны существуют , но скорости переходов между кодонами, отличающимися более чем на одно основание, считаются равными нулю. Значит, есть параметры.

Смотрите также

Рекомендации

  1. ^ Аренас, Мигель (2015). «Тенденции в моделях замещения молекулярной эволюции». Границы генетики . 6 : 319. дои : 10.3389/fgene.2015.00319 . ISSN  1664-8021. ПМЦ  4620419 . ПМИД  26579193.
  2. ^ Джукс Т.Х., Кантор CR (1969). Эволюция белковых молекул . Нью-Йорк: Академическая пресса. стр. 21–132.
  3. ^ Кимура М (декабрь 1980 г.). «Простой метод оценки скорости эволюции оснований посредством сравнительных исследований нуклеотидных последовательностей». Журнал молекулярной эволюции . 16 (2): 111–20. Бибкод : 1980JMolE..16..111K. дои : 10.1007/BF01731581. PMID  7463489. S2CID  19528200.
  4. ^ abc Кимура М (январь 1981 г.). «Оценка эволюционных расстояний между гомологичными нуклеотидными последовательностями». Труды Национальной академии наук Соединенных Штатов Америки . 78 (1): 454–8. Бибкод : 1981PNAS...78..454K. дои : 10.1073/pnas.78.1.454 . ПМК 319072 . ПМИД  6165991. 
  5. ^ Башфорд Дж.Д., Джарвис П.Д., Самнер Дж.Г., Стил Массачусетс (25 февраля 2004 г.). «U (1) × U (1) × U (1) симметрия модели Кимуры 3ST и процессы филогенетического ветвления». Журнал физики A: Математический и общий . 37 (8): Л81–Л89. arXiv : q-bio/0310037 . дои : 10.1088/0305-4470/37/8/L01. S2CID  7845860.
  6. ^ Самнер Дж.Г., Чарльстон М.А., Джермин Л.С., Джарвис П.Д. (август 2008 г.). «Марковские инварианты, плетизмы и филогенетика». Журнал теоретической биологии . 253 (3): 601–15. arXiv : 0711.3503 . Бибкод : 2008JThBi.253..601S. дои : 10.1016/j.jtbi.2008.04.001. PMID  18513747. S2CID  6851591.
  7. ^ Самнер Дж.Г., Джарвис П.Д., Голландия БР (декабрь 2014 г.). «Тензорный подход к инверсии групповых филогенетических моделей». Эволюционная биология BMC . 14 (1): 236. дои : 10.1186/s12862-014-0236-6 . ПМК 4268818 . ПМИД  25472897. 
  8. ^ Хенди, доктор медицины, Пенни Д., Стил, Массачусетс (апрель 1994 г.). «Дискретный анализ Фурье эволюционных деревьев». Труды Национальной академии наук Соединенных Штатов Америки . 91 (8): 3339–43. Бибкод : 1994PNAS...91.3339H. дои : 10.1073/pnas.91.8.3339 . ПМК 43572 . ПМИД  8159749. 
  9. ^ Хенди, доктор медицины (2005). «Сопряжение Адамара: аналитический инструмент филогенетики». В Гаскуэле О (ред.). Математика эволюции и филогении . Издательство Оксфордского университета. стр. 143–177. ISBN 978-0198566106.
  10. ^ Хенди, доктор медицины, Снир С. (июль 2008 г.). «Сопряжение Адамара для модели Кимуры 3ST: комбинаторное доказательство с использованием наборов путей». Транзакции IEEE/ACM по вычислительной биологии и биоинформатике . 5 (3): 461–71. arXiv : q-bio/0505055 . дои : 10.1109/TCBB.2007.70227. PMID  18670048. S2CID  20633916.
  11. ^ аб Уодделл П.Дж., Пенни Д., Мур Т. (август 1997 г.). «Адамаровы конъюгации и моделирование эволюции последовательностей с неравной скоростью в разных сайтах». Молекулярная филогенетика и эволюция . 8 (1): 33–50. дои : 10.1006/mpev.1997.0405. ПМИД  9242594.
  12. ^ Ян Z (сентябрь 1994 г.). «Филогенетическая оценка максимального правдоподобия по последовательностям ДНК с переменной скоростью в разных сайтах: приближенные методы». Журнал молекулярной эволюции . 39 (3): 306–14. Бибкод : 1994JMolE..39..306Y. CiteSeerX 10.1.1.305.951 . дои : 10.1007/BF00160154. PMID  7932792. S2CID  17911050. 
  13. ^ Фельзенштейн Дж (1981). «Эволюционные деревья на основе последовательностей ДНК: подход максимального правдоподобия». Журнал молекулярной эволюции . 17 (6): 368–76. Бибкод : 1981JMolE..17..368F. дои : 10.1007/BF01734359. PMID  7288891. S2CID  8024924.
  14. ^ Хасэгава М, Кишино Х, Яно Т (1985). «Датировка расщепления человека и обезьяны по молекулярным часам митохондриальной ДНК». Журнал молекулярной эволюции . 22 (2): 160–74. Бибкод : 1985JMolE..22..160H. дои : 10.1007/BF02101694. PMID  3934395. S2CID  25554168.
  15. ^ Кишино Х, Хасэгава М (август 1989 г.). «Оценка максимального правдоподобия топологий эволюционного дерева на основе данных о последовательностях ДНК и порядка ветвления у гоминоидов». Журнал молекулярной эволюции . 29 (2): 170–9. Бибкод : 1989JMolE..29..170K. дои : 10.1007/BF02100115. PMID  2509717. S2CID  8045061.
  16. ^ Фельзенштейн Дж., Черчилль Г.А. (январь 1996 г.). «Подход скрытой марковской модели к вариациям скорости эволюции между участками». Молекулярная биология и эволюция . 13 (1): 93–104. doi : 10.1093/oxfordjournals.molbev.a025575 . hdl : 1813/31897 . ПМИД  8583911.
  17. ^ аб Тамура К. (июль 1992 г.). «Оценка количества нуклеотидных замен при наличии сильных смещений перехода-трансверсии и содержания G + C». Молекулярная биология и эволюция . 9 (4): 678–87. doi : 10.1093/oxfordjournals.molbev.a040752 . ПМИД  1630306.
  18. ^ Тамура К., Ней М. (май 1993 г.). «Оценка количества нуклеотидных замен в контрольной области митохондриальной ДНК человека и шимпанзе». Молекулярная биология и эволюция . 10 (3): 512–26. doi : 10.1093/oxfordjournals.molbev.a040023 . ПМИД  8336541.
  19. ^ аб Таваре С (1986). «Некоторые вероятностные и статистические проблемы анализа последовательностей ДНК» (PDF) . Лекции по математике в науках о жизни . 17 : 57–86.

дальнейшее чтение

Внешние ссылки