Теория коалесценции

Теория коалесценции — это модель того, как аллели, отобранные из популяции , могли произойти от общего предка . В простейшем случае теория коалесценции не предполагает рекомбинации , естественного отбора , потока генов или структуры популяции , что означает, что каждый вариант с равной вероятностью мог быть передан от одного поколения к другому. Модель смотрит назад во времени, объединяя аллели в одну предковую копию в соответствии со случайным процессом в событиях коалесценции. Согласно этой модели, ожидаемое время между последовательными событиями коалесценции увеличивается почти экспоненциально назад во времени (с большой дисперсией ). Дисперсия в модели возникает как из-за случайной передачи аллелей от одного поколения к другому, так и из-за случайного возникновения мутаций в этих аллелях.

Математическая теория коалесценции была разработана независимо несколькими группами в начале 1980-х годов как естественное расширение классической теории и моделей популяционной генетики , ^[1]^[2]^[3]^[4], но ее можно в первую очередь отнести к Джону Кингману . ^[5] Достижения в теории коалесценции включают рекомбинацию, отбор, перекрывающиеся поколения и практически любую произвольно сложную эволюционную или демографическую модель в популяционном генетическом анализе.

Модель может быть использована для создания множества теоретических генеалогий, а затем для сравнения наблюдаемых данных с этими симуляциями для проверки предположений о демографической истории популяции. Коалесцентная теория может быть использована для выводов о генетических параметрах популяции, таких как миграция, размер популяции и рекомбинация.

Теория

Время для слияния

Рассмотрим один локус гена, взятый из двух гаплоидных особей в популяции. Родословная этого образца прослеживается назад во времени до точки, где эти две линии объединяются в их самом последнем общем предке (MRCA). Теория объединения стремится оценить ожидание этого периода времени и его дисперсию.

Вероятность того, что две линии объединятся в непосредственно предшествующем поколении, является вероятностью того, что они разделяют родительскую последовательность ДНК . В популяции с постоянным эффективным размером популяции с 2 N _e копиями каждого локуса, в предыдущем поколении имеется 2 N _e «потенциальных родителей». В модели случайного спаривания вероятность того, что два аллеля происходят из одной и той же родительской копии, составляет 1/(2 N _e ), и, соответственно, вероятность того, что они не объединятся, составляет 1 − 1/(2 N _e ).

В каждом последующем предшествующем поколении вероятность слияния распределена геометрически , то есть это вероятность отсутствия слияния в t − 1 предшествующих поколениях, умноженная на вероятность слияния в интересующем нас поколении:

P_{c}(t)=\left(1-{\frac {1}{2N_{e}}}\right)^{t-1}\left({\frac {1}{2N_{e}}}\right).

При достаточно больших значениях N _e это распределение хорошо аппроксимируется непрерывно определенным экспоненциальным распределением

P_{c}(t)={\frac {1}{2N_{e}}}e^{-{\frac {t-1}{2N_{e}}}}.

Это удобно с математической точки зрения, поскольку стандартное экспоненциальное распределение имеет как ожидаемое значение , так и стандартное отклонение, равные 2 N _e . Поэтому, хотя ожидаемое время до слияния равно 2 N _e , фактическое время слияния имеет широкий диапазон вариаций. Обратите внимание, что время слияния — это число предшествующих поколений, в которых произошло слияние, а не календарное время, хотя оценку последнего можно сделать, умножив 2 N _e на среднее время между поколениями. Приведенные выше расчеты в равной степени применимы к диплоидной популяции эффективного размера N _e (другими словами, для нерекомбинирующего сегмента ДНК каждая хромосома может рассматриваться как эквивалент независимой гаплоидной особи; при отсутствии инбридинга сестринские хромосомы у одной особи не более тесно связаны, чем две хромосомы, случайно выбранные из популяции). Однако некоторые эффективно гаплоидные элементы ДНК, такие как митохондриальная ДНК , передаются только одним полом и, следовательно, имеют одну четверть эффективного размера эквивалентной диплоидной популяции ( N _e /2)

Математический объект, который формально получается, если N _e стремится к бесконечности, известен как слияние Кингмана. ^[1]

Нейтральная вариация

Теория коалесценции также может быть использована для моделирования количества вариаций в последовательностях ДНК, ожидаемых от генетического дрейфа и мутации. Это значение называется средней гетерозиготностью , представленной как . Средняя гетерозиготность рассчитывается как вероятность возникновения мутации в данном поколении, деленная на вероятность любого «события» в этом поколении (мутации или коалесценции). Вероятность того, что событие является мутацией, — это вероятность мутации в любой из двух линий: . Таким образом, средняя гетерозиготность равна ${\bar {H}}$ $2\мю$

{\begin{align}{\bar {H}}&={\frac {2\mu }{2\mu +{\frac {1}{2N_{e}}}}}\\[6pt]&={\frac {4N_{e}\mu }{1+4N_{e}\mu }}\\[6pt]&={\frac {\theta }{1+\theta }}\end{align}}

Для подавляющего большинства пар аллелей существует по крайней мере одно различие в последовательности нуклеотидов . $4N_{e}\mu \gg 1$

Расширения

Существуют многочисленные расширения модели коалесценции, такие как Λ-коалесценция, которая допускает возможность мультифуркаций. ^[6]

Графическое представление

Слияния можно визуализировать с помощью дендрограмм , которые показывают взаимосвязь ветвей популяции друг с другом. Точка, где встречаются две ветви, указывает на событие слияния.

Приложения

Картирование генов болезней

Полезность теории коалесценции в картировании заболеваний постепенно получает все большее признание; хотя применение теории все еще находится в зачаточном состоянии, есть ряд исследователей, которые активно разрабатывают алгоритмы для анализа генетических данных человека, использующие теорию коалесценции. ^[7]^[8]^[9]

Значительное количество заболеваний человека можно отнести к генетике, от простых менделевских болезней, таких как серповидноклеточная анемия и кистозный фиброз , до более сложных недугов, таких как рак и психические заболевания. Последние являются полигенными заболеваниями, контролируемыми несколькими генами, которые могут возникать на разных хромосомах, но заболевания, которые вызваны одной аномалией, относительно просто определить и отследить – хотя не так просто, чтобы это было достигнуто для всех болезней. Для понимания этих заболеваний и их процессов чрезвычайно полезно знать, где они расположены на хромосомах , и как они наследуются через поколения семьи, что можно сделать с помощью коалесцентного анализа. ^[2]

Генетические заболевания передаются из поколения в поколение, как и другие гены. Хотя любой ген может быть перемещен из одной хромосомы в другую во время гомологичной рекомбинации , маловероятно, что будет перемещен только один ген. Таким образом, другие гены, которые находятся достаточно близко к гену заболевания, чтобы быть связанными с ним, могут быть использованы для его отслеживания. ^[2]

Полигенные заболевания имеют генетическую основу, хотя они и не следуют менделевским моделям наследования, и они могут иметь относительно высокую распространенность в популяциях и иметь серьезные последствия для здоровья. Такие заболевания могут иметь неполную пенетрантность и, как правило, являются полигенными , что затрудняет их изучение. Эти признаки могут возникать из-за множества небольших мутаций, которые вместе оказывают серьезное и пагубное воздействие на здоровье человека. ^[3]

Методы картирования сцепления, включая теорию коалесцента, могут быть использованы для работы с этими заболеваниями, поскольку они используют семейные родословные, чтобы выяснить, какие маркеры сопровождают заболевание и как оно наследуется. По крайней мере, этот метод помогает сузить часть или части генома, в которых могут возникнуть вредные мутации. Осложнения в этих подходах включают эпистатические эффекты, полигенную природу мутаций и факторы окружающей среды. При этом гены, эффекты которых являются аддитивными, несут фиксированный риск развития заболевания, и когда они существуют в генотипе заболевания, их можно использовать для прогнозирования риска и картирования гена. ^[3] Как регулярные коалесценты, так и разрушенные коалесценты (которые допускают, что множественные мутации могли произойти в основополагающем событии, и что заболевание может иногда быть вызвано факторами окружающей среды) были использованы для понимания генов заболеваний. ^[2]

Были проведены исследования, связывающие возникновение заболеваний у разнояйцевых и однояйцевых близнецов, и результаты этих исследований могут быть использованы для информирования о коалесцентном моделировании. Поскольку однояйцевые близнецы разделяют весь свой геном, а разнояйцевые близнецы разделяют только половину своего генома, разницу в корреляции между однояйцевыми и разнояйцевыми близнецами можно использовать для определения того, является ли заболевание наследственным, и если да, то насколько сильно. ^[3]

Геномное распределение гетерозиготности

Карта полиморфизма одного нуклеотида (SNP) человека выявила большие региональные вариации гетерозиготности, более существенные, чем можно объяснить на основе ( распределенной Пуассоном ) случайной случайности. ^[10] Частично эти вариации можно объяснить на основе методов оценки, доступности геномных последовательностей и, возможно, стандартной коалесцентной популяционной генетической модели. Влияние популяционной генетики может иметь большое влияние на эту вариацию: некоторые локусы предположительно будут иметь сравнительно недавних общих предков, другие могут иметь гораздо более древние генеалогии, и поэтому региональное накопление SNP с течением времени может быть совершенно иным. Локальная плотность SNP вдоль хромосом, по-видимому, кластеризуется в соответствии с дисперсией к среднему степенному закону и подчиняется составному распределению Пуассона Твиди . ^[11] В этой модели региональные вариации на карте SNP объясняются накоплением множества небольших геномных сегментов посредством рекомбинации, где среднее количество SNP на сегмент будет гамма-распределено пропорционально гамма-распределенному времени до самого последнего общего предка для каждого сегмента. ^[12]

История

Коалесцентная теория является естественным продолжением более классической концепции нейтральной эволюции популяционной генетики и является приближением к модели Фишера–Райта (или Райта–Фишера) для больших популяций. Она была открыта независимо несколькими исследователями в 1980-х годах. ^[13]^[14]^[15]^[16]

Программное обеспечение

Существует большой массив программного обеспечения как для моделирования наборов данных в процессе объединения, так и для выведения таких параметров, как размер популяции и скорость миграции, из генетических данных.

BEAST и BEAST 2 – пакет байесовского вывода через MCMC с широким спектром коалесцентных моделей, включая использование последовательностей с временной выборкой. ^[17]
BPP – программный пакет для определения филогении и времени расхождения популяций в процессе многовидового слияния.
CoaSim – программное обеспечение для моделирования генетических данных по коалесцентной модели.
DIYABC – удобный подход к ABC для вывода об истории популяции с использованием молекулярных маркеров. ^[18]
DendroPy – библиотека Python для филогенетических вычислений с классами и методами для моделирования чистых (неограниченных) коалесцентных деревьев, а также ограниченных коалесцентных деревьев в рамках многовидовой коалесцентной модели (т. е. «деревья генов в видовых деревьях»).
GeneRecon – программное обеспечение для мелкомасштабного картирования неравновесного сцепления генов заболеваний с использованием теории коалесценции, основанной на байесовской структуре MCMC .
genetree Архивировано 2012-02-05 в Wayback Machine software для оценки параметров популяционной генетики с использованием теории коалесценции и моделирования ( пакет R "popgen"). См. также Oxford Mathematical Genetics and Bioinformatics Group
ГЕНОМ – быстрое моделирование всего генома на основе коалесценции ^[19]
IBDSim – компьютерный пакет для моделирования генотипических данных в условиях общей изоляции с помощью дистанционных моделей. ^[20]
IMa – IMa реализует ту же модель изоляции с миграцией, но делает это с помощью нового метода, который обеспечивает оценки совместной апостериорной плотности вероятности параметров модели. IMa также позволяет проводить тесты логарифмического отношения правдоподобия вложенных демографических моделей. IMa основан на методе, описанном в Hey and Nielsen (2007 PNAS 104:2785–2790). IMa быстрее и лучше, чем IM (т. е. в силу предоставления доступа к совместной апостериорной функции плотности), и его можно использовать для большинства (но не для всех) ситуаций и вариантов, для которых может использоваться IM.
Lamarc – программное обеспечение для оценки темпов роста популяции, миграции и рекомбинации.
Мигрень – программа, которая реализует алгоритмы коалесценции для анализа максимального правдоподобия (с использованием алгоритмов выборки по важности ) генетических данных с акцентом на пространственно структурированные популяции. ^[21]
Миграция – максимальное правдоподобие и байесовский вывод коэффициентов миграции при n -коалесцентном. Вывод реализован с использованием MCMC
MaCS – Markovian Coalescent Simulator – моделирует генеалогии пространственно по хромосомам как марковский процесс. Похож на алгоритм SMC МакВина и Кардина и поддерживает все демографические сценарии, найденные в ms Хадсона.
ms & msHOT – оригинальная программа Ричарда Хадсона для генерации образцов в нейтральных моделях ^[22] и расширение, которое позволяет рекомбинировать горячие точки . ^[23]
msms – расширенная версия ms, включающая выборочные сканирования. ^[24]
msprime — быстрый и масштабируемый совместимый с MS симулятор, позволяющий проводить демографическое моделирование и создавать компактные выходные файлы для тысяч или миллионов геномов.
PhyloCoalSimulations — пакет Julia для моделирования генных деревьев в рамках объединения вдоль филогенетической сети/графа смешения. Модель допускает возможное коррелированное наследование в ретикуляциях, которые представляют собой интрогрессию, поток генов или события гибридизации.
Recodon и NetRecodon – программное обеспечение для моделирования кодирующих последовательностей с меж-/внутрикодоновой рекомбинацией, миграцией, скоростью роста и продольной выборкой. ^[25]^[26]
CoalEvol и SGWE – программное обеспечение для моделирования нуклеотидных, кодирующих и аминокислотных последовательностей в условиях коалесценции с демографией, рекомбинацией, структурой популяции с миграцией и продольной выборкой. ^[27]
SARG – структура графа рекомбинации предков Магнуса Нордборга
simcoal2 – программное обеспечение для моделирования генетических данных в рамках модели коалесценции со сложной демографией и рекомбинацией
TreesimJ – программное обеспечение для прямого моделирования, позволяющее осуществлять выборку генеалогий и наборов данных в рамках различных селективных и демографических моделей.

Ссылки

^ Этеридж, Элисон (7 января 2011 г.). Некоторые математические модели из популяционной генетики: École D'Été de Probabilités de Saint-Flour, XXXIX-2009. Springer Science & Business Media. ISBN 978-3-642-16631-0.
^ abc Моррис, А., Уиттакер, Дж. и Болдинг, Д. (2002). Мелкомасштабное картирование локусов заболеваний с помощью моделирования генеалогий Shattered Coalescent. Американский журнал генетики человека, 70 (3), 686–707. doi :10.1086/339271
^ abc Rannala, B. (2001). Поиск генов, влияющих на восприимчивость к сложным заболеваниям в постгеномную эпоху. Американский журнал фармакогеномики , 1 (3), 203–221.

Источники

Статьи

^ Аренас, М. и Посада, Д. (2014) Моделирование эволюции генома в рамках моделей гетерогенных замен и сложных многовидовых коалесцентных историй. Молекулярная биология и эволюция 31(5): 1295–1301
^ Аренас, М. и Посада, Д. (2007) Recodon: Коалесцентное моделирование кодирующих последовательностей ДНК с рекомбинацией, миграцией и демографией. BMC Bioinformatics 8: 458
^ Аренас, М. и Посада, Д. (2010) Коалесцентное моделирование внутрикодоновой рекомбинации. Генетика 184(2): 429–437
^ Браунинг, SR (2006) Картирование многолокусных ассоциаций с использованием цепей Маркова переменной длины. Американский журнал генетики человека 78:903–913
^ Cornuet J.-M., Pudlo P., Veyssier J., Dehne-Garcia A., Gautier M., Leblois R., Marin J.-M., Estoup A. (2014) DIYABC v2.0: программное обеспечение для приблизительного байесовских вычислений выводов об истории популяции с использованием полиморфизма отдельных нуклеотидов, последовательности ДНК и данных микросателлитов. Bioinformatics '30': 1187–1189
^ Degnan, JH и LA Salter. 2005. Распределение генных деревьев в процессе коалесценции. Evolution 59(1): 24–37. pdf с coaltree.net/
^ Доннелли, П., Таваре, С. (1995) Коалесценты и генеалогическая структура в условиях нейтральности. Annual Review of Genetics 29 :401–421
^ Драммонд А., Сушард МА., Се Д., Рамбо А. (2012). «Байесовская филогенетика с BEAUti и BEAST 1.7». Молекулярная биология и эволюция . 29 (8): 1969–1973. doi :10.1093/molbev/mss075. PMC 3408070. PMID 22367748 .
^ Юинг, Г. и Хермиссон Дж. (2010), MSMS: программа коалесцентного моделирования, включающая рекомбинацию, демографическую структуру и отбор в одном локусе, Биоинформатика 26:15
^ Хелленталь, Г., Стивенс М. (2006) msHOT: модификация симулятора ms Хадсона для включения точек кроссинговера и генной конверсии Биоинформатика AOP
^ Хадсон, Ричард Р. (1983a). «Тестирование модели нейтрального аллеля с постоянной скоростью с данными о последовательности белков». Эволюция . 37 (1): 203–17. doi :10.2307/2408186. ISSN 1558-5646. JSTOR 2408186. PMID 28568026.
^ Хадсон Р. Р. (1983b) Свойства модели нейтрального аллеля с внутригенной рекомбинацией. Теоретическая популяционная биология 23 :183–201.
^ Хадсон Р. Р. (1991) Генеалогии генов и процесс слияния. Oxford Surveys in Evolutionary Biology 7 : 1–44
^ Хадсон Р. Р. (2002) Генерация образцов в соответствии с нейтральной моделью Райта–Фишера. Биоинформатика 18:337–338
^ Kendal WS (2003) Экспоненциальная дисперсионная модель для распределения полиморфизмов отдельных нуклеотидов человека. Mol Biol Evol 20 : 579–590
Хайн, Дж., Ширап, М., Виуф К. (2004) Генеалогии, вариации и эволюция генов: Учебник по теории коалесценции Oxford University Press ISBN 978-0-19-852996-5
^ Каплан, Н. Л., Дарден, Т., Хадсон, Р. Р. (1988) Процесс коалесценции в моделях с отбором. Генетика 120 :819–829
^ Кингман, Дж. Ф. К. (1982). «О генеалогии больших популяций». Журнал прикладной теории вероятностей . 19 : 27–43. CiteSeerX 10.1.1.552.1429 . doi :10.2307/3213548. ISSN 0021-9002. JSTOR 3213548. S2CID 125055288.
^ Кингман, Дж. Ф. К. (2000) Происхождение коалесцентных 1974–1982. Генетика 156:1461–1463
^ Leblois R., Estoup A. и Rousset F. (2009) IBDSim: компьютерная программа для моделирования генотипических данных в условиях изоляции на расстоянии. Ресурсы молекулярной экологии 9:107–109.
^ Лян Л., Цёлльнер С., Абекасис ГР (2007) ГЕНОМ: быстрый симулятор целого генома на основе коалесценции. Биоинформатика 23: 1565–1567
^ Mailund, T., Schierup, MH, Pedersen, CNS, Mechlenborg, PJM, Madsen, JN, Schauzer, L. (2005) CoaSim: гибкая среда для моделирования генетических данных в рамках коалесцентных моделей BMC Bioinformatics 6:252
^ Мёле, М., Сагитов, С. (2001) Классификация процессов коалесценции для моделей гаплоидных взаимозаменяемых популяций. Анналы вероятности 29 :1547–1562
^ Моррис, А. П., Уиттакер, Дж. К., Болдинг, Д. Дж. (2002) Мелкомасштабное картирование локусов заболеваний с помощью моделирования генеалогий методом дробного коалесцента. Американский журнал генетики человека, 70:686–707.
^ Нойхаузер, К. , Кроне, С.М. (1997) Генеалогия образцов в моделях с селекцией Генетика 145 519–534
^ Питман, Дж. (1999) Коалесценты с множественными столкновениями. Анналы вероятности 27 :1870–1902.
^ Хардинг, Розалинд, М. 1998. Новые филогении: вводный взгляд на срастающиеся. стр. 15–22, в Harvey, PH, Brown, AJL, Smith, JM, Nee, S. Новые применения новых филогений. Oxford University Press ( ISBN 0198549849 )
^ Розенберг, Н.А., Нордборг, М. (2002) Генеалогические деревья, коалесцентная теория и анализ генетических полиморфизмов. Nature Reviews Genetics 3 :380–390
^ Сагитов, С. (1999) Общее слияние с асинхронными слияниями предковых линий Журнал прикладной вероятности 36 :1116–1125
^ Швайнсберг, Дж. (2000) Коалесценты с одновременными множественными столкновениями. Электронный журнал вероятности 5 :1–50
^ Слаткин, М. (2001) Моделирование генеалогий выбранных аллелей в популяциях различного размера Genetic Research 145 :519–534
^ Таджима, Ф. (1983) Эволюционная связь последовательностей ДНК в конечных популяциях. Генетика 105 :437–460
^ Tavare S, Balding DJ, Griffiths RC & Donnelly P. 1997. Вывод времени коалесценции из данных последовательности ДНК. Genetics 145 : 505–518.
^ Международная рабочая группа по карте SNP. 2001. Карта вариаций генома человека, содержащая 1,42 миллиона однонуклеотидных полиморфизмов. Nature 409 : 928–933.
^ Zöllner S. и Pritchard JK (2005) Coalescent-Based Association Carding and Fine Mapping of Complex Trait Loci Genetics 169:1071–1092
^ Руссе Ф. и Леблуа Р. (2007) Анализ вероятности и приблизительной вероятности генетической структуры в линейной среде обитания: эффективность и надежность для моделирования неправильной спецификации Молекулярная биология и эволюция 24:2730–2745

Книги

Хайн, Дж.; Ширап, М. Х. и Виуф, К. Генеалогии, изменчивость и эволюция генов – Учебник по теории коалесценции . Oxford University Press , 2005. ISBN 0-19-852996-1 .
Нордборг, М. (2001) Введение в теорию коалесценции
Глава 7 в Balding, D., Bishop, M., Cannings, C., редакторы, Handbook of Statistical Genetics . Wiley ISBN 978-0-471-86094-5
Уэйкли Дж. (2006) Введение в теорию коалесценции Roberts & Co ISBN 0-9747077-5-9 Сопутствующий веб-сайт с примерами глав
^ Райс Ш. (2004). Эволюционная теория: математические и концептуальные основы . Sinauer Associates: Сандерленд, Массачусетс. См. в особенности гл. 3 для получения подробных выводов.
Берестицкий Н. "Последние достижения в теории коалесценции" 2009 ENSAIOS Matematicos т.16
Бертуан Дж. «Процессы случайной фрагментации и коагуляции»., 2006. Cambridge Studies in Advanced Mathematics, 102. Cambridge University Press , Кембридж, 2006. ISBN 978-0-521-86728-3 ;
Питман Дж. "Комбинаторные стохастические процессы" Springer (2003)

Внешние ссылки

EvoMath 3: Генетический дрейф и коалесценция, кратко — обзор с уравнениями вероятности для генетического дрейфа и графиками моделирования