Модель для отслеживания истории генетической изменчивости
Теория коалесценции — это модель того, как аллели, отобранные из популяции , могли произойти от общего предка . В простейшем случае теория коалесценции не предполагает рекомбинации , естественного отбора , потока генов или структуры популяции , что означает, что каждый вариант с равной вероятностью мог быть передан от одного поколения к другому. Модель смотрит назад во времени, объединяя аллели в одну предковую копию в соответствии со случайным процессом в событиях коалесценции. Согласно этой модели, ожидаемое время между последовательными событиями коалесценции увеличивается почти экспоненциально назад во времени (с большой дисперсией ). Дисперсия в модели возникает как из-за случайной передачи аллелей от одного поколения к другому, так и из-за случайного возникновения мутаций в этих аллелях.
Математическая теория коалесценции была разработана независимо несколькими группами в начале 1980-х годов как естественное расширение классической теории и моделей популяционной генетики , [1] [2] [3] [4], но ее можно в первую очередь отнести к Джону Кингману . [5] Достижения в теории коалесценции включают рекомбинацию, отбор, перекрывающиеся поколения и практически любую произвольно сложную эволюционную или демографическую модель в популяционном генетическом анализе.
Модель может быть использована для создания множества теоретических генеалогий, а затем для сравнения наблюдаемых данных с этими симуляциями для проверки предположений о демографической истории популяции. Коалесцентная теория может быть использована для выводов о генетических параметрах популяции, таких как миграция, размер популяции и рекомбинация.
Теория
Время для слияния
Рассмотрим один локус гена, взятый из двух гаплоидных особей в популяции. Родословная этого образца прослеживается назад во времени до точки, где эти две линии объединяются в их самом последнем общем предке (MRCA). Теория объединения стремится оценить ожидание этого периода времени и его дисперсию.
Вероятность того, что две линии объединятся в непосредственно предшествующем поколении, является вероятностью того, что они разделяют родительскую последовательность ДНК . В популяции с постоянным эффективным размером популяции с 2 N e копиями каждого локуса, в предыдущем поколении имеется 2 N e «потенциальных родителей». В модели случайного спаривания вероятность того, что два аллеля происходят из одной и той же родительской копии, составляет 1/(2 N e ), и, соответственно, вероятность того, что они не объединятся, составляет 1 − 1/(2 N e ).
В каждом последующем предыдущем поколении вероятность слияния распределена геометрически , то есть это вероятность отсутствия слияния в t − 1 предшествующих поколениях, умноженная на вероятность слияния в интересующем нас поколении:
При достаточно больших значениях N e это распределение хорошо аппроксимируется непрерывно определенным экспоненциальным распределением
Это удобно с математической точки зрения, поскольку стандартное экспоненциальное распределение имеет как ожидаемое значение , так и стандартное отклонение, равные 2 N e . Поэтому, хотя ожидаемое время до слияния равно 2 N e , фактическое время слияния имеет широкий диапазон вариаций. Обратите внимание, что время слияния — это число предшествующих поколений, в которых произошло слияние, а не календарное время, хотя оценку последнего можно сделать, умножив 2 N e на среднее время между поколениями. Приведенные выше расчеты в равной степени применимы к диплоидной популяции эффективного размера N e (другими словами, для нерекомбинирующего сегмента ДНК каждая хромосома может рассматриваться как эквивалент независимой гаплоидной особи; при отсутствии инбридинга сестринские хромосомы у одной особи не более тесно связаны, чем две хромосомы, случайно выбранные из популяции). Однако некоторые эффективно гаплоидные элементы ДНК, такие как митохондриальная ДНК , передаются только одним полом и, следовательно, имеют одну четверть эффективного размера эквивалентной диплоидной популяции ( N e /2)
Математический объект, который формально получается, если N e стремится к бесконечности, известен как слияние Кингмана. [1]
Нейтральная вариация
Теория коалесценции также может быть использована для моделирования количества вариаций в последовательностях ДНК, ожидаемых от генетического дрейфа и мутации. Это значение называется средней гетерозиготностью , представленной как . Средняя гетерозиготность рассчитывается как вероятность возникновения мутации в данном поколении, деленная на вероятность любого «события» в этом поколении (мутации или коалесценции). Вероятность того, что событие является мутацией, — это вероятность мутации в любой из двух линий: . Таким образом, средняя гетерозиготность равна
Для подавляющего большинства пар аллелей существует по крайней мере одно различие в последовательности нуклеотидов .
Расширения
Существуют многочисленные расширения модели коалесценции, такие как Λ-коалесценция, которая допускает возможность мультифуркаций. [6]
Графическое представление
Коалесценты можно визуализировать с помощью дендрограмм , которые показывают взаимосвязь ветвей популяции друг с другом. Точка, где встречаются две ветви, указывает на событие коалесценции.
Приложения
Картирование генов болезней
Полезность теории коалесценции в картировании заболеваний постепенно получает все большее признание; хотя применение теории все еще находится в зачаточном состоянии, есть ряд исследователей, которые активно разрабатывают алгоритмы для анализа генетических данных человека, использующие теорию коалесценции. [7] [8] [9]
Значительное количество человеческих заболеваний можно отнести к генетике, от простых менделевских болезней, таких как серповидноклеточная анемия и кистозный фиброз , до более сложных недугов, таких как рак и психические заболевания. Последние являются полигенными заболеваниями, контролируемыми несколькими генами, которые могут возникать на разных хромосомах, но заболевания, которые вызваны одной аномалией, относительно просто определить и отследить – хотя не так просто, чтобы это было достигнуто для всех болезней. Для понимания этих заболеваний и их процессов чрезвычайно полезно знать, где они расположены на хромосомах , и как они наследуются через поколения семьи, что можно сделать с помощью коалесцентного анализа. [2]
Генетические заболевания передаются из поколения в поколение, как и другие гены. Хотя любой ген может быть перемещен из одной хромосомы в другую во время гомологичной рекомбинации , маловероятно, что будет перемещен только один ген. Таким образом, другие гены, которые находятся достаточно близко к гену заболевания, чтобы быть связанными с ним, могут быть использованы для его отслеживания. [2]
Полигенные заболевания имеют генетическую основу, хотя они и не следуют менделевским моделям наследования, и они могут иметь относительно высокую распространенность в популяциях и иметь серьезные последствия для здоровья. Такие заболевания могут иметь неполную пенетрантность и, как правило, являются полигенными , что затрудняет их изучение. Эти признаки могут возникать из-за множества небольших мутаций, которые вместе оказывают серьезное и пагубное воздействие на здоровье человека. [3]
Методы картирования сцепления, включая теорию коалесцента, могут быть использованы для работы с этими заболеваниями, поскольку они используют семейные родословные, чтобы выяснить, какие маркеры сопровождают заболевание и как оно наследуется. По крайней мере, этот метод помогает сузить часть или части генома, в которых могут возникнуть вредные мутации. Осложнения в этих подходах включают эпистатические эффекты, полигенную природу мутаций и факторы окружающей среды. При этом гены, эффекты которых являются аддитивными, несут фиксированный риск развития заболевания, и когда они существуют в генотипе заболевания, их можно использовать для прогнозирования риска и картирования гена. [3] Как регулярные коалесценты, так и разрушенные коалесценты (которые допускают, что множественные мутации могли произойти в основополагающем событии, и что заболевание может иногда быть вызвано факторами окружающей среды) были использованы для понимания генов заболеваний. [2]
Были проведены исследования, связывающие возникновение заболеваний у разнояйцевых и однояйцевых близнецов, и результаты этих исследований могут быть использованы для информирования о коалесцентном моделировании. Поскольку однояйцевые близнецы разделяют весь свой геном, а разнояйцевые близнецы разделяют только половину своего генома, разницу в корреляции между однояйцевыми и разнояйцевыми близнецами можно использовать для определения того, является ли заболевание наследственным, и если да, то насколько сильно. [3]
Геномное распределение гетерозиготности
Карта полиморфизма одного нуклеотида (SNP) человека выявила большие региональные вариации гетерозиготности, более существенные, чем можно объяснить на основе ( распределенной Пуассоном ) случайной случайности. [10] Частично эти вариации можно объяснить на основе методов оценки, доступности геномных последовательностей и, возможно, стандартной модели генетической коалесцентной популяции. Влияние генетики популяции может иметь большое влияние на эту вариацию: некоторые локусы предположительно будут иметь сравнительно недавних общих предков, другие могут иметь гораздо более древние генеалогии, и поэтому региональное накопление SNP с течением времени может быть совершенно иным. Локальная плотность SNP вдоль хромосом, по-видимому, кластеризуется в соответствии с дисперсией к среднему степенному закону и подчиняется составному распределению Пуассона Твиди . [11] В этой модели региональные вариации на карте SNP объясняются накоплением множества небольших геномных сегментов посредством рекомбинации, где среднее количество SNP на сегмент будет гамма-распределено пропорционально гамма-распределенному времени до самого последнего общего предка для каждого сегмента. [12]
История
Коалесцентная теория является естественным расширением более классической концепции нейтральной эволюции популяционной генетики и является приближением к модели Фишера–Райта (или Райта–Фишера) для больших популяций. Она была открыта независимо несколькими исследователями в 1980-х годах. [13] [14] [15] [16]
Программное обеспечение
Существует большой массив программного обеспечения как для моделирования наборов данных в процессе объединения, так и для выведения таких параметров, как размер популяции и скорость миграции, из генетических данных.
- BEAST и BEAST 2 – пакет байесовского вывода через MCMC с широким спектром коалесцентных моделей, включая использование последовательностей с временной выборкой. [17]
- BPP – программный пакет для определения филогении и времени расхождения популяций в процессе многовидового слияния.
- CoaSim – программное обеспечение для моделирования генетических данных по коалесцентной модели.
- DIYABC – удобный подход к ABC для вывода об истории популяции с использованием молекулярных маркеров. [18]
- DendroPy – библиотека Python для филогенетических вычислений с классами и методами для моделирования чистых (неограниченных) коалесцентных деревьев, а также ограниченных коалесцентных деревьев в рамках многовидовой коалесцентной модели (т. е. «деревья генов в видовых деревьях»).
- GeneRecon – программное обеспечение для мелкомасштабного картирования неравновесного сцепления генов заболеваний с использованием теории коалесценции, основанной на байесовской структуре MCMC .
- genetree Архивировано 2012-02-05 в Wayback Machine software для оценки параметров популяционной генетики с использованием теории коалесценции и моделирования ( пакет R "popgen"). См. также Oxford Mathematical Genetics and Bioinformatics Group
- ГЕНОМ – быстрое моделирование всего генома на основе коалесценции [19]
- IBDSim – компьютерный пакет для моделирования генотипических данных в условиях общей изоляции с помощью дистанционных моделей. [20]
- IMa – IMa реализует ту же модель изоляции с миграцией, но делает это с использованием нового метода, который обеспечивает оценки совместной апостериорной плотности вероятности параметров модели. IMa также позволяет проводить тесты логарифмического отношения правдоподобия вложенных демографических моделей. IMa основан на методе, описанном в Hey and Nielsen (2007 PNAS 104:2785–2790). IMa быстрее и лучше, чем IM (т. е. в силу предоставления доступа к совместной апостериорной функции плотности), и его можно использовать для большинства (но не для всех) ситуаций и вариантов, для которых может использоваться IM.
- Lamarc – программное обеспечение для оценки темпов роста популяции, миграции и рекомбинации.
- Мигрень – программа, которая реализует алгоритмы коалесценции для анализа максимального правдоподобия (с использованием алгоритмов выборки по важности ) генетических данных с акцентом на пространственно структурированные популяции. [21]
- Миграция – максимальное правдоподобие и байесовский вывод коэффициентов миграции при n -коалесцентном. Вывод реализован с использованием MCMC
- MaCS – Markovian Coalescent Simulator – моделирует генеалогии пространственно по хромосомам как марковский процесс. Похож на алгоритм SMC МакВина и Кардина и поддерживает все демографические сценарии, найденные в ms Хадсона.
- ms & msHOT – оригинальная программа Ричарда Хадсона для генерации образцов в нейтральных моделях [22] и расширение, которое позволяет рекомбинировать горячие точки . [23]
- msms – расширенная версия ms, включающая выборочные сканирования. [24]
- msprime — быстрый и масштабируемый совместимый с MS симулятор, позволяющий проводить демографическое моделирование и создавать компактные выходные файлы для тысяч или миллионов геномов.
- PhyloCoalSimulations — пакет Julia для моделирования генных деревьев в рамках объединения вдоль филогенетической сети/графа смешения. Модель допускает возможное коррелированное наследование в ретикуляциях, которые представляют собой интрогрессию, поток генов или события гибридизации.
- Recodon и NetRecodon – программное обеспечение для моделирования кодирующих последовательностей с меж-/внутрикодоновой рекомбинацией, миграцией, скоростью роста и продольной выборкой. [25] [26]
- CoalEvol и SGWE – программное обеспечение для моделирования нуклеотидных, кодирующих и аминокислотных последовательностей в условиях коалесценции с демографией, рекомбинацией, структурой популяции с миграцией и продольной выборкой. [27]
- SARG – структура графа рекомбинации предков Магнуса Нордборга
- simcoal2 – программное обеспечение для моделирования генетических данных в рамках модели коалесценции со сложной демографией и рекомбинацией
- TreesimJ – программное обеспечение для прямого моделирования, позволяющее осуществлять выборку генеалогий и наборов данных в рамках различных селективных и демографических моделей.
Ссылки
- ^ Этеридж, Элисон (7 января 2011 г.). Некоторые математические модели из популяционной генетики: École D'Été de Probabilités de Saint-Flour, XXXIX-2009. Springer Science & Business Media. ISBN 978-3-642-16631-0.
- ^ abc Моррис, А., Уиттакер, Дж. и Болдинг, Д. (2002). Мелкомасштабное картирование локусов заболеваний с помощью моделирования генеалогий Shattered Coalescent. Американский журнал генетики человека, 70 (3), 686–707. doi :10.1086/339271
- ^ abc Rannala, B. (2001). Поиск генов, влияющих на восприимчивость к сложным заболеваниям в постгеномную эпоху. Американский журнал фармакогеномики , 1 (3), 203–221.
Источники
Статьи
- ^ Аренас, М. и Посада, Д. (2014) Моделирование эволюции генома в рамках моделей гетерогенных замен и сложных многовидовых коалесцентных историй. Молекулярная биология и эволюция 31(5): 1295–1301
- ^ Аренас, М. и Посада, Д. (2007) Recodon: Коалесцентное моделирование кодирующих последовательностей ДНК с рекомбинацией, миграцией и демографией. BMC Bioinformatics 8: 458
- ^ Аренас, М. и Посада, Д. (2010) Коалесцентное моделирование внутрикодоновой рекомбинации. Генетика 184(2): 429–437
- ^ Браунинг, SR (2006) Картирование многолокусных ассоциаций с использованием цепей Маркова переменной длины. Американский журнал генетики человека 78:903–913
- ^ Cornuet J.-M., Pudlo P., Veyssier J., Dehne-Garcia A., Gautier M., Leblois R., Marin J.-M., Estoup A. (2014) DIYABC v2.0: программное обеспечение для приблизительного байесовских вычислений выводов об истории популяции с использованием полиморфизма отдельных нуклеотидов, последовательности ДНК и данных микросателлитов. Bioinformatics '30': 1187–1189
- ^ Degnan, JH и LA Salter. 2005. Распределение генных деревьев в процессе коалесценции. Evolution 59(1): 24–37. pdf с coaltree.net/
- ^ Доннелли, П., Таваре, С. (1995) Коалесценты и генеалогическая структура в условиях нейтральности. Annual Review of Genetics 29 :401–421
- ^ Драммонд А., Сушард МА., Се Д., Рамбо А. (2012). «Байесовская филогенетика с BEAUti и BEAST 1.7». Молекулярная биология и эволюция . 29 (8): 1969–1973. doi :10.1093/molbev/mss075. PMC 3408070. PMID 22367748 .
- ^ Юинг, Г. и Хермиссон Дж. (2010), MSMS: программа коалесцентного моделирования, включающая рекомбинацию, демографическую структуру и отбор в одном локусе, Биоинформатика 26:15
- ^ Хелленталь, Г., Стивенс М. (2006) msHOT: модификация симулятора ms Хадсона для включения точек кроссинговера и конверсии генов Биоинформатика AOP
- ^ Хадсон, Ричард Р. (1983a). «Тестирование модели нейтрального аллеля с постоянной скоростью с данными о последовательности белка». Эволюция . 37 (1): 203–17. doi :10.2307/2408186. ISSN 1558-5646. JSTOR 2408186. PMID 28568026.
- ^ Хадсон Р. Р. (1983b) Свойства модели нейтрального аллеля с внутригенной рекомбинацией. Теоретическая популяционная биология 23 :183–201.
- ^ Хадсон Р. Р. (1991) Генеалогии генов и процесс слияния. Oxford Surveys in Evolutionary Biology 7 : 1–44
- ^ Хадсон Р. Р. (2002) Генерация образцов в соответствии с нейтральной моделью Райта–Фишера. Биоинформатика 18:337–338
- ^ Kendal WS (2003) Экспоненциальная дисперсионная модель для распределения полиморфизмов отдельных нуклеотидов человека. Mol Biol Evol 20 : 579–590
- Хайн, Дж., Ширап, М., Виуф К. (2004) Генеалогии, вариации и эволюция генов: Учебник по теории коалесценции Oxford University Press ISBN 978-0-19-852996-5
- ^ Каплан, Н. Л., Дарден, Т., Хадсон, Р. Р. (1988) Процесс коалесценции в моделях с отбором. Генетика 120 :819–829
- ^ Кингман, Дж. Ф. К. (1982). «О генеалогии больших популяций». Журнал прикладной теории вероятностей . 19 : 27–43. CiteSeerX 10.1.1.552.1429 . doi :10.2307/3213548. ISSN 0021-9002. JSTOR 3213548. S2CID 125055288.
- ^ Кингман, Дж. Ф. К. (2000) Происхождение коалесцентных 1974–1982. Генетика 156:1461–1463
- ^ Leblois R., Estoup A. и Rousset F. (2009) IBDSim: компьютерная программа для моделирования генотипических данных в условиях изоляции на расстоянии. Ресурсы молекулярной экологии 9:107–109
- ^ Лян Л., Цёлльнер С., Абекасис ГР (2007) ГЕНОМ: быстрый симулятор целого генома на основе коалесценции. Биоинформатика 23: 1565–1567
- ^ Mailund, T., Schierup, MH, Pedersen, CNS, Mechlenborg, PJM, Madsen, JN, Schauzer, L. (2005) CoaSim: гибкая среда для моделирования генетических данных в рамках коалесцентных моделей BMC Bioinformatics 6:252
- ^ Мёле, М., Сагитов, С. (2001) Классификация процессов коалесценции для моделей гаплоидных взаимозаменяемых популяций. Анналы вероятности 29 :1547–1562
- ^ Моррис, А. П., Уиттакер, Дж. К., Болдинг, Д. Дж. (2002) Мелкомасштабное картирование локусов болезней с помощью моделирования генеалогий методом дробного коалесцента. Американский журнал генетики человека, 70:686–707.
- ^ Нойхаузер, К. , Кроне, С.М. (1997) Генеалогия образцов в моделях с селекцией Генетика 145 519–534
- ^ Питман, Дж. (1999) Коалесценты с множественными столкновениями. Анналы вероятности 27 :1870–1902.
- ^ Хардинг, Розалинд, М. 1998. Новые филогении: вводный взгляд на срастающиеся. стр. 15–22, в Harvey, PH, Brown, AJL, Smith, JM, Nee, S. Новые применения новых филогений. Oxford University Press ( ISBN 0198549849 )
- ^ Розенберг, Н.А., Нордборг, М. (2002) Генеалогические деревья, коалесцентная теория и анализ генетических полиморфизмов. Nature Reviews Genetics 3 :380–390
- ^ Сагитов, С. (1999) Общее слияние с асинхронными слияниями предковых линий Журнал прикладной вероятности 36 :1116–1125
- ^ Швайнсберг, Дж. (2000) Коалесценты с одновременными множественными столкновениями. Электронный журнал вероятности 5 :1–50
- ^ Слаткин, М. (2001) Моделирование генеалогий выбранных аллелей в популяциях различного размера Genetic Research 145 :519–534
- ^ Таджима, Ф. (1983) Эволюционная связь последовательностей ДНК в конечных популяциях. Генетика 105 :437–460
- ^ Tavare S, Balding DJ, Griffiths RC & Donnelly P. 1997. Вывод времени коалесценции из данных последовательности ДНК. Genetics 145 : 505–518.
- ^ Международная рабочая группа по карте SNP. 2001. Карта вариаций генома человека, содержащая 1,42 миллиона однонуклеотидных полиморфизмов. Nature 409 : 928–933.
- ^ Zöllner S. и Pritchard JK (2005) Coalescent-Based Association Carding and Fine Mapping of Complex Trait Loci Genetics 169:1071–1092
- ^ Руссе Ф. и Леблуа Р. (2007) Анализ вероятности и приблизительной вероятности генетической структуры в линейной среде обитания: эффективность и надежность для моделирования неправильной спецификации Молекулярная биология и эволюция 24:2730–2745
Книги
- Хайн, Дж.; Ширап, М. Х. и Виуф, К. Генеалогии, изменчивость и эволюция генов – Учебник по теории коалесценции . Oxford University Press , 2005. ISBN 0-19-852996-1 .
- Нордборг, М. (2001) Введение в теорию коалесценции
- Глава 7 в Balding, D., Bishop, M., Cannings, C., редакторы, Handbook of Statistical Genetics . Wiley ISBN 978-0-471-86094-5
- Уэйкли Дж. (2006) Введение в теорию коалесценции Roberts & Co ISBN 0-9747077-5-9 Сопутствующий веб-сайт с примерами глав
- ^ Райс Ш. (2004). Эволюционная теория: математические и концептуальные основы . Sinauer Associates: Сандерленд, Массачусетс. См. в особенности гл. 3 для получения подробных выводов.
- Берестицкий Н. "Последние достижения в теории коалесценции" 2009 ENSAIOS Matematicos т.16
- Бертуан Дж. «Процессы случайной фрагментации и коагуляции»., 2006. Cambridge Studies in Advanced Mathematics, 102. Cambridge University Press , Кембридж, 2006. ISBN 978-0-521-86728-3 ;
- Питман Дж. "Комбинаторные стохастические процессы" Springer (2003)
Внешние ссылки
- EvoMath 3: Генетический дрейф и коалесценция, кратко — обзор с уравнениями вероятности для генетического дрейфа и графиками моделирования