stringtranslate.com

Оценка гаплотипа

В генетике оценка гаплотипа ( также известная как «фазирование») относится к процессу статистической оценки гаплотипов из данных генотипа . Наиболее распространенная ситуация возникает, когда генотипы собираются в наборе полиморфных участков из группы людей. Например, в генетике человека исследования ассоциаций по всему геному собирают генотипы у тысяч людей в диапазоне от 200 000 до 5 000 000 SNP с использованием микрочипов. Методы оценки гаплотипа используются при анализе этих наборов данных и позволяют вменять генотип [1] [2] аллелей из справочных баз данных, таких как HapMap Project и 1000 Genomes Project .

Генотипы и гаплотипы

Генотипы измеряют неупорядоченную комбинацию аллелей в каждом локусе, тогда как гаплотипы представляют генетическую информацию о нескольких локусах, которые были унаследованы вместе от родителей индивидуума. Теоретически количество возможных гаплотипов равно произведению номеров аллелей каждого рассматриваемого локуса. В частности, большинство SNP являются биаллельными; поэтому при рассмотрении гетерозиготных биаллельных локусов будут возможные пары гаплотипов, которые могут лежать в основе генотипов. Например, при рассмотрении двух биаллельных локусов A и B ( ), генотипами которых являются a 1 и a 2 , b 1 и b 2 соответственно , мы будем иметь следующие гаплотипы: a 1 _b 1 , a 1 _b 2 , a 2 _b 1 и a 2 _b 2 ( «_» указывает , что аллели находятся на одной хромосоме).

Методы оценки гаплотипа

Для оценки гаплотипов было предложено много статистических методов. Некоторые из самых ранних подходов использовали простую мультиномиальную модель, в которой каждому возможному гаплотипу, соответствующему образцу, был задан неизвестный параметр частоты, и эти параметры оценивались с помощью алгоритма максимизации ожиданий . Эти подходы могли обрабатывать только небольшое количество сайтов одновременно, хотя позже были разработаны последовательные версии, в частности метод SNPHAP.

Наиболее точные и широко используемые методы оценки гаплотипа используют некоторую форму скрытой марковской модели (HMM) для выполнения вывода. Долгое время PHASE [3] был самым точным методом. PHASE был первым методом, использовавшим идеи из теории коалесценции относительно совместного распределения гаплотипов. Этот метод использовал подход выборки Гиббса , в котором гаплотипы каждого индивида обновлялись в зависимости от текущих оценок гаплотипов из всех других выборок. Приближения к распределению гаплотипа, обусловленного набором других гаплотипов, использовались для условных распределений выборки Гиббса. PHASE использовался для оценки гаплотипов из проекта HapMap . PHASE был ограничен своей скоростью и не был применим к наборам данных из исследований ассоциаций по всему геному.

Методы fastPHASE [4] и BEAGLE [5] представили модели кластеров гаплотипов, применимые к наборам данных размером с GWAS . Впоследствии были представлены методы IMPUTE2 [6] и MaCH [7] , которые были похожи на подход PHASE, но гораздо быстрее. Эти методы итеративно обновляют оценки гаплотипа каждого образца в зависимости от подмножества оценок гаплотипа K других образцов. IMPUTE2 представил идею тщательного выбора подмножества гаплотипов для улучшения точности. Точность увеличивается с K, но с квадратичной вычислительной сложностью.

Метод SHAPEIT1 добился значительного прогресса, внедрив метод линейной сложности, который работает только с пространством гаплотипов, соответствующих генотипам индивидуума. [8] Метод HAPI-UR впоследствии предложил очень похожий метод. [9] SHAPEIT2 [10] объединяет лучшие черты SHAPEIT1 и IMPUTE2 для повышения эффективности и точности.

Смотрите также

Ссылки

  1. ^ Marchini, J.; Howie, B. (2010). «Вменение генотипа для исследований ассоциаций по всему геному». Nature Reviews Genetics . 11 (7): 499–511. doi :10.1038/nrg2796. PMID  20517342. S2CID  1465707.
  2. ^ Howie, B.; Fuchsberger, C.; Stephens, M.; Marchini, J.; Abecasis, GAR (2012). «Быстрое и точное определение генотипа в исследованиях ассоциаций по всему геному с помощью предварительной фазировки». Nature Genetics . 44 (8): 955–959. doi :10.1038/ng.2354. PMC 3696580 . PMID  22820512. 
  3. ^ Стивенс, М.; Смит, Нью-Джерси; Доннелли, П. (2001). «Новый статистический метод реконструкции гаплотипа из популяционных данных». Американский журнал генетики человека . 68 (4): 978–989. doi :10.1086/319501. PMC 1275651. PMID 11254454  . 
  4. ^ Шит, П.; Стивенс, М. (2006). «Быстрая и гибкая статистическая модель для крупномасштабных данных о генотипах населения: применение для вывода отсутствующих генотипов и гаплотипической фазы». Американский журнал генетики человека . 78 (4): 629–644. doi : 10.1086/502802. PMC 1424677. PMID  16532393 . 
  5. ^ Браунинг, SR; Браунинг, BL (2007). «Быстрое и точное фазирование гаплотипа и вывод пропущенных данных для исследований ассоциаций всего генома с использованием локализованной кластеризации гаплотипов». Американский журнал генетики человека . 81 (5): 1084–1097. doi :10.1086/521987. PMC 2265661. PMID  17924348 . 
  6. ^ Howie, BN; Donnelly, P.; Marchini, J. (2009). Schork, Nicholas J (ред.). «Гибкий и точный метод импутации генотипа для следующего поколения исследований ассоциаций по всему геному». PLOS Genetics . 5 (6): e1000529. doi : 10.1371/journal.pgen.1000529 . PMC 2689936. PMID  19543373 . 
  7. ^ Li, Y.; Willer, CJ; Ding, J.; Scheet, P.; Abecasis, GAR (2010). «MaCH: использование данных о последовательностях и генотипах для оценки гаплотипов и ненаблюдаемых генотипов». Genetic Epidemiology . 34 (8): 816–834. doi :10.1002/gepi.20533. PMC 3175618 . PMID  21058334. 
  8. ^ Delaneau, O.; Marchini, J.; Zagury, JFO (2011). «Метод фазирования линейной сложности для тысяч геномов». Nature Methods . 9 (2): 179–181. doi :10.1038/nmeth.1785. PMID  22138821. S2CID  13765612.
  9. ^ Уильямс, АЛ; Паттерсон, Н.; Глесснер, Дж.; Хаконарсон, Х.; Райх, Д. (2012). «Фазирование многих тысяч генотипированных образцов». Американский журнал генетики человека . 91 (2): 238–251. doi :10.1016/j.ajhg.2012.06.013. PMC 3415548. PMID  22883141 . 
  10. ^ Delaneau, O.; Zagury, JF; Marchini, J. (2012). «Улучшенное фазирование всей хромосомы для исследований популяционной генетики и заболеваний». Nature Methods . 10 (1): 5–6. doi :10.1038/nmeth.2307. PMID  23269371. S2CID  205421216.