В генетике оценка гаплотипа ( также известная как «фазирование») относится к процессу статистической оценки гаплотипов из данных генотипа . Наиболее распространенная ситуация возникает, когда генотипы собираются в наборе полиморфных участков из группы людей. Например, в генетике человека исследования ассоциаций по всему геному собирают генотипы у тысяч людей в диапазоне от 200 000 до 5 000 000 SNP с использованием микрочипов. Методы оценки гаплотипа используются при анализе этих наборов данных и позволяют вменять генотип [1] [2] аллелей из справочных баз данных, таких как HapMap Project и 1000 Genomes Project .
Генотипы измеряют неупорядоченную комбинацию аллелей в каждом локусе, тогда как гаплотипы представляют генетическую информацию о нескольких локусах, которые были унаследованы вместе от родителей индивидуума. Теоретически количество возможных гаплотипов равно произведению номеров аллелей каждого рассматриваемого локуса. В частности, большинство SNP являются биаллельными; поэтому при рассмотрении гетерозиготных биаллельных локусов будут возможные пары гаплотипов, которые могут лежать в основе генотипов. Например, при рассмотрении двух биаллельных локусов A и B ( ), генотипами которых являются a 1 и a 2 , b 1 и b 2 соответственно , мы будем иметь следующие гаплотипы: a 1 _b 1 , a 1 _b 2 , a 2 _b 1 и a 2 _b 2 ( «_» указывает , что аллели находятся на одной хромосоме).
Для оценки гаплотипов было предложено много статистических методов. Некоторые из самых ранних подходов использовали простую мультиномиальную модель, в которой каждому возможному гаплотипу, соответствующему образцу, был задан неизвестный параметр частоты, и эти параметры оценивались с помощью алгоритма максимизации ожиданий . Эти подходы могли обрабатывать только небольшое количество сайтов одновременно, хотя позже были разработаны последовательные версии, в частности метод SNPHAP.
Наиболее точные и широко используемые методы оценки гаплотипа используют некоторую форму скрытой марковской модели (HMM) для выполнения вывода. Долгое время PHASE [3] был самым точным методом. PHASE был первым методом, использовавшим идеи из теории коалесценции относительно совместного распределения гаплотипов. Этот метод использовал подход выборки Гиббса , в котором гаплотипы каждого индивида обновлялись в зависимости от текущих оценок гаплотипов из всех других выборок. Приближения к распределению гаплотипа, обусловленного набором других гаплотипов, использовались для условных распределений выборки Гиббса. PHASE использовался для оценки гаплотипов из проекта HapMap . PHASE был ограничен своей скоростью и не был применим к наборам данных из исследований ассоциаций по всему геному.
Методы fastPHASE [4] и BEAGLE [5] представили модели кластеров гаплотипов, применимые к наборам данных размером с GWAS . Впоследствии были представлены методы IMPUTE2 [6] и MaCH [7] , которые были похожи на подход PHASE, но гораздо быстрее. Эти методы итеративно обновляют оценки гаплотипа каждого образца в зависимости от подмножества оценок гаплотипа K других образцов. IMPUTE2 представил идею тщательного выбора подмножества гаплотипов для улучшения точности. Точность увеличивается с K, но с квадратичной вычислительной сложностью.
Метод SHAPEIT1 добился значительного прогресса, внедрив метод линейной сложности, который работает только с пространством гаплотипов, соответствующих генотипам индивидуума. [8] Метод HAPI-UR впоследствии предложил очень похожий метод. [9] SHAPEIT2 [10] объединяет лучшие черты SHAPEIT1 и IMPUTE2 для повышения эффективности и точности.