В генетике вменение – это статистический вывод о ненаблюдаемых генотипах . [1] Это достигается за счет использования известных гаплотипов в популяции, например, из HapMap или проекта «1000 геномов» у людей, что позволяет проверить связь между интересующим признаком (например, заболеванием) и экспериментально нетипизированными генетическими вариантами, но генотипы которых были статистически установлены («вменены»). [2] Вменение генотипа обычно выполняется на основе SNP , наиболее распространенного вида генетической вариации.
Таким образом, вменение генотипа чрезвычайно помогает сузить местоположение возможных причинных вариантов в полногеномных исследованиях ассоциаций , поскольку оно увеличивает плотность SNP (размер генома остается постоянным, но количество генетических вариантов увеличивается) и, таким образом, уменьшает расстояние между двумя соседними генотипами. СНП.
В генетической эпидемиологии и количественной генетике исследователи стремятся выявить места в геноме , где различия между людьми связаны с различиями в интересующих признаках между людьми. Следовательно, такие исследования требуют доступа к генетическому составу ряда людей. Секвенирование всего генома каждого человека, участвующего в исследовании, часто обходится слишком дорого, поэтому можно измерить только часть генома. Это часто означает, во-первых, рассмотрение только однонуклеотидных полиморфизмов (SNP) и пренебрежение вариантами числа копий , а во-вторых, измерение только SNP, о которых известно, что они достаточно вариабельны в популяции, поэтому они, вероятно, также будут вариабельными в рассматриваемом наборе индивидуумов. . Наиболее информативное подмножество SNP выбирается на основе распределения общих генетических вариаций по геному, например, полученных с помощью HapMap или проекта «1000 геномов» у людей. Эти SNP затем используются для создания микроматрицы , что позволяет одновременно генотипировать каждого человека в исследовании по всем этим SNP.
Массивы генотипирования, используемые для полногеномных ассоциативных исследований (GWAS), основаны на мечении SNP и, следовательно, не генотипируют напрямую все вариации в геноме. Внесение генотипов в эталонную панель, которая была генотипирована для большего числа вариантов, увеличивает охват геномных вариаций за пределами исходных генотипов. Как следствие, можно оценить влияние большего количества SNP, чем на исходном микрочипе. Важно отметить, что вменение облегчило метаанализ наборов данных, которые были генотипированы на разных массивах, за счет увеличения перекрытия вариантов, доступных для анализа между массивами.
Поскольку полногеномное секвенирование (WGS) становится дешевле, вменение находит еще один вариант использования: оно может улучшить чтение WGS с низким охватом, заполняя пробелы и области с низкой достоверностью. В этом случае вменение обеспечивает более высокую точность по сравнению с массивом SNP. [3] Импутация WGS с низким охватом достаточно точна для геномов древнего неафриканского человека вплоть до охвата 0,5×. [4]
Существует несколько пакетов программного обеспечения для вменения генотипов из массива генотипирования в справочные панели, например гаплотипы проекта 1000 Genomes Project. К этим инструментам относятся MaCH [5] Minimac, IMPUTE2 [6] и Beagle. [7] Каждый инструмент имеет свои плюсы и минусы с точки зрения скорости и точности. [8] Дополнительные инструменты фазирования, такие как SHAPEIT2 [9], позволяют предварительно фазировать входные гаплотипы для повышения точности вменения и производительности вычислений.
На ранних этапах использования вменения в качестве эталонной панели использовались гаплотипы из популяций HapMap, но на смену этому пришли гаплотипы из проекта «1000 геномов» [10] в качестве эталонных панелей с большим количеством выборок, из более разнообразных популяций и с большим генетическим потенциалом . плотность маркера . По состоянию на середину 2014 года на веб-сайте проекта «1000 Genomes Project » [11] публично доступны данные о последовательностях всего генома 2535 человек из 26 различных популяций по всему миру.
Разработка точных статистических моделей для вменения генотипов во многом связана с проблемой оценки гаплотипов («фазирования») и является активной областью исследований. [12] Вменению почти всегда предшествует поэтапный этап. [1] [3] По состоянию на 2022 год все современное программное обеспечение для фазирования и вменения основано на конструкции скрытой марковской модели Ли и Стивенса . [13]