Популяционная структура (также называемая генетической структурой и популяционной стратификацией ) — это наличие систематического различия в частотах аллелей между субпопуляциями . Ожидается, что в случайно спаривающейся (или панмиктической ) популяции частоты аллелей в разных группах будут примерно одинаковыми. Однако спаривание в некоторой степени имеет тенденцию быть неслучайным, что приводит к возникновению структуры. Например, такой барьер, как река, может разделить две группы одного и того же вида и затруднить переход потенциальных партнеров; если возникает мутация , в течение многих поколений она может распространяться и становиться обычным явлением в одной субпопуляции, полностью отсутствуя в другой.
Генетические варианты не обязательно вызывают наблюдаемые изменения в организмах, но могут быть коррелированы по совпадению из-за структуры популяции - вариант, который распространен в популяции с высоким уровнем заболеваемости, может ошибочно считаться причиной заболевания. По этой причине структура популяции является распространенной мешающей переменной в исследованиях медицинской генетики , и учет и контроль ее влияния важны в исследованиях полногеномных ассоциаций (GWAS). Прослеживая происхождение структуры, можно также изучать генетическое происхождение групп и индивидуумов.
Основной причиной структуры популяций видов, размножающихся половым путем, является неслучайное спаривание между группами: если все особи в популяции спариваются случайным образом, то частоты аллелей между группами должны быть одинаковыми. Структура населения обычно возникает в результате физического разделения расстоянием или барьерами, такими как горы и реки, с последующим генетическим дрейфом . Другие причины включают поток генов в результате миграций, узкие места и экспансии популяций , эффекты основателей , эволюционное давление , случайные случайности и (у людей) культурные факторы. Даже несмотря на действие этих факторов, особи склонны оставаться рядом с местом своего рождения, а это означает, что аллели не будут распределяться случайным образом по отношению ко всему спектру видов. [1] [2]
Структура населения представляет собой сложное явление, и ни один показатель не отражает его полностью. Понимание структуры населения требует сочетания методов и показателей. [3] [4] Многие статистические методы основаны на простых популяционных моделях, чтобы сделать вывод об исторических демографических изменениях, таких как наличие узких мест в популяциях, события примеси или время дивергенции популяций. Часто эти методы основаны на предположении о панмикции или однородности предковой популяции. Неправильная спецификация таких моделей, например, из-за игнорирования существования структуры в предковой популяции, может привести к сильно смещенным оценкам параметров. [5] Моделирование показывает, что историческая структура популяции может даже иметь генетические эффекты, которые легко можно ошибочно истолковать как исторические изменения в численности популяции или существование событий примеси, даже если таких событий не произошло. [6]
Одним из результатов структуры популяции является снижение гетерозиготности . Когда популяции разделяются, аллели имеют больше шансов закрепиться внутри субпопуляций, особенно если субпопуляции небольшие или были изолированы в течение длительного периода времени. Это снижение гетерозиготности можно рассматривать как расширение инбридинга , при котором особи в субпопуляциях с большей вероятностью имеют общего недавнего предка . [7] Масштаб важен: человек, у которого оба родителя родились в Соединенном Королевстве, не является инбредным по отношению к населению этой страны, но является более инбредным, чем два человека, выбранные со всего мира. Это мотивирует вывод F -статистики Райта (также называемой «индексами фиксации»), которая измеряет инбридинг через наблюдаемую и ожидаемую гетерозиготность. [8] Например, измеряет коэффициент инбридинга в одном локусе для особи относительно некоторой субпопуляции : [9]
Здесь – доля гетерозиготных особей в субпопуляции. Предполагая, что существуют две аллели, которые встречаются с соответствующими частотами , ожидается, что при случайном скрещивании субпопуляция будет иметь уровень гетерозиготности . Затем:
Аналогично, для всей популяции мы можем определить, что позволит нам вычислить ожидаемую гетерозиготность субпопуляции и значение как: [9]
Если F равен 0, то частоты аллелей между популяциями идентичны, что указывает на отсутствие структуры. Теоретическое максимальное значение 1 достигается, когда аллель достигает полной фиксации, но большинство наблюдаемых максимальных значений намного ниже. [7] F ST является одним из наиболее распространенных показателей структуры популяции, и существует несколько различных формулировок в зависимости от количества популяций и интересующих аллелей. Хотя его иногда используют в качестве генетического расстояния между популяциями, он не всегда удовлетворяет неравенству треугольника и, следовательно, не является метрикой . [10] Это также зависит от разнообразия внутри популяции, что затрудняет интерпретацию и сравнение. [4]
Генотип человека можно смоделировать как смесь K дискретных кластеров популяций. [9] Каждый кластер определяется частотой его генотипов, а вклад кластера в генотипы человека измеряется с помощью оценщика . В 2000 году Джонатан К. Притчард представил алгоритм STRUCTURE для оценки этих пропорций с помощью цепи Маркова Монте-Карло , моделируя частоты аллелей в каждом локусе с помощью распределения Дирихле . [11] С тех пор алгоритмы (такие как ADMIXTURE) были разработаны с использованием других методов оценки. [12] [13] Предполагаемые пропорции можно визуализировать с помощью столбчатых графиков — каждый столбец представляет отдельного человека и подразделяется, чтобы представить долю генетического происхождения человека из одной из K- популяций. [9]
Изменение K может иллюстрировать различные масштабы структуры населения; использование маленького значения K для всей человеческой популяции приведет к примерному разделению людей по континентам, а использование большого значения K разделит население на более мелкие подгруппы. [9] Хотя методы кластеризации популярны, они открыты для неправильной интерпретации: для немоделированных данных никогда не существует «истинного» значения K , а скорее приближение, которое считается полезным для данного вопроса. [3] Они чувствительны к стратегиям выборки, размеру выборки и близким родственникам в наборах данных; дискретных популяций может вообще не быть; и может существовать иерархическая структура, в которой субпопуляции вложены друг в друга. [3] Кластеры сами по себе могут быть смешанными, [9] и не иметь полезной интерпретации в качестве исходных популяций. [14]
Генетические данные имеют высокую размерность , и методы уменьшения размерности могут отражать структуру популяции. Анализ главных компонентов (PCA) был впервые применен в популяционной генетике в 1978 году Кавалли-Сфорца и его коллегами и возродился благодаря высокопроизводительному секвенированию . [9] [17] Первоначально PCA использовался для определения частот аллелей известных генетических маркеров для популяций, хотя позже было обнаружено, что путем кодирования SNP как целых чисел (например, как количество нереференсных аллелей ) и нормализации значений, PCA может применяться на уровне отдельных лиц. [13] [18] Одна формулировка рассматривает индивидуумов и биаллельные SNP. Для каждого индивидуума значением локуса является количество нереференсных аллелей (одного из ). Если частота аллеля at равна , то результирующая матрица нормализованных генотипов имеет записи: [9]
PCA преобразует данные для максимизации дисперсии; при наличии достаточного количества данных, когда каждый человек визуализируется как точка на графике, могут образовываться дискретные кластеры. [13] Лица со смешанным происхождением будут иметь тенденцию попадать между кластерами, и когда в данных существует однородная изоляция по расстоянию , верхние векторы PC будут отражать географические различия. [19] [13] Собственные векторы , генерируемые PCA, могут быть явно записаны через среднее время слияния пар особей, что делает PCA полезным для вывода о популяционной истории групп в данной выборке. PCA, однако, не может различать разные процессы, которые приводят к одному и тому же среднему времени слияния. [20]
Многомерное масштабирование и дискриминантный анализ использовались для изучения дифференциации, распределения популяций и анализа генетических расстояний. [21] Подходы к графам окрестностей , такие как t-распределенное стохастическое встраивание соседей (t-SNE) и аппроксимация и проекция однородного многообразия (UMAP), могут визуализировать континентальную и субконтинентальную структуру человеческих данных. [22] [23] При наличии больших наборов данных UMAP лучше фиксирует структуру населения на нескольких уровнях; мелкомасштабные закономерности можно скрыть или разделить с помощью других методов, и они представляют интерес, когда диапазон популяций разнообразен, когда имеются смешанные популяции или при изучении взаимосвязей между генотипами, фенотипами и/или географией. [23] [24] Вариационные автокодировщики могут генерировать искусственные генотипы со структурой, репрезентативной для входных данных, хотя они не воссоздают закономерности неравновесия по сцеплению. [25]
Структура популяции — важный аспект эволюционной и популяционной генетики . Такие события, как миграции и взаимодействия между группами, оставляют генетический отпечаток на популяциях. Смешанные популяции будут иметь фрагменты гаплотипов своих предковых групп, которые со временем постепенно сокращаются из-за рекомбинации . Используя этот факт и сопоставляя общие фрагменты гаплотипов отдельных людей в наборе генетических данных, исследователи могут проследить и датировать происхождение смешения населения и реконструировать исторические события, такие как взлет и падение империй, работорговля, колониализм и рост населения. [26]
Структура популяции может стать проблемой для ассоциативных исследований , таких как исследования «случай-контроль» , где связь между интересующим признаком и локусом может быть неверной. Например, в исследуемой популяции европейцев и жителей Восточной Азии ассоциативное исследование использования палочек для еды может «обнаружить» у азиатов ген, который приводит к использованию палочек для еды. Однако это ложная связь , поскольку генетический вариант просто более распространен у азиатов, чем у европейцев. [27] Кроме того, фактические генетические результаты могут быть упущены из виду, если локус менее распространен в популяции, из которой выбраны субъекты. По этой причине в 1990-е годы было обычным использовать семейные данные, где влияние структуры населения можно было легко контролировать с помощью таких методов, как тест на неравновесие передачи (TDT). [28]
Фенотипы (измеримые признаки), такие как рост или риск сердечно-сосудистых заболеваний, являются продуктом некоторой комбинации генов и окружающей среды . Эти черты можно предсказать с помощью полигенных показателей , которые направлены на то, чтобы изолировать и оценить вклад генетики в признак путем суммирования эффектов многих отдельных генетических вариантов. Чтобы получить оценку, исследователи сначала включают участников в исследование ассоциации, чтобы оценить вклад каждого генетического варианта. Затем они могут использовать предполагаемый вклад каждого генетического варианта для расчета оценки признака для человека, который не участвовал в первоначальном исследовании ассоциации. Если структура исследуемой популяции коррелирует с изменчивостью окружающей среды, то полигенный показатель больше не измеряет только генетический компонент. [29]
Несколько методов могут, по крайней мере частично, контролировать этот мешающий эффект. Метод геномного контроля был введен в 1999 году и представляет собой относительно непараметрический метод контроля увеличения статистики тестов . [30] Также возможно использовать несвязанные генетические маркеры для оценки пропорций предков каждого человека из некоторых K субпопуляций, которые считаются неструктурированными. [31] Более поздние подходы используют анализ главных компонентов (PCA), как продемонстрировали Алкес Прайс и его коллеги, [32] или путем получения матрицы генетических отношений (также называемой матрицей родства) и включения ее в линейную смешанную модель ( ЛММ). [33] [34]
PCA и LMM стали наиболее распространенными методами контроля влияния структуры популяции. Хотя их, вероятно, достаточно, чтобы избежать ложноположительных результатов в исследованиях ассоциаций, они по-прежнему уязвимы к переоценке величины эффекта маргинально связанных вариантов и могут существенно искажать оценки показателей полигенности и наследственности признаков . [35] [36] Если воздействие на окружающую среду связано с вариантом, который существует только в одном конкретном регионе (например, загрязнитель обнаружен только в одном городе), возможно, вообще невозможно будет скорректировать этот эффект структуры населения. [29] Для многих признаков роль структуры сложна и не до конца понятна, и включение ее в генетические исследования остается проблемой и является активной областью исследований. [37]