Структура населения (генетика)

Популяционная структура (также называемая генетической структурой и популяционной стратификацией ) — это наличие систематического различия в частотах аллелей между субпопуляциями . Ожидается, что в случайно спаривающейся (или панмиктической ) популяции частоты аллелей в разных группах будут примерно одинаковыми. Однако спаривание в некоторой степени имеет тенденцию быть неслучайным, что приводит к возникновению структуры. Например, такой барьер, как река, может разделить две группы одного и того же вида и затруднить переход потенциальных партнеров; если возникает мутация , в течение многих поколений она может распространяться и становиться обычным явлением в одной субпопуляции, полностью отсутствуя в другой.

Генетические варианты не обязательно вызывают наблюдаемые изменения в организмах, но могут быть коррелированы по совпадению из-за структуры популяции - вариант, который распространен в популяции с высоким уровнем заболеваемости, может ошибочно считаться причиной заболевания. По этой причине структура популяции является распространенной мешающей переменной в исследованиях медицинской генетики , и учет и контроль ее влияния важны в исследованиях полногеномных ассоциаций (GWAS). Прослеживая происхождение структуры, можно также изучать генетическое происхождение групп и индивидуумов.

Описание

Основной причиной структуры популяций видов, размножающихся половым путем, является неслучайное спаривание между группами: если все особи в популяции спариваются случайным образом, то частоты аллелей между группами должны быть одинаковыми. Структура населения обычно возникает в результате физического разделения расстоянием или барьерами, такими как горы и реки, с последующим генетическим дрейфом . Другие причины включают поток генов в результате миграций, узкие места и экспансии популяций , эффекты основателей , эволюционное давление , случайные случайности и (у людей) культурные факторы. Даже несмотря на действие этих факторов, особи склонны оставаться рядом с местом своего рождения, а это означает, что аллели не будут распределяться случайным образом по отношению ко всему спектру видов. ^[1]^[2]

Меры

Структура населения представляет собой сложное явление, и ни один показатель не отражает его полностью. Понимание структуры населения требует сочетания методов и показателей. ^[3]^[4] Многие статистические методы основаны на простых популяционных моделях, чтобы сделать вывод об исторических демографических изменениях, таких как наличие узких мест в популяциях, события примеси или время дивергенции популяций. Часто эти методы основаны на предположении о панмикции или однородности предковой популяции. Неправильная спецификация таких моделей, например, из-за игнорирования существования структуры в предковой популяции, может привести к сильно смещенным оценкам параметров. ^[5] Моделирование показывает, что историческая структура популяции может даже иметь генетические эффекты, которые легко можно ошибочно истолковать как исторические изменения в численности популяции или существование событий примеси, даже если таких событий не произошло. ^[6]

Гетерозиготность

Одним из результатов структуры популяции является снижение гетерозиготности . Когда популяции разделяются, аллели имеют больше шансов закрепиться внутри субпопуляций, особенно если субпопуляции небольшие или были изолированы в течение длительного периода времени. Это снижение гетерозиготности можно рассматривать как расширение инбридинга , при котором особи в субпопуляциях с большей вероятностью имеют общего недавнего предка . ^[7] Масштаб важен: человек, у которого оба родителя родились в Соединенном Королевстве, не является инбредным по отношению к населению этой страны, но является более инбредным, чем два человека, выбранные со всего мира. Это мотивирует вывод F -статистики Райта (также называемой «индексами фиксации»), которая измеряет инбридинг через наблюдаемую и ожидаемую гетерозиготность. ^[8] Например, измеряет коэффициент инбридинга в одном локусе для особи относительно некоторой субпопуляции : ^[9] $F_{IS}$ $I$ $S$

F_{IS}=1-{\frac {H_{I}}{H_{S}}}

Здесь – доля гетерозиготных особей в субпопуляции. Предполагая, что существуют две аллели, которые встречаются с соответствующими частотами , ожидается, что при случайном скрещивании субпопуляция будет иметь уровень гетерозиготности . Затем: $H_{I}$ $S$ $A_{1},A_{2}$ $p_{S},q_{S}$ $S$ $H_{S}=2p_{S}(1-p_{S})=2p_{S}q_{S}$

F_{IS}=1-{\frac {H_{I}}{2p_{S}q_{S}}}

Аналогично, для всей популяции мы можем определить, что позволит нам вычислить ожидаемую гетерозиготность субпопуляции и значение как: ^[9] $Т$ $H_{T}=2p_{T}q_{T}$ $S$ $F_{ST}$

F_{ST}=1-{\frac {H_{S}}{H_{T}}}=1-{\frac {2p_{S}q_{S}}{2p_{T}q_{T }}}

Если F равен 0, то частоты аллелей между популяциями идентичны, что указывает на отсутствие структуры. Теоретическое максимальное значение 1 достигается, когда аллель достигает полной фиксации, но большинство наблюдаемых максимальных значений намного ниже. ^[7] F _ST является одним из наиболее распространенных показателей структуры популяции, и существует несколько различных формулировок в зависимости от количества популяций и интересующих аллелей. Хотя его иногда используют в качестве генетического расстояния между популяциями, он не всегда удовлетворяет неравенству треугольника и, следовательно, не является метрикой . ^[10] Это также зависит от разнообразия внутри популяции, что затрудняет интерпретацию и сравнение. ^[4]

Вывод о примеси

Генотип человека можно смоделировать как смесь K дискретных кластеров популяций. ^[9] Каждый кластер определяется частотой его генотипов, а вклад кластера в генотипы человека измеряется с помощью оценщика . В 2000 году Джонатан К. Притчард представил алгоритм STRUCTURE для оценки этих пропорций с помощью цепи Маркова Монте-Карло , моделируя частоты аллелей в каждом локусе с помощью распределения Дирихле . ^[11] С тех пор алгоритмы (такие как ADMIXTURE) были разработаны с использованием других методов оценки. ^[12]^[13] Предполагаемые пропорции можно визуализировать с помощью столбчатых графиков — каждый столбец представляет отдельного человека и подразделяется, чтобы представить долю генетического происхождения человека из одной из K- популяций. ^[9]

Изменение K может иллюстрировать различные масштабы структуры населения; использование маленького значения K для всей человеческой популяции приведет к примерному разделению людей по континентам, а использование большого значения K разделит население на более мелкие подгруппы. ^[9] Хотя методы кластеризации популярны, они открыты для неправильной интерпретации: для немоделированных данных никогда не существует «истинного» значения K , а скорее приближение, которое считается полезным для данного вопроса. ^[3] Они чувствительны к стратегиям выборки, размеру выборки и близким родственникам в наборах данных; дискретных популяций может вообще не быть; и может существовать иерархическая структура, в которой субпопуляции вложены друг в друга. ^[3] Кластеры сами по себе могут быть смешанными, ^[9] и не иметь полезной интерпретации в качестве исходных популяций. ^[14]

Исследование популяционной структуры людей в Северной Африке и соседних популяциях, смоделированное с использованием ADMIXTURE и предполагающее популяцию K = 2,4,6,8 (рис. B, сверху вниз). Изменение K меняет масштаб кластеризации. При K = 2 80% предполагаемого происхождения большинства жителей Северной Африки относится к кластеру, который является общим для баскских, тосканских и катарских арабов (фиолетовым цветом). При K = 4 появляются линии североафриканского происхождения (голубые). При K =6 появляются противоположные клины ближневосточного (катарского) происхождения (зеленым цветом). При K =8 тунисские берберы выглядят как группа (темно-синий цвет). ^[15]

Уменьшение размерности

Генетические данные имеют высокую размерность , и методы уменьшения размерности могут отражать структуру популяции. Анализ главных компонентов (PCA) был впервые применен в популяционной генетике в 1978 году Кавалли-Сфорца и его коллегами и возродился благодаря высокопроизводительному секвенированию . ^[9]^[17] Первоначально PCA использовался для определения частот аллелей известных генетических маркеров для популяций, хотя позже было обнаружено, что путем кодирования SNP как целых чисел (например, как количество нереференсных аллелей ) и нормализации значений, PCA может применяться на уровне отдельных лиц. ^[13]^[18] Одна формулировка рассматривает индивидуумов и биаллельные SNP. Для каждого индивидуума значением локуса является количество нереференсных аллелей (одного из ). Если частота аллеля at равна , то результирующая матрица нормализованных генотипов имеет записи: ^[9] $N$ $S$ $я$ $л$ $g_{i,l}$ $0,1,2$ $л$ $p_ {l}$ $N\times S$

{\frac {g_{i,l}-2p_{l}}{\sqrt {2p_{l}(1-p_{l})}}}

PCA преобразует данные для максимизации дисперсии; при наличии достаточного количества данных, когда каждый человек визуализируется как точка на графике, могут образовываться дискретные кластеры. ^[13] Лица со смешанным происхождением будут иметь тенденцию попадать между кластерами, и когда в данных существует однородная изоляция по расстоянию , верхние векторы PC будут отражать географические различия. ^[19]^[13] Собственные векторы , генерируемые PCA, могут быть явно записаны через среднее время слияния пар особей, что делает PCA полезным для вывода о популяционной истории групп в данной выборке. PCA, однако, не может различать разные процессы, которые приводят к одному и тому же среднему времени слияния. ^[20]

Многомерное масштабирование и дискриминантный анализ использовались для изучения дифференциации, распределения популяций и анализа генетических расстояний. ^[21] Подходы к графам окрестностей , такие как t-распределенное стохастическое встраивание соседей (t-SNE) и аппроксимация и проекция однородного многообразия (UMAP), могут визуализировать континентальную и субконтинентальную структуру человеческих данных. ^[22]^[23] При наличии больших наборов данных UMAP лучше фиксирует структуру населения на нескольких уровнях; мелкомасштабные закономерности можно скрыть или разделить с помощью других методов, и они представляют интерес, когда диапазон популяций разнообразен, когда имеются смешанные популяции или при изучении взаимосвязей между генотипами, фенотипами и/или географией. ^[23]^[24] Вариационные автокодировщики могут генерировать искусственные генотипы со структурой, репрезентативной для входных данных, хотя они не воссоздают закономерности неравновесия по сцеплению. ^[25]

Демографический вывод

Структура популяции — важный аспект эволюционной и популяционной генетики . Такие события, как миграции и взаимодействия между группами, оставляют генетический отпечаток на популяциях. Смешанные популяции будут иметь фрагменты гаплотипов своих предковых групп, которые со временем постепенно сокращаются из-за рекомбинации . Используя этот факт и сопоставляя общие фрагменты гаплотипов отдельных людей в наборе генетических данных, исследователи могут проследить и датировать происхождение смешения населения и реконструировать исторические события, такие как взлет и падение империй, работорговля, колониализм и рост населения. ^[26]

Роль в генетической эпидемиологии

Структура популяции может стать проблемой для ассоциативных исследований , таких как исследования «случай-контроль» , где связь между интересующим признаком и локусом может быть неверной. Например, в исследуемой популяции европейцев и жителей Восточной Азии ассоциативное исследование использования палочек для еды может «обнаружить» у азиатов ген, который приводит к использованию палочек для еды. Однако это ложная связь , поскольку генетический вариант просто более распространен у азиатов, чем у европейцев. ^[27] Кроме того, фактические генетические результаты могут быть упущены из виду, если локус менее распространен в популяции, из которой выбраны субъекты. По этой причине в 1990-е годы было обычным использовать семейные данные, где влияние структуры населения можно было легко контролировать с помощью таких методов, как тест на неравновесие передачи (TDT). ^[28]

Фенотипы (измеримые признаки), такие как рост или риск сердечно-сосудистых заболеваний, являются продуктом некоторой комбинации генов и окружающей среды . Эти черты можно предсказать с помощью полигенных показателей , которые направлены на то, чтобы изолировать и оценить вклад генетики в признак путем суммирования эффектов многих отдельных генетических вариантов. Чтобы получить оценку, исследователи сначала включают участников в исследование ассоциации, чтобы оценить вклад каждого генетического варианта. Затем они могут использовать предполагаемый вклад каждого генетического варианта для расчета оценки признака для человека, который не участвовал в первоначальном исследовании ассоциации. Если структура исследуемой популяции коррелирует с изменчивостью окружающей среды, то полигенный показатель больше не измеряет только генетический компонент. ^[29]

Несколько методов могут, по крайней мере частично, контролировать этот мешающий эффект. Метод геномного контроля был введен в 1999 году и представляет собой относительно непараметрический метод контроля увеличения статистики тестов . ^[30] Также возможно использовать несвязанные генетические маркеры для оценки пропорций предков каждого человека из некоторых K субпопуляций, которые считаются неструктурированными. ^[31] Более поздние подходы используют анализ главных компонентов (PCA), как продемонстрировали Алкес Прайс и его коллеги, ^[32] или путем получения матрицы генетических отношений (также называемой матрицей родства) и включения ее в линейную смешанную модель ( ЛММ). ^[33]^[34]

PCA и LMM стали наиболее распространенными методами контроля влияния структуры популяции. Хотя их, вероятно, достаточно, чтобы избежать ложноположительных результатов в исследованиях ассоциаций, они по-прежнему уязвимы к переоценке величины эффекта маргинально связанных вариантов и могут существенно искажать оценки показателей полигенности и наследственности признаков . ^[35]^[36] Если воздействие на окружающую среду связано с вариантом, который существует только в одном конкретном регионе (например, загрязнитель обнаружен только в одном городе), возможно, вообще невозможно будет скорректировать этот эффект структуры населения. ^[29] Для многих признаков роль структуры сложна и не до конца понятна, и включение ее в генетические исследования остается проблемой и является активной областью исследований. ^[37]