Нарушение равновесия сцепления

В популяционной генетике неравновесное сцепление ( LD ) является мерой неслучайной ассоциации между сегментами ДНК ( аллелями ) в разных положениях на хромосоме ( локусах ) в данной популяции, основанной на сравнении частоты, с которой два аллеля обнаруживаются вместе в одних и тех же локусах, с частотой, с которой каждый аллель просто обнаруживается (отдельно или со вторым аллелем) в тех же локусах. Локусы считаются находящимися в неравновесном сцеплении, когда частота обнаружения вместе (частота ассоциации их различных аллелей) выше или ниже ожидаемой, если бы локусы были независимыми и ассоциировались случайным образом. ^[1]

Хотя паттерн неравновесия сцепления в геноме является мощным сигналом популяционных генетических процессов, которые его структурируют, он не указывает, почему паттерн возникает сам по себе. На неравновесие сцепления влияют многие факторы, включая отбор , скорость генетической рекомбинации , скорость мутаций , генетический дрейф , систему спаривания , структуру популяции и генетическое сцепление .

Несмотря на свое название, неравновесие по сцеплению может существовать между аллелями в разных локусах без какой-либо генетической связи между ними и независимо от того, находятся ли частоты аллелей в равновесии (не изменяются со временем). ^[1] Кроме того, неравновесие по сцеплению иногда называют неравновесием гаметической фазы ; ^[2] однако эта концепция применима также к бесполым организмам и, следовательно, не зависит от наличия гамет .

Формальное определение

Предположим, что среди гамет, которые образуются в популяции, размножающейся половым путем, аллель A встречается с частотой в одном локусе (т. е. представляет собой долю гамет с A в этом локусе), тогда как в другом локусе аллель B встречается с частотой . Аналогично, пусть будет частотой, с которой A и B встречаются вместе в одной и той же гамете (т. е. представляет собой частоту гаплотипа AB ) . $p_{A}$ $p_{A}$ $p_{B}$ $p_{AB}$ $p_{AB}$

Ассоциацию между аллелями A и B можно считать совершенно случайной — что в статистике известно как независимость — когда появление одного не влияет на появление другого, в этом случае вероятность того, что A и B появятся вместе, определяется произведением вероятностей . Говорят, что между двумя аллелями существует неравновесное сцепление, когда отличается от по любой причине. $p_{A}p_{B}$ $p_{AB}$ $p_{A}p_{B}$

Уровень неравновесия сцепления между A и B можно количественно оценить с помощью коэффициента неравновесия сцепления , который определяется как $D_{AB}$

D_{AB}=p_{AB}-p_{A}p_{B},

Неравновесие по сцеплению соответствует . В этом случае и аллели A и B называются находящимися в равновесии по сцеплению . Нижний индекс "AB" подчеркивает, что неравновесие по сцеплению является свойством пары аллелей, а не их соответствующих локусов. Другие пары аллелей в тех же двух локусах могут иметь другие коэффициенты неравновесия по сцеплению. $D_{AB}\neq 0$ $D_{AB}=0$ $p_{AB}=p_{A}p_{B}$ $D_{AB}$ $\{A,B\}$

Для двух биаллельных локусов, где a и b являются другими аллелями в этих двух локусах, ограничения настолько сильны, что только одного значения D достаточно для представления всех неравновесных связей сцепления между этими аллелями. В этом случае . Их связи можно охарактеризовать следующим образом. ^[3] $D_{AB}=-D_{Ab}=-D_{aB}=D_{ab}$

$D=P_{AB}-P_{A}P_{B}$

$-D=P_{Ab}-P_{A}P_{b}$

$-D=P_{aB}-P_{a}P_{B}$

$D=P_{ab}-P_{a}P_{b}$

Знак D в этом случае выбирается произвольно. Величина D важнее знака D , поскольку величина D отражает степень неравновесия сцепления. ^[4] Однако положительное значение D означает, что гамета встречается чаще, чем ожидалось, а отрицательное означает, что сочетание этих двух аллелей встречается реже, чем ожидалось.

Неравновесие сцепления в бесполых популяциях может быть определено аналогичным образом с точки зрения частот аллелей популяции. Кроме того, также возможно определить неравновесие сцепления среди трех или более аллелей, однако эти ассоциации более высокого порядка обычно не используются на практике. ^[1]

Нормализация

Неравновесие сцепления отражает как изменения интенсивности корреляции сцепления, так и изменения частоты генов. Это создает проблему при сравнении неравновесия сцепления между аллелями с разными частотами. Нормализация неравновесия сцепления позволяет легче сравнивать эти аллели. $D$

Метод D'

Левонтин ^[5] предложил рассчитать нормализованное неравновесие сцепления (также называемое относительным неравновесием сцепления) путем деления на теоретическую максимальную разницу между наблюдаемыми и ожидаемыми частотами аллелей следующим образом: $D'$ $D$

D'={\frac {D}{D_{\max }}}

где

D_{\max }={\begin{cases}\min\{p_{A}p_{B},\,(1-p_{A})(1-p_{B})\}&{\text{когда }}D<0\\\min\{p_{A}(1-p_{B}),\,p_{B}(1-p_{A})\}&{\text{когда }}D>0\end{cases}}

Значение будет находиться в диапазоне . Когда , локусы независимы. Когда , аллели встречаются реже, чем ожидалось. Когда , аллели встречаются чаще, чем ожидалось. $D'$ $-1\leq D'\leq 1$ $D'=0$ $-1\leq D'<0$ $0<D'\leq 1$

Обратите внимание, что может использоваться вместо при измерении того, насколько близки два аллеля к равновесию сцепления. $|D'|$ $D'$

Метод r²

Альтернативой является коэффициент корреляции между парами локусов, обычно выражаемый в виде его квадрата, . ^[6] $D'$ $r^{2}$

r^{2}={\frac {D^{2}}{p_{A}(1-p_{A})p_{B}(1-p_{B})}}

Значение будет находиться в диапазоне . Когда , между парой нет корреляции. Когда , корреляция либо совершенно положительная, либо совершенно отрицательная в зависимости от знака . $r^{2}$ $-1\leq r^{2}\leq 1$ $r^{2}=0$ $|r^{2}|=1$ $r^{2}$

Метод д

Другая альтернатива нормализует произведение двух из четырех частот аллелей, когда две частоты представляют аллели из одного и того же локуса. Это позволяет сравнивать асимметрию между парой локусов. Это часто используется в исследованиях случай-контроль, где локус содержит аллель болезни. ^[7] $D$ $Б$

$d={\frac {D}{p_{B}(1-p_{B})}}$

ρ Метод

Подобно методу d, этот альтернативный вариант нормализует по произведению двух из четырех частот аллелей, когда две частоты представляют аллели из разных локусов. ^[7] $D$

$\rho ={\frac {D}{(1-p_{A})p_{B}}}$

Пределы диапазонов мер неравновесия сцепления

Меры и имеют пределы своих диапазонов и не ранжируются по всем значениям от нуля до единицы для всех пар локусов. Максимальное значение зависит от частот аллелей в двух сравниваемых локусах и может полностью варьироваться только от нуля до единицы, когда либо частоты аллелей в обоих локусах равны, где , либо когда частоты аллелей имеют связь , когда . ^[8] Хотя всегда может принимать максимальное значение 1, его минимальное значение для двух локусов равно для этих локусов. ^[9] $r^{2}$ $D'$ $r^{2}$ $P_{A}=P_{B}$ $D>0$ $P_{A}=1-P_{B}$ $D<0$ $D'$ $|г|$

Пример: два локуса и два аллеля

Рассмотрим гаплотипы для двух локусов A и B с двумя аллелями каждый — модель два локуса, два аллеля. Затем следующая таблица определяет частоты каждой комбинации:

Обратите внимание, что это относительные частоты . Можно использовать указанные выше частоты для определения частоты каждого из аллелей:

Если два локуса и аллели независимы друг от друга, то можно ожидать, что частота каждого гаплотипа будет равна произведению частот соответствующих ему аллелей (например, ). $x_{11}=p_{1}q_{1}$

Отклонение наблюдаемой частоты гаплотипа от ожидаемой представляет собой величину ^[10], называемую неравновесием по сцеплению ^[11] и обычно обозначаемую заглавной буквой D :

D=x_{11}-p_{1}q_{1}

Таким образом, если локусы наследовались независимо, то , поэтому , и существует равновесие сцепления. Однако, если наблюдаемая частота гаплотипа была выше, чем можно было бы ожидать на основе индивидуальных частот и , то , поэтому , и существует положительное неравновесие сцепления. И наоборот, если наблюдаемая частота была ниже, то , поэтому , и существует отрицательное неравновесие сцепления. $x_{11}=p_{1}q_{1}$ $D=0$ $A_{1}B_{1}$ $A_{1}$ $B_{1}$ $x_{11}>p_{1}q_{1}$ $D>0$ $x_{11}<p_{1}q_{1}$ $D<0$

В следующей таблице показана связь между частотами гаплотипов и частотами аллелей и D.

Кроме того, мы можем нормализовать наши данные на основе того, чего мы пытаемся достичь. Например, если мы хотим создать карту ассоциаций в исследовании случай-контроль , то мы можем использовать метод d из-за его асимметрии. Если мы пытаемся найти вероятность того, что данный гаплотип будет спускаться в популяции без рекомбинации другими гаплотипами, то, возможно, лучше использовать метод ρ. Но для большинства сценариев, как правило, является самым популярным методом из-за полезности коэффициента корреляции в статистике. Пара примеров того, где это может быть очень полезно, включают измерение скорости рекомбинации в развивающейся популяции или обнаружение ассоциаций с заболеваниями. ^[7] $r^{2}$ $r^{2}$

Роль рекомбинации

При отсутствии других эволюционных сил, кроме случайного спаривания , менделевской сегрегации , случайного хромосомного набора и хромосомного кроссинговера (т. е. при отсутствии естественного отбора , инбридинга и генетического дрейфа ), мера неравновесия по сцеплению стремится к нулю вдоль оси времени со скоростью, зависящей от величины скорости рекомбинации между двумя локусами. $D$ $c$

Используя обозначение выше , мы можем продемонстрировать эту сходимость к нулю следующим образом. В следующем поколении, , частота гаплотипа , становится $D=x_{11}-p_{1}q_{1}$ $x_{11}'$ $A_{1}B_{1}$

x_{11}'=(1-c)\,x_{11}+c\,p_{1}q_{1}

Это следует из того, что часть гаплотипов в потомстве не рекомбинировала и, таким образом, является копиями случайного гаплотипа у своих родителей. Часть из них . Часть рекомбинировала эти два локуса. Если родители являются результатом случайного спаривания, вероятность того, что копия в локусе имеет аллель, равна , а вероятность того, что копия в локусе имеет аллель, равна , и поскольку эти копии изначально находятся в двух разных гаметах, которые сформировали диплоидный генотип, это независимые события, поэтому вероятности можно умножить. $(1-c)$ $x_{11}$ $A_{1}B_{1}$ $c$ $A$ $A_{1}$ $p_{1}$ $B$ $B_{1}$ $q_{1}$

Эту формулу можно переписать как

x_{11}'-p_{1}q_{1}=(1-c)\,(x_{11}-p_{1}q_{1})

так что

D_{1}=(1-c)\;D_{0}

где в -ом поколении обозначается как . Таким образом, имеем $D$ $n$ $D_{n}$

D_{n}=(1-c)^{n}\;D_{0}.

Если , то так что сходится к нулю. $n\to \infty$ $(1-c)^{n}\to 0$ $D_{n}$

Если в какой-то момент мы наблюдаем неравновесие по сцеплению, то оно исчезнет в будущем из-за рекомбинации. Однако, чем меньше расстояние между двумя локусами, тем меньше будет скорость сходимости к нулю. $D$

Визуализация

После расчета неравновесия по сцеплению для набора данных часто выбирается метод визуализации, позволяющий отобразить неравновесие по сцеплению и сделать его более понятным.

Наиболее распространенным методом является использование тепловой карты , где цвета используются для обозначения локусов с положительным неравновесием сцепления и равновесием сцепления. Этот пример отображает полную тепловую карту, но поскольку тепловая карта симметрична по диагонали (то есть неравновесие сцепления между локусами A и B такое же, как между B и A), также часто используется треугольная тепловая карта, которая показывает пары только один раз. Этот метод имеет преимущество в том, что его легко интерпретировать, но он также не может отображать информацию о других переменных, которые могут представлять интерес.

Также доступны более надежные варианты визуализации, такие как текстильный график. На текстильном графике комбинации аллелей в определенных локусах могут быть связаны с комбинациями аллелей в других локусах. Каждый генотип (комбинация аллелей) представлен кругом, площадь которого пропорциональна частоте этого генотипа, со столбцом для каждого локуса. Линии проведены от каждого круга к кругам в другом столбце(ах), а толщина соединительной линии пропорциональна частоте, с которой два генотипа встречаются вместе. Неравновесие по сцеплению видно по количеству пересечений линий на диаграмме, где большее количество пересечений линий указывает на низкое неравновесие по сцеплению, а меньшее количество пересечений указывает на высокое неравновесие по сцеплению. Преимущество этого метода в том, что он показывает индивидуальные частоты генотипов и включает визуальное различие между абсолютным (где аллели в двух локусах всегда появляются вместе) и полным (где аллели в двух локусах показывают сильную связь, но с возможностью рекомбинации) неравновесием по сцеплению по форме графика. ^[12]

Другой вариант визуализации — леса иерархических моделей скрытых классов (FHLCM). Все локусы отображаются вдоль верхнего слоя графика, а ниже этого верхнего слоя добавляются блоки, представляющие скрытые переменные, со ссылками на верхний уровень. Линии соединяют локусы на верхнем уровне со скрытыми переменными ниже, и чем ниже уровень блока, с которым связаны локусы, тем больше неравновесие сцепления и меньше расстояние между локусами. Хотя этот метод не имеет тех же преимуществ, что и текстильный график, он позволяет визуализировать локусы, которые находятся далеко друг от друга, не требуя перестановки последовательности, как в случае с текстильным графиком. ^[13]

Это не исчерпывающий список методов визуализации, и для отображения набора данных можно использовать несколько методов, чтобы получить более полную картину данных на основе информации, которую исследователь стремится выделить.

Ресурсы

Сравнение различных показателей LD представлено Девлином и Ришем ^[14]

Международный проект HapMap позволяет изучать LD в человеческих популяциях онлайн. Проект Ensembl интегрирует данные HapMap с другой генетической информацией из dbSNP .

Аналитическое программное обеспечение

PLINK – набор инструментов для анализа ассоциаций всего генома, который может, помимо прочего, рассчитывать LD
LDHat Архивировано 2016-05-13 в Wayback Machine
Haploview
LdCompare ^[15] — программное обеспечение с открытым исходным кодом для расчета LD.
SNP и Variation Suite – коммерческое программное обеспечение с интерактивным графиком LD.
GOLD – Графический обзор неравновесия сцепления
TASSEL – программное обеспечение для оценки неравновесия сцепления, ассоциаций признаков и эволюционных закономерностей
rAggr – находит прокси-маркеры (SNP и индели), которые находятся в неравновесном сцеплении с набором запрашиваемых маркеров, используя базы данных генотипов проекта 1000 Genomes и HapMap .
SNeP – Быстрое вычисление LD и Ne для больших наборов данных генотипов в формате PLINK.
LDlink – Набор веб-приложений для простого и эффективного исследования неравновесия сцепления в подгруппах населения. Все данные о генотипах населения берут начало в фазе 3 проекта 1000 геномов, а номера вариантов RS индексируются на основе сборки dbSNP 151.
Bcftools – утилиты для вызова вариантов и управления VCF и BCF.

Программное обеспечение для моделирования

Haploid — библиотека C для популяционно-генетического моделирования ( GPL )

Смотрите также

Ссылки

^ abc Slatkin, Montgomery (июнь 2008 г.). «Неравновесие сцепления — понимание эволюционного прошлого и картирование медицинского будущего». Nature Reviews Genetics . 9 (6): 477–485. doi :10.1038/nrg2361. PMC 5124487. PMID 18427557 .
^ Фалконер, DS; Маккей, TFC (1996). Введение в количественную генетику (4-е изд.). Харлоу, Эссекс, Великобритания: Addison Wesley Longman. ISBN 978-0-582-24302-6.
^ Слаткин, Монтгомери (июнь 2008 г.). «Неравновесие сцепления — понимание эволюционного прошлого и картирование медицинского будущего». Nature Reviews Genetics . 9 (6): 477–485. doi :10.1038/nrg2361. ISSN 1471-0056. PMC 5124487. PMID 18427557 .
^ Калабрезе, Барбара (2019-01-01), «Неравновесие сцепления», в Ранганатан, Шоба; Грибсков, Майкл; Накаи, Кента; Шёнбах, Кристиан (ред.), Энциклопедия биоинформатики и вычислительной биологии , Оксфорд: Academic Press, стр. 763–765, doi :10.1016/b978-0-12-809633-8.20234-3, ISBN 978-0-12-811432-2, S2CID 226248080 , получено 21.10.2020
^ Левонтин, RC (1964). «Взаимодействие отбора и сцепления. I. Общие соображения; гетерозисные модели». Генетика . 49 ( 1): 49–67. doi :10.1093/genetics/49.1.49. PMC 1210557. PMID 17248194.
^ Хилл, WG и Робертсон, A. (1968). «Неравновесие по сцеплению в конечных популяциях». Теоретическая и прикладная генетика . 38 (6): 226–231. doi :10.1007/BF01245622. PMID 24442307. S2CID 11801197.{{cite journal}}: CS1 maint: multiple names: authors list (link)
^ abc Kang, Jonathan TL; Rosenberg, Noah A. (2019). «Математические свойства статистики неравновесия сцепления, определяемой нормализацией коэффициента D = pAB – pApB». Human Heredity . 84 (3): 127–143. doi :10.1159/000504171. ISSN 0001-5652. PMC 7199518 . PMID 32045910.
^ VanLiere, JM & Rosenberg, NA (2008). "Математические свойства меры r 2 {\displaystyle r^{2}} неравновесия по сцеплению". Теоретическая популяционная биология . 74 (1): 130–137. doi :10.1016/j.tpb.2008.05.006. PMC 2580747. PMID 18572214 . {{cite journal}}: CS1 maint: multiple names: authors list (link)
^ Смит, РД (2020). «Нелинейная структура неравновесия по сцеплению». Теоретическая популяционная биология . 134 : 160–170. doi :10.1016/j.tpb.2020.02.005. PMID 32222435. S2CID 214716456.
↑ Роббинс, Р. Б. (1 июля 1918 г.). «Некоторые приложения математики к проблемам разведения III». Генетика . 3 (4): 375–389. doi :10.1093/genetics/3.4.375. PMC 1200443. PMID 17245911 .
^ RC Lewontin & K. Kojima (1960). «Эволюционная динамика сложных полиморфизмов». Эволюция . 14 (4): 458–472. doi :10.2307/2405995. ISSN 0014-3820. JSTOR 2405995.
^ Кумасака, Нацухико; Накамура, Юсукэ; Каматани, Наоюки (2010-04-27). «Текстильный график: новое отображение неравновесия сцепления данных о генотипе полиморфизма множественных одиночных нуклеотидов». PLoS ONE . 5 (4): e10207. doi : 10.1371/journal.pone.0010207 . ISSN 1932-6203. PMC 2860502. PMID 20436909 .
^ Мурад, Рафаэль; Синоке, Кристин; Дина, Кристиан; Лере, Филипп (2011-12-13). «Визуализация структуры парного и многолокусного неравновесия сцепления с использованием скрытых лесов». PLoS ONE . 6 (12): e27320. doi : 10.1371/journal.pone.0027320 . ISSN 1932-6203. PMC 3236755. PMID 22174739 .
^ Девлин Б.; Риш Н. (1995). «Сравнение мер неравновесия сцепления для мелкомасштабного картирования» (PDF) . Геномика . 29 (2): 311–322. CiteSeerX 10.1.1.319.9349 . doi :10.1006/geno.1995.9003. PMID 8666377.
^ Хао К.; Ди Х.; Коули С. (2007). «LdCompare: быстрое вычисление одно- и многомаркерного r2 и генетического покрытия». Биоинформатика . 23 (2): 252–254. doi : 10.1093/bioinformatics/btl574 . PMID 17148510.

Дальнейшее чтение

Хедрик, Филип В. (2005). Генетика популяций (3-е изд.). Садбери, Бостон, Торонто, Лондон, Сингапур: Jones and Bartlett Publishers. ISBN 978-0-7637-4772-5.
Библиография: Анализ неравновесия по сцеплению: библиография из более чем тысячи статей по неравновесию по сцеплению, опубликованных с 1918 года.