В популяционной генетике неравновесное сцепление ( LD ) является мерой неслучайной ассоциации между сегментами ДНК ( аллелями ) в разных положениях на хромосоме ( локусах ) в данной популяции, основанной на сравнении частоты, с которой два аллеля обнаруживаются вместе в одних и тех же локусах, с частотой, с которой каждый аллель просто обнаруживается (отдельно или со вторым аллелем) в тех же локусах. Локусы считаются находящимися в неравновесном сцеплении, когда частота обнаружения вместе (частота ассоциации их различных аллелей) выше или ниже ожидаемой, если бы локусы были независимыми и ассоциировались случайным образом. [1]
Хотя паттерн неравновесия сцепления в геноме является мощным сигналом популяционных генетических процессов, которые его структурируют, он не указывает, почему паттерн возникает сам по себе. На неравновесие сцепления влияют многие факторы, включая отбор , скорость генетической рекомбинации , скорость мутаций , генетический дрейф , систему спаривания , структуру популяции и генетическое сцепление .
Несмотря на свое название, неравновесие по сцеплению может существовать между аллелями в разных локусах без какой-либо генетической связи между ними и независимо от того, находятся ли частоты аллелей в равновесии (не изменяются со временем). [1] Кроме того, неравновесие по сцеплению иногда называют неравновесием гаметической фазы ; [2] однако эта концепция применима также к бесполым организмам и, следовательно, не зависит от наличия гамет .
Предположим, что среди гамет, которые образуются в популяции, размножающейся половым путем, аллель A встречается с частотой в одном локусе (т. е. представляет собой долю гамет с A в этом локусе), тогда как в другом локусе аллель B встречается с частотой . Аналогично, пусть будет частотой, с которой A и B встречаются вместе в одной и той же гамете (т. е. представляет собой частоту гаплотипа AB ) .
Ассоциацию между аллелями A и B можно считать совершенно случайной — что в статистике известно как независимость — когда появление одного не влияет на появление другого, в этом случае вероятность того, что A и B появятся вместе, определяется произведением вероятностей . Говорят, что между двумя аллелями существует неравновесное сцепление, когда отличается от по любой причине.
Уровень неравновесия сцепления между A и B можно количественно оценить с помощью коэффициента неравновесия сцепления , который определяется как
Неравновесие по сцеплению соответствует . В этом случае и аллели A и B называются находящимися в равновесии по сцеплению . Нижний индекс "AB" подчеркивает, что неравновесие по сцеплению является свойством пары аллелей, а не их соответствующих локусов. Другие пары аллелей в тех же двух локусах могут иметь другие коэффициенты неравновесия по сцеплению.
Для двух биаллельных локусов, где a и b являются другими аллелями в этих двух локусах, ограничения настолько сильны, что только одного значения D достаточно для представления всех неравновесных связей сцепления между этими аллелями. В этом случае . Их связи можно охарактеризовать следующим образом. [3]
Знак D в этом случае выбирается произвольно. Величина D важнее знака D , поскольку величина D отражает степень неравновесия сцепления. [4] Однако положительное значение D означает, что гамета встречается чаще, чем ожидалось, а отрицательное означает, что сочетание этих двух аллелей встречается реже, чем ожидалось.
Неравновесие сцепления в бесполых популяциях может быть определено аналогичным образом с точки зрения частот аллелей популяции. Кроме того, также возможно определить неравновесие сцепления среди трех или более аллелей, однако эти ассоциации более высокого порядка обычно не используются на практике. [1]
Неравновесие сцепления отражает как изменения интенсивности корреляции сцепления, так и изменения частоты генов. Это создает проблему при сравнении неравновесия сцепления между аллелями с разными частотами. Нормализация неравновесия сцепления позволяет легче сравнивать эти аллели.
Левонтин [5] предложил рассчитать нормализованное неравновесие сцепления (также называемое относительным неравновесием сцепления) путем деления на теоретическую максимальную разницу между наблюдаемыми и ожидаемыми частотами аллелей следующим образом:
где
Значение будет находиться в диапазоне . Когда , локусы независимы. Когда , аллели встречаются реже, чем ожидалось. Когда , аллели встречаются чаще, чем ожидалось.
Обратите внимание, что может использоваться вместо при измерении того, насколько близки два аллеля к равновесию сцепления.
Альтернативой является коэффициент корреляции между парами локусов, обычно выражаемый в виде его квадрата, . [6]
Значение будет находиться в диапазоне . Когда , между парой нет корреляции. Когда , корреляция либо совершенно положительная, либо совершенно отрицательная в зависимости от знака .
Другая альтернатива нормализует произведение двух из четырех частот аллелей, когда две частоты представляют аллели из одного и того же локуса. Это позволяет сравнивать асимметрию между парой локусов. Это часто используется в исследованиях случай-контроль, где локус содержит аллель болезни. [7]
Подобно методу d, этот альтернативный вариант нормализует по произведению двух из четырех частот аллелей, когда две частоты представляют аллели из разных локусов. [7]
Меры и имеют пределы своих диапазонов и не ранжируются по всем значениям от нуля до единицы для всех пар локусов. Максимальное значение зависит от частот аллелей в двух сравниваемых локусах и может полностью варьироваться только от нуля до единицы, когда либо частоты аллелей в обоих локусах равны, где , либо когда частоты аллелей имеют связь , когда . [8] Хотя всегда может принимать максимальное значение 1, его минимальное значение для двух локусов равно для этих локусов. [9]
Рассмотрим гаплотипы для двух локусов A и B с двумя аллелями каждый — модель два локуса, два аллеля. Затем следующая таблица определяет частоты каждой комбинации:
Обратите внимание, что это относительные частоты . Можно использовать указанные выше частоты для определения частоты каждого из аллелей:
Если два локуса и аллели независимы друг от друга, то можно ожидать, что частота каждого гаплотипа будет равна произведению частот соответствующих ему аллелей (например, ).
Отклонение наблюдаемой частоты гаплотипа от ожидаемой представляет собой величину [10], называемую неравновесием по сцеплению [11] и обычно обозначаемую заглавной буквой D :
Таким образом, если локусы наследовались независимо, то , поэтому , и существует равновесие сцепления. Однако, если наблюдаемая частота гаплотипа была выше, чем можно было бы ожидать на основе индивидуальных частот и , то , поэтому , и существует положительное неравновесие сцепления. И наоборот, если наблюдаемая частота была ниже, то , поэтому , и существует отрицательное неравновесие сцепления.
В следующей таблице показана связь между частотами гаплотипов и частотами аллелей и D.
Кроме того, мы можем нормализовать наши данные на основе того, чего мы пытаемся достичь. Например, если мы хотим создать карту ассоциаций в исследовании случай-контроль , то мы можем использовать метод d из-за его асимметрии. Если мы пытаемся найти вероятность того, что данный гаплотип будет спускаться в популяции без рекомбинации другими гаплотипами, то, возможно, лучше использовать метод ρ. Но для большинства сценариев, как правило, является самым популярным методом из-за полезности коэффициента корреляции в статистике. Пара примеров того, где это может быть очень полезно, включают измерение скорости рекомбинации в развивающейся популяции или обнаружение ассоциаций с заболеваниями. [7]
При отсутствии других эволюционных сил, кроме случайного спаривания , менделевской сегрегации , случайного хромосомного набора и хромосомного кроссинговера (т. е. при отсутствии естественного отбора , инбридинга и генетического дрейфа ), мера неравновесия по сцеплению стремится к нулю вдоль оси времени со скоростью, зависящей от величины скорости рекомбинации между двумя локусами.
Используя обозначение выше , мы можем продемонстрировать эту сходимость к нулю следующим образом. В следующем поколении, , частота гаплотипа , становится
Это следует из того, что часть гаплотипов в потомстве не рекомбинировала и, таким образом, является копиями случайного гаплотипа у своих родителей. Часть из них . Часть рекомбинировала эти два локуса. Если родители являются результатом случайного спаривания, вероятность того, что копия в локусе имеет аллель, равна , а вероятность того, что копия в локусе имеет аллель, равна , и поскольку эти копии изначально находятся в двух разных гаметах, которые сформировали диплоидный генотип, это независимые события, поэтому вероятности можно умножить.
Эту формулу можно переписать как
так что
где в -ом поколении обозначается как . Таким образом, имеем
Если , то так что сходится к нулю.
Если в какой-то момент мы наблюдаем неравновесие по сцеплению, то оно исчезнет в будущем из-за рекомбинации. Однако, чем меньше расстояние между двумя локусами, тем меньше будет скорость сходимости к нулю.
После расчета неравновесия по сцеплению для набора данных часто выбирается метод визуализации, позволяющий отобразить неравновесие по сцеплению и сделать его более понятным.
Наиболее распространенным методом является использование тепловой карты , где цвета используются для обозначения локусов с положительным неравновесием сцепления и равновесием сцепления. Этот пример отображает полную тепловую карту, но поскольку тепловая карта симметрична по диагонали (то есть неравновесие сцепления между локусами A и B такое же, как между B и A), также часто используется треугольная тепловая карта, которая показывает пары только один раз. Этот метод имеет преимущество в том, что его легко интерпретировать, но он также не может отображать информацию о других переменных, которые могут представлять интерес.
Также доступны более надежные варианты визуализации, такие как текстильный график. На текстильном графике комбинации аллелей в определенных локусах могут быть связаны с комбинациями аллелей в других локусах. Каждый генотип (комбинация аллелей) представлен кругом, площадь которого пропорциональна частоте этого генотипа, со столбцом для каждого локуса. Линии проведены от каждого круга к кругам в другом столбце(ах), а толщина соединительной линии пропорциональна частоте, с которой два генотипа встречаются вместе. Неравновесие по сцеплению видно по количеству пересечений линий на диаграмме, где большее количество пересечений линий указывает на низкое неравновесие по сцеплению, а меньшее количество пересечений указывает на высокое неравновесие по сцеплению. Преимущество этого метода в том, что он показывает индивидуальные частоты генотипов и включает визуальное различие между абсолютным (где аллели в двух локусах всегда появляются вместе) и полным (где аллели в двух локусах показывают сильную связь, но с возможностью рекомбинации) неравновесием по сцеплению по форме графика. [12]
Другой вариант визуализации — леса иерархических моделей скрытых классов (FHLCM). Все локусы отображаются вдоль верхнего слоя графика, а ниже этого верхнего слоя добавляются блоки, представляющие скрытые переменные, со ссылками на верхний уровень. Линии соединяют локусы на верхнем уровне со скрытыми переменными ниже, и чем ниже уровень блока, с которым связаны локусы, тем больше неравновесие сцепления и меньше расстояние между локусами. Хотя этот метод не имеет тех же преимуществ, что и текстильный график, он позволяет визуализировать локусы, которые находятся далеко друг от друга, не требуя перестановки последовательности, как в случае с текстильным графиком. [13]
Это не исчерпывающий список методов визуализации, и для отображения набора данных можно использовать несколько методов, чтобы получить более полную картину данных на основе информации, которую исследователь стремится выделить.
Сравнение различных показателей LD представлено Девлином и Ришем [14]
Международный проект HapMap позволяет изучать LD в человеческих популяциях онлайн. Проект Ensembl интегрирует данные HapMap с другой генетической информацией из dbSNP .
{{cite journal}}
: CS1 maint: multiple names: authors list (link){{cite journal}}
: CS1 maint: multiple names: authors list (link)