Геном человека представляет собой полный набор последовательностей нуклеиновых кислот для людей, закодированных как ДНК в каждой из 24 отдельных хромосом в ядре клетки. Небольшая молекула ДНК находится в отдельных митохондриях . Обычно их рассматривают отдельно как ядерный геном и митохондриальный геном . [1] Геномы человека включают как последовательности ДНК, кодирующие белки, так и различные типы ДНК, которые не кодируют белки . Последние представляют собой разнообразную категорию, которая включает ДНК, кодирующую нетранслируемую РНК, такую как рибосомальная РНК , транспортная РНК , рибозимы , малые ядерные РНК и несколько типов регуляторных РНК . Он также включает промоторы и связанные с ними элементы регуляции генов , ДНК, играющую структурную и репликативную роль, например, области каркаса , теломеры , центромеры и точки начала репликации , а также большое количество транспонируемых элементов , вставленную вирусную ДНК, нефункциональные псевдогены и простые, высокоповторяющиеся последовательности . Интроны составляют большой процент некодирующей ДНК . Часть этой некодирующей ДНК представляет собой нефункциональную мусорную ДНК , например, псевдогены, но нет твердого консенсуса относительно общего количества мусорной ДНК.
Хотя последовательность генома человека была полностью определена с помощью секвенирования ДНК в 2022 году (включая метилом ), она еще не полностью изучена. Большинство, но не все, гены были идентифицированы с помощью комбинации высокопроизводительных экспериментальных и биоинформатических подходов, однако еще многое предстоит сделать для дальнейшего выяснения биологических функций их белковых и РНК- продуктов.
В 2000 году ученые сообщили о секвенировании 88% генома человека [2] , но по состоянию на 2020 год по крайней мере 8% все еще отсутствовали. [3] В 2021 году ученые сообщили о секвенировании полного женского генома (т. е. без Y-хромосомы). [4] [3] Человеческая Y-хромосома , состоящая из 62 460 029 пар оснований из другой клеточной линии и обнаруженная у всех мужчин, была полностью секвенирована в январе 2022 года. [5]
Текущая версия стандартного референтного генома называется GRCh38.p14 (июль 2023 г.). Она состоит из 22 аутосом плюс одна копия X-хромосомы и одна копия Y-хромосомы. Она содержит приблизительно 3,1 миллиарда пар оснований (3,1 ГБ или 3,1 x 10 9 п.н.). [6] Это представляет собой размер составного генома, основанного на данных нескольких людей, но это хороший показатель типичного количества ДНК в гаплоидном наборе хромосом, поскольку Y-хромосома довольно мала. [7] Большинство человеческих клеток диплоидны, поэтому они содержат вдвое больше ДНК (~6,2 миллиарда пар оснований).
В 2023 году был опубликован проект справочника по пангеному человека. [8] Он основан на 47 геномах людей разной этнической принадлежности. [8] Планируется усовершенствовать справочник, охватывающий еще большее биоразнообразие из еще более широкой выборки. [8]
Хотя существуют значительные различия между геномами отдельных людей (порядка 0,1% из-за однонуклеотидных вариантов [9] и 0,6% при учете инделей ), [10] они значительно меньше, чем различия между людьми и их ближайшими ныне живущими родственниками, бонобо и шимпанзе (~1,1% фиксированных однонуклеотидных вариантов [11] и 4% при учете инделей). [12]
Общая длина эталонного генома человека не представляет последовательность какого-либо конкретного человека, и не представляет последовательность всей ДНК, обнаруженной в клетке. Эталонный геном человека включает только одну копию каждой из парных гомологичных аутосом плюс одну копию каждой из двух половых хромосом (X и Y). Общее количество ДНК в этом эталонном геноме составляет 3,1 миллиарда пар оснований (3,1 Гб). [13]
Последовательности, кодирующие белки, представляют собой наиболее широко изученный и понятный компонент человеческого генома. Эти последовательности в конечном итоге приводят к производству всех человеческих белков , хотя несколько биологических процессов (например, перестройки ДНК и альтернативный сплайсинг пре-мРНК ) могут привести к производству гораздо большего количества уникальных белков, чем число генов, кодирующих белки.
Референтный геном человека содержит где-то от 19 000 до 20 000 генов, кодирующих белок. [14] [15] [16] [17] Эти гены содержат в среднем 10 интронов, а средний размер интрона составляет около 6 кб (6000 п.н.). [18] Это означает, что средний размер гена, кодирующего белок, составляет около 62 кб, и эти гены занимают около 40% генома. [19]
Последовательности экзонов состоят из кодирующей ДНК и нетранслируемых областей (UTR) на обоих концах зрелой мРНК. Общее количество кодирующей ДНК составляет около 1-2% генома. [20] [18]
Многие люди делят геном на кодирующую и некодирующую ДНК, основываясь на идее, что кодирующая ДНК является наиболее важным функциональным компонентом генома. Около 98-99% генома человека составляет некодирующая ДНК.
Некодирующие молекулы РНК играют множество важных ролей в клетках, особенно во многих реакциях синтеза белка и процессинга РНК . Некодирующие гены включают гены тРНК , рибосомальных РНК, микроРНК , мяРНК и длинных некодирующих РНК (lncRNA). [21] [22] [23] [24] Количество зарегистрированных некодирующих генов продолжает медленно расти, но точное их количество в геноме человека еще предстоит определить. Многие РНК считаются нефункциональными. [25]
Многие ncRNA являются критическими элементами в регуляции и экспрессии генов. Некодирующая РНК также вносит вклад в эпигенетику, транскрипцию, сплайсинг РНК и трансляционную машину. Роль РНК в генетической регуляции и болезнях открывает новый потенциальный уровень неисследованной геномной сложности. [26]
Псевдогены — это неактивные копии генов, кодирующих белки, часто генерируемые путем дупликации генов , которые стали нефункциональными из-за накопления инактивирующих мутаций. Количество псевдогенов в геноме человека составляет порядка 13 000, [27] а в некоторых хромосомах почти равно количеству функциональных генов, кодирующих белки. Дупликация генов — это основной механизм, посредством которого в ходе молекулярной эволюции генерируется новый генетический материал .
Например, семейство генов обонятельных рецепторов является одним из наиболее хорошо документированных примеров псевдогенов в геноме человека. Более 60 процентов генов в этом семействе являются нефункциональными псевдогенами у людей. Для сравнения, только 20 процентов генов в семействе генов обонятельных рецепторов у мышей являются псевдогенами. Исследования показывают, что это видоспецифическая характеристика, поскольку наиболее близкородственные приматы имеют пропорционально меньше псевдогенов. Это генетическое открытие помогает объяснить менее острое обоняние у людей по сравнению с другими млекопитающими. [28]
Геном человека имеет много различных регуляторных последовательностей , которые имеют решающее значение для контроля экспрессии генов . Консервативные оценки показывают, что эти последовательности составляют 8% генома, [29] однако экстраполяции из проекта ENCODE показывают, что 20 [30] или более [31] генома — это регуляторные последовательности генов. Некоторые типы некодирующей ДНК являются генетическими «переключателями», которые не кодируют белки, но регулируют, когда и где экспрессируются гены (так называемые энхансеры ). [32]
Регуляторные последовательности известны с конца 1960-х годов. [33] Первая идентификация регуляторных последовательностей в геноме человека основывалась на технологии рекомбинантной ДНК. [34] Позже, с появлением геномного секвенирования, идентификация этих последовательностей могла быть выведена путем эволюционного сохранения. Эволюционная ветвь между приматами и мышью , например, произошла 70–90 миллионов лет назад. [35] Таким образом, компьютерные сравнения последовательностей генов, которые идентифицируют консервативные некодирующие последовательности, будут показателем их важности в таких обязанностях, как регуляция генов. [36]
Другие геномы были секвенированы с той же целью, чтобы помочь методам, направленным на сохранение, например, геном рыбы-собаки . [37] Однако регуляторные последовательности исчезают и повторно эволюционируют в ходе эволюции с высокой скоростью. [38] [39] [40]
Начиная с 2012 года усилия были переключены на поиск взаимодействий между ДНК и регуляторными белками с помощью метода ChIP-Seq или пробелов, где ДНК не упакована гистонами ( сверхчувствительные к ДНКазе участки ), оба из которых указывают на наличие активных регуляторных последовательностей в исследуемом типе клеток. [29]
Повторяющиеся последовательности ДНК составляют приблизительно 50% генома человека. [41]
Около 8% человеческого генома состоит из тандемных ДНК-массивов или тандемных повторов, последовательностей повторов низкой сложности, которые имеют несколько смежных копий (например, «CAGCAGCAG...»). [42] Тандемные последовательности могут иметь переменную длину, от двух нуклеотидов до десятков нуклеотидов. Эти последовательности сильно изменчивы, даже среди близкородственных людей, и поэтому используются для генеалогического ДНК-тестирования и судебно-медицинского ДНК-анализа . [43]
Повторяющиеся последовательности из менее чем десяти нуклеотидов (например, динуклеотидный повтор (AC) n ) называются микросателлитными последовательностями. Среди микросателлитных последовательностей особое значение имеют тринуклеотидные повторы, поскольку иногда они встречаются в кодирующих областях генов белков и могут приводить к генетическим нарушениям. Например, болезнь Хантингтона возникает в результате расширения тринуклеотидного повтора (CAG) n в гене Хантингтина на человеческой хромосоме 4. Теломеры (концы линейных хромосом) заканчиваются микросателлитным гексануклеотидным повтором последовательности (TTAGGG) n . [ необходима цитата ]
Тандемные повторы более длинных последовательностей (массивы повторяющихся последовательностей длиной 10–60 нуклеотидов) называются минисателлитами . [44]
Мобильные генетические элементы , последовательности ДНК, которые могут реплицироваться и вставлять свои копии в другие места в пределах генома хозяина, являются распространенным компонентом в геноме человека. Самая распространенная линия транспозонов, Alu , имеет около 50 000 активных копий, [45] и может быть вставлена в интрагенные и межгенные области. [46] Другая линия, LINE-1, имеет около 100 активных копий на геном (число варьируется у разных людей). [47] Вместе с нефункциональными реликтами старых транспозонов они составляют более половины всей ДНК человека. [48] Иногда называемые «прыгающими генами», транспозоны сыграли важную роль в формировании генома человека. Некоторые из этих последовательностей представляют собой эндогенные ретровирусы , копии ДНК вирусных последовательностей, которые навсегда интегрировались в геном и теперь передаются последующим поколениям. В ДНК человека также присутствует значительное количество ретровирусов , по крайней мере 3 из которых, как было доказано, обладают важной функцией (например, ВИЧ -подобный функциональный HERV-K; гены оболочки нефункциональных вирусов HERV-W и HERV-FRD играют роль в формировании плаценты, вызывая слияние клеток).
Мобильные элементы в геноме человека можно разделить на LTR-ретротранспозоны (8,3% от общего генома), SINE (13,1% от общего генома), включая элементы Alu , LINE (20,4% от общего генома), SVA (SINE- VNTR -Alu) и ДНК-транспозоны II класса (2,9% от общего генома).
Не существует единого мнения о том, что представляет собой «функциональный» элемент в геноме, поскольку генетики, эволюционные биологи и молекулярные биологи используют разные определения и методы. [49] [50] Из-за неоднозначности терминологии возникли разные школы мысли. [51] В эволюционных определениях «функциональная» ДНК, будь то кодирующая или некодирующая, способствует приспособленности организма и, следовательно, поддерживается отрицательным эволюционным давлением , тогда как «нефункциональная» ДНК не приносит организму никакой пользы и, следовательно, находится под нейтральным селективным давлением. Этот тип ДНК был описан как мусорная ДНК . [52] [53] В генетических определениях «функциональная» ДНК связана с тем, как сегменты ДНК проявляются по фенотипу, а «нефункциональная» связана с эффектами потери функции на организм. [49] В биохимических определениях «функциональная» ДНК относится к последовательностям ДНК, которые определяют молекулярные продукты (например, некодирующие РНК) и биохимическую активность с механистическими ролями в регуляции генов или генома (т. е. последовательности ДНК, которые влияют на активность на клеточном уровне, такую как тип клеток, состояние и молекулярные процессы). [54] [49] В литературе нет единого мнения о количестве функциональной ДНК, поскольку в зависимости от того, как понимается «функция», диапазоны оцениваются от 90% генома человека, вероятно, нефункциональной ДНК (мусорная ДНК) [55] до 80% генома, вероятно, функциональной. [56] Также возможно, что мусорная ДНК может приобрести функцию в будущем и, следовательно, может играть роль в эволюции, [57] но это, вероятно, будет происходить очень редко. [52] Наконец, ДНК, которая вредна для организма и находится под отрицательным селективным давлением, называется мусорной ДНК. [53]
Первые последовательности генома человека были опубликованы в почти полной черновой форме в феврале 2001 года проектом « Геном человека» [58] и корпорацией Celera . [59] Завершение работы по секвенированию проекта «Геном человека» было объявлено в 2004 году с публикацией черновой последовательности генома, в которой осталось всего 341 пробел в последовательности, представляющих собой высокоповторяющуюся и другую ДНК, которую невозможно было секвенировать с помощью доступных в то время технологий. [60] Геном человека был первым из всех позвоночных, который был секвенирован до такой почти полной степени, и по состоянию на 2018 год диплоидные геномы более миллиона отдельных людей были определены с помощью секвенирования следующего поколения . [61]
Эти данные используются во всем мире в биомедицинской науке , антропологии , судебной экспертизе и других отраслях науки. Такие геномные исследования привели к прогрессу в диагностике и лечении заболеваний, а также к новым знаниям во многих областях биологии, включая эволюцию человека . [ необходима цитата ]
К 2018 году общее число генов было увеличено по меньшей мере до 46 831 [62] плюс еще 2300 генов микроРНК . [63] Обследование населения 2018 года обнаружило еще 300 миллионов оснований человеческого генома, которые не были в референтной последовательности. [64] До получения полной последовательности генома оценки числа человеческих генов варьировались от 50 000 до 140 000 (с периодической неопределенностью относительно того, включали ли эти оценки гены, не кодирующие белки). [65] По мере улучшения качества последовательности генома и методов идентификации генов, кодирующих белки, [60] количество распознанных генов, кодирующих белки, снизилось до 19 000–20 000. [66]
В 2022 году консорциум Telomere-to-Telomere (T2T) сообщил о полной последовательности женского генома человека [3] , заполнив все пробелы в X-хромосоме (2020) и 22 аутосомах (май 2021). [3] [67] Ранее несеквенированные части содержат гены иммунного ответа , которые помогают адаптироваться к инфекциям и выживать, а также гены, которые важны для прогнозирования реакции на лекарства . [68] Завершенная последовательность генома человека также обеспечит лучшее понимание формирования человека как индивидуального организма и того, как люди различаются как между собой, так и между другими видами. [68]
Хотя в 2001 году было объявлено о «завершении» проекта генома человека [2] , оставались сотни пробелов, причем около 5–10% от общей последовательности оставались неопределенными. Недостающая генетическая информация в основном находилась в повторяющихся гетерохроматиновых регионах и вблизи центромер и теломер , а также в некоторых эухроматиновых регионах, кодирующих гены . [69] В 2015 году, когда были определены последовательности, охватывающие еще 50 ранее несеквенированных регионов, оставалось 160 эухроматиновых пробелов. [70] Только в 2020 году была определена первая по-настоящему полная последовательность теломеры-теломеры человеческой хромосомы, а именно Х-хромосомы . [71] Первая полная последовательность теломеры-теломеры человеческой аутосомной хромосомы, хромосомы 8 , последовала годом позже. [72] Полный геном человека (без Y-хромосомы) был опубликован в 2021 году, а с Y-хромосомой — в январе 2022 года. [3] [4] [73]
В 2023 году был опубликован проект справочника по пангеному человека. [8] Он основан на 47 геномах людей разной этнической принадлежности. [8] Планируется усовершенствовать справочник, охватывающий еще большее биоразнообразие из еще более широкой выборки. [8]
За исключением однояйцевых близнецов, все люди демонстрируют значительные вариации в геномных последовательностях ДНК. Референсный геном человека (HRG) используется в качестве стандартной референсной последовательности.
Есть несколько важных моментов, касающихся референсного генома человека:
Genome Reference Consortium отвечает за обновление HRG. Версия 38 была выпущена в декабре 2013 года. [74]
Большинство исследований генетических вариаций человека были сосредоточены на однонуклеотидных полиморфизмах (SNP), которые представляют собой замены в отдельных основаниях вдоль хромосомы. Большинство анализов оценивают, что SNP встречаются в среднем 1 на 1000 пар оснований в эухроматическом геноме человека, хотя они не встречаются с равномерной плотностью. Отсюда следует популярное утверждение, что «мы все, независимо от расы , генетически на 99,9% одинаковы», [75] хотя это было бы несколько оговорено большинством генетиков. Например, теперь считается, что гораздо большая часть генома участвует в вариации числа копий . [76] Крупномасштабные совместные усилия по каталогизации вариаций SNP в геноме человека предпринимаются Международным проектом HapMap . [ требуется цитата ]
Геномные локусы и длина некоторых типов небольших повторяющихся последовательностей сильно варьируются от человека к человеку, что является основой технологий ДНК-дактилоскопии и ДНК-тестирования отцовства . Гетерохроматиновые части человеческого генома, которые в общей сложности насчитывают несколько сотен миллионов пар оснований, также считаются весьма изменчивыми в пределах человеческой популяции (они настолько повторяются и настолько длинны, что их невозможно точно секвенировать с помощью современных технологий). Эти регионы содержат мало генов, и неясно, возникает ли какой-либо значительный фенотипический эффект из-за типичной вариации в повторах или гетерохроматине.
Большинство крупных геномных мутаций в половых клетках гамет , вероятно, приводят к нежизнеспособным эмбрионам; однако ряд заболеваний человека связан с крупномасштабными геномными аномалиями. Синдром Дауна , синдром Тернера и ряд других заболеваний являются результатом нерасхождения целых хромосом. Раковые клетки часто имеют анеуплоидию хромосом и хромосомных плеч, хотя причинно-следственная связь между анеуплоидией и раком не установлена.
В то время как последовательность генома перечисляет порядок каждого основания ДНК в геноме, карта генома определяет ориентиры. Карта генома менее подробна, чем последовательность генома, и помогает в навигации по геному. [77] [78]
Примером карты вариаций является HapMap, разрабатываемая Международным проектом HapMap . HapMap — это карта гаплотипа генома человека, «которая будет описывать общие закономерности вариаций последовательностей ДНК человека». [79] Она каталогизирует закономерности мелкомасштабных вариаций в геноме, которые включают отдельные буквы ДНК или основания.
Исследователи опубликовали первую основанную на последовательностях карту крупномасштабных структурных вариаций в геноме человека в журнале Nature в мае 2008 года. [80] [81] Крупномасштабные структурные вариации — это различия в геноме у людей, которые варьируются от нескольких тысяч до нескольких миллионов оснований ДНК; некоторые из них представляют собой приобретения или потери участков последовательности генома, а другие появляются как перестройки участков последовательности. Эти вариации включают различия в количестве копий конкретного гена у людей, делеции, транслокации и инверсии.
Структурная вариация относится к генетическим вариантам, которые затрагивают более крупные сегменты человеческого генома, в отличие от точечных мутаций . Часто структурные варианты (СВ) определяются как варианты из 50 пар оснований (пн) или более, такие как делеции, дупликации, вставки, инверсии и другие перестройки. Около 90% структурных вариантов являются некодирующими делециями, но у большинства людей имеется более тысячи таких делеций; размер делеций варьируется от десятков пар оснований до десятков тысяч пн. [82] В среднем люди несут ~3 редких структурных варианта, которые изменяют кодирующие области, например, удаляют экзоны . Около 2% людей несут ультра-редкие структурные варианты мегабазового масштаба, особенно перестройки. То есть миллионы пар оснований могут быть инвертированы в пределах хромосомы; ультра-редкие означает, что они встречаются только у людей или членов их семей и, таким образом, возникли совсем недавно. [82]
Однонуклеотидные полиморфизмы (SNP) не встречаются однородно по всему геному человека. Фактически, существует огромное разнообразие в частоте SNP между генами, отражающее различное селективное давление на каждый ген, а также различные скорости мутаций и рекомбинации по всему геному. Однако исследования SNP смещены в сторону кодирующих областей, данные, полученные из них, вряд ли будут отражать общее распределение SNP по всему геному. Поэтому протокол Консорциума SNP был разработан для идентификации SNP без смещения в сторону кодирующих областей, и 100 000 SNP Консорциума в целом отражают разнообразие последовательностей по всем человеческим хромосомам. Консорциум SNP стремится расширить число SNP, идентифицированных по всему геному, до 300 000 к концу первого квартала 2001 года. [83]
Изменения в некодирующей последовательности и синонимичные изменения в кодирующей последовательности, как правило, встречаются чаще, чем несинонимичные изменения, что отражает большее селективное давление, снижающее разнообразие в позициях, диктующих идентичность аминокислот. Переходные изменения встречаются чаще, чем трансверсии, причем динуклеотиды CpG показывают самую высокую частоту мутаций, предположительно из-за дезаминирования. [ необходима цитата ]
Персональная геномная последовательность — это (почти) полная последовательность химических пар оснований, составляющих ДНК одного человека. Поскольку медицинское лечение оказывает разное воздействие на разных людей из-за генетических вариаций, таких как однонуклеотидные полиморфизмы (SNP), анализ персональных геномов может привести к персонализированному медицинскому лечению на основе индивидуальных генотипов. [84]
Первая определенная последовательность персонального генома была у Крейга Вентера в 2007 году. Персональные геномы не были секвенированы в публичном проекте «Геном человека», чтобы защитить личность добровольцев, предоставивших образцы ДНК. Эта последовательность была получена из ДНК нескольких добровольцев из разнообразной популяции. [85] Однако в начале работы по секвенированию генома Celera Genomics под руководством Вентера было принято решение перейти от секвенирования составного образца к использованию ДНК одного человека, которым, как позже выяснилось, был сам Вентер. Таким образом, последовательность генома человека Celera, опубликованная в 2000 году, в основном принадлежала одному человеку. Последующая замена ранних данных, полученных из составного образца, и определение диплоидной последовательности, представляющей оба набора хромосом , а не гаплоидной последовательности, о которой первоначально сообщалось, позволили опубликовать первый персональный геном. [86] В апреле 2008 года также была завершена работа Джеймса Уотсона . В 2009 году Стивен Куэйк опубликовал свою собственную последовательность генома, полученную с помощью секвенатора собственной конструкции Heliscope. [87] Команда Стэнфорда под руководством Юэна Эшли опубликовала структуру для медицинской интерпретации человеческих геномов, реализованную на геноме Куэйка, и впервые приняла медицинские решения на основе информации о целом геноме. [88] Эта команда еще больше расширила подход к семье Уэст, первой семье, секвенированной в рамках программы секвенирования персонального генома Illumina. [89] С тех пор были опубликованы сотни персональных геномных последовательностей, [90] включая последовательности Десмонда Туту , [91] [92] и палеоэскимоса . [ 93] В 2012 году были обнародованы полные геномные последовательности двух семейных трио из 1092 геномов. [9] В ноябре 2013 года испанская семья сделала четыре персональных набора данных экзома (около 1% генома) общедоступными по лицензии Creative Commons, являющейся общественным достоянием . [94] [95] Проект «Персональный геном» (начатый в 2005 году) является одним из немногих, который сделал общедоступными как последовательности генома, так и соответствующие медицинские фенотипы. [96] [97]
Секвенирование отдельных геномов еще больше раскрыло уровни генетической сложности, которые ранее не были оценены. Персональная геномика помогла выявить значительный уровень разнообразия в геноме человека, приписываемый не только однонуклеотидным полиморфизмам, но и структурным вариациям. Однако применение таких знаний для лечения заболеваний и в медицинской сфере находится только в самом начале. [98] Экзомное секвенирование становится все более популярным в качестве инструмента для помощи в диагностике генетических заболеваний, поскольку экзом составляет всего 1% геномной последовательности, но на него приходится примерно 85% мутаций, которые вносят значительный вклад в заболевание. [99]
У людей нокауты генов естественным образом происходят как гетерозиготные или гомозиготные нокауты генов с потерей функции . Эти нокауты часто трудно различить, особенно в гетерогенных генетических фонах. Их также трудно обнаружить, поскольку они встречаются с низкой частотой.
Популяции с высоким уровнем кровного родства , такие как страны с высоким уровнем браков между двоюродными братьями и сестрами, демонстрируют самые высокие частоты гомозиготных генных нокаутов. Такие популяции включают Пакистан, Исландию и популяции амишей. Эти популяции с высоким уровнем родительского родства были объектами исследований человеческого нокаута, которые помогли определить функцию определенных генов у людей. Выделяя определенные нокауты, исследователи могут использовать фенотипический анализ этих людей, чтобы помочь охарактеризовать ген, который был нокаутирован.
Нокауты в определенных генах могут вызывать генетические заболевания, потенциально иметь полезные эффекты или даже вообще не приводить к фенотипическому эффекту. Однако определение фенотипического эффекта нокаута и у людей может быть сложной задачей. Проблемы с характеристикой и клинической интерпретацией нокаутов включают трудности с вызовом вариантов ДНК, определением нарушения функции белка (аннотация) и рассмотрением степени влияния мозаицизма на фенотип. [100]
Одним из основных исследований, изучавших человеческие нокауты, является исследование риска инфаркта миокарда в Пакистане. Было обнаружено, что у людей, имеющих гетерозиготный нокаут гена потери функции для гена APOC3 , наблюдался более низкий уровень триглицеридов в крови после употребления высокожирной пищи по сравнению с людьми без мутации. Однако у людей, имеющих гомозиготный нокаут гена потери функции гена APOC3, наблюдался самый низкий уровень триглицеридов в крови после теста с жировой нагрузкой, поскольку они не вырабатывают функциональный белок APOC3. [101]
Большинство аспектов человеческой биологии включают как генетические (наследственные), так и негенетические (экологические) факторы. Некоторые наследственные вариации влияют на аспекты нашей биологии, которые не являются медицинскими по своей природе (рост, цвет глаз, способность ощущать вкус или запах определенных соединений и т. д.). Более того, некоторые генетические нарушения вызывают заболевания только в сочетании с соответствующими факторами окружающей среды (такими как диета). С этими оговорками генетические нарушения можно описать как клинически определенные заболевания, вызванные вариацией геномной последовательности ДНК. В самых простых случаях нарушение может быть связано с вариацией в одном гене. Например, кистозный фиброз вызывается мутациями в гене CFTR и является наиболее распространенным рецессивным заболеванием в европеоидной популяции, известно более 1300 различных мутаций. [102]
Мутации, вызывающие заболевания в определенных генах, обычно серьезны с точки зрения функции гена и редки, поэтому генетические расстройства также редки по отдельности. Однако, поскольку существует множество генов, которые могут изменяться, вызывая генетические расстройства, в совокупности они составляют значительный компонент известных медицинских состояний, особенно в педиатрической медицине. Молекулярно охарактеризованные генетические расстройства — это те, для которых был идентифицирован основной причинный ген. В настоящее время в базе данных OMIM аннотировано около 2200 таких расстройств . [102]
Исследования генетических заболеваний часто проводятся с помощью семейных исследований. В некоторых случаях применяются популяционные подходы, особенно в случае так называемых популяций-основателей, таких как в Финляндии, Франко-Канаде, Юте, Сардинии и т. д. Диагностика и лечение генетических заболеваний обычно проводятся врачом - генетиком, прошедшим обучение в области клинической/медицинской генетики. Результаты проекта «Геном человека» могут повысить доступность генетического тестирования на заболевания, связанные с генами, и в конечном итоге улучшить лечение. Родители могут пройти скрининг на наследственные заболевания и получить консультацию о последствиях, вероятности наследования и о том, как избежать или облегчить его у своих детей.
Существует множество различных видов вариаций последовательностей ДНК, от полных дополнительных или отсутствующих хромосом до изменений отдельных нуклеотидов. Обычно предполагается, что большая часть естественных генетических вариаций в человеческих популяциях фенотипически нейтральна, т. е. не оказывает заметного влияния на физиологию индивидуума (хотя могут быть фракционные различия в приспособленности, определяемые в эволюционных временных рамках). Генетические нарушения могут быть вызваны любым или всеми известными типами вариаций последовательностей. Чтобы молекулярно охарактеризовать новое генетическое нарушение, необходимо установить причинно-следственную связь между конкретным вариантом геномной последовательности и исследуемым клиническим заболеванием. Такие исследования составляют область молекулярной генетики человека.
С появлением проекта «Геном человека» и международного проекта HapMap стало возможным исследовать тонкие генетические влияния на многие распространенные заболевания, такие как диабет, астма, мигрень, шизофрения и т. д. Хотя были установлены некоторые причинно-следственные связи между вариантами геномной последовательности в определенных генах и некоторыми из этих заболеваний, часто с большой оглаской в средствах массовой информации, они обычно не считаются генетическими расстройствами как таковыми, поскольку их причины сложны и включают множество различных генетических и экологических факторов. Таким образом, в отдельных случаях могут возникать разногласия относительно того, следует ли называть определенное медицинское состояние генетическим расстройством.
Дополнительные генетические нарушения, о которых следует упомянуть, включают синдром Каллмана и синдром Пфайффера (ген FGFR1), дистрофию роговицы Фукса (ген TCF4), болезнь Гиршпрунга (гены RET и FECH), синдром Барде-Бидля 1 (гены CCDC28B и BBS1), синдром Барде-Бидля 10 (ген BBS10) и плече-лопаточно-лицевую мышечную дистрофию 2-го типа (гены D4Z4 и SMCHD1). [103]
Секвенирование генома теперь способно сузить геном до определенных мест, чтобы более точно находить мутации, которые приведут к генетическому расстройству. Варианты числа копий (CNV) и варианты отдельных нуклеотидов (SNV) также могут быть обнаружены одновременно с секвенированием генома с помощью более новых доступных процедур секвенирования, называемых секвенированием следующего поколения (NGS). [104] Это анализирует только небольшую часть генома, около 1–2%. Результаты этого секвенирования могут быть использованы для клинической диагностики генетического состояния, включая синдром Ашера , заболевание сетчатки, нарушения слуха, диабет, эпилепсию, болезнь Ли , наследственные раковые заболевания, нервно-мышечные заболевания, первичные иммунодефициты, тяжелый комбинированный иммунодефицит (SCID) и заболевания митохондрий. [105] NGS также может быть использован для выявления носителей заболеваний до зачатия. Заболевания, которые можно обнаружить при этом секвенировании, включают болезнь Тея-Сакса , синдром Блума , болезнь Гоше , болезнь Канавана , семейную дизавтономию , муковисцидоз, спинальную мышечную атрофию и синдром ломкой Х-хромосомы . Секвенирование следующего генома можно сузить, чтобы специально искать заболевания, более распространенные в определенных этнических группах. [106]
Сравнительные геномные исследования геномов млекопитающих показывают, что приблизительно 5% человеческого генома были сохранены эволюцией с момента расхождения существующих линий приблизительно 200 миллионов лет назад, содержа подавляющее большинство генов. [107] [108] Опубликованный геном шимпанзе отличается от генома человека на 1,23% при прямом сравнении последовательностей. [109] Около 20% этой цифры приходится на вариации внутри каждого вида, оставляя только ~1,06% последовательного расхождения последовательностей между людьми и шимпанзе в общих генах. [110] Однако эта разница нуклеотид за нуклеотидом затмевается частью каждого генома, которая не является общей, включая около 6% функциональных генов, которые являются уникальными либо для людей, либо для шимпанзе. [111]
Другими словами, значительные наблюдаемые различия между людьми и шимпанзе могут быть обусловлены в той же степени или в большей степени вариациями на уровне генома в количестве, функции и экспрессии генов, а не изменениями последовательности ДНК в общих генах. Действительно, даже у людей было обнаружено ранее неоцененное количество вариаций числа копий (CNV), которое может составлять до 5–15% человеческого генома. Другими словами, у людей может быть +/- 500 000 000 пар оснований ДНК, некоторые из которых являются активными генами, другие инактивированы или активны на разных уровнях. Полное значение этого открытия еще предстоит увидеть. В среднем типичный человеческий ген, кодирующий белок, отличается от своего ортолога шимпанзе всего двумя заменами аминокислот ; почти треть человеческих генов имеют точно такую же трансляцию белка, как и их ортологи шимпанзе. Основным различием между двумя геномами является человеческая хромосома 2 , которая эквивалентна продукту слияния хромосом шимпанзе 12 и 13. [112] (позже переименованных в хромосомы 2A и 2B соответственно).
Люди претерпели необычайную потерю генов обонятельных рецепторов в ходе нашей недавней эволюции, что объясняет наше относительно грубое обоняние по сравнению с большинством других млекопитающих. Эволюционные данные свидетельствуют о том, что появление цветного зрения у людей и нескольких других видов приматов уменьшило потребность в обонянии. [113]
В сентябре 2016 года ученые сообщили, что на основе генетических исследований ДНК человека все неафриканцы в современном мире могут быть отнесены к одной популяции , которая покинула Африку между 50 000 и 80 000 лет назад. [114]
Человеческая митохондриальная ДНК представляет огромный интерес для генетиков, поскольку она, несомненно, играет роль в митохондриальных заболеваниях . Она также проливает свет на эволюцию человека; например, анализ вариаций в митохондриальном геноме человека привел к постулированию недавнего общего предка для всех людей по материнской линии (см. Митохондриальная Ева ).
Из-за повреждений, вызванных воздействием активных форм кислорода, митохондриальная ДНК (мтДНК) имеет более высокую скорость изменения, чем ядерная ДНК. Эта в 20 раз более высокая скорость мутаций позволяет использовать мтДНК для более точного отслеживания материнской родословной. [ требуется цитирование ] Исследования мтДНК в популяциях позволили проследить древние пути миграции, такие как миграция коренных американцев из Сибири [115] или полинезийцев из юго-восточной Азии . [ требуется цитирование ] Это также использовалось, чтобы показать, что нет следов неандертальской ДНК в европейской смеси генов, унаследованной исключительно по материнской линии. [116] Из-за ограничительного способа наследования мтДНК «все или ничего» этот результат (отсутствие следов неандертальской мтДНК) был бы вероятен, если бы не было большого процента неандертальского происхождения или не было сильного положительного отбора для этой мтДНК. Например, если вернуться на 5 поколений назад, то только 1 из 32 предков человека внес вклад в мтДНК этого человека, поэтому, если один из этих 32 был чистым неандертальцем, то ожидаемые ~3% аутосомной ДНК этого человека будут иметь неандертальское происхождение, при этом у них будет ~97% шансов не иметь следов неандертальской мтДНК. [ необходима цитата ]
Эпигенетика описывает множество особенностей человеческого генома, которые выходят за рамки его первичной последовательности ДНК, таких как упаковка хроматина , модификации гистонов и метилирование ДНК , и которые важны для регуляции экспрессии генов, репликации генома и других клеточных процессов. Эпигенетические маркеры усиливают и ослабляют транскрипцию определенных генов, но не влияют на фактическую последовательность нуклеотидов ДНК. Метилирование ДНК является основной формой эпигенетического контроля над экспрессией генов и одной из наиболее изученных тем в эпигенетике. В ходе развития профиль метилирования человеческой ДНК претерпевает резкие изменения. В ранних клетках зародышевой линии геном имеет очень низкие уровни метилирования. Эти низкие уровни обычно описывают активные гены. По мере развития родительские импринтинговые метки приводят к повышению активности метилирования. [117] [118]
Эпигенетические паттерны могут быть идентифицированы между тканями внутри индивидуума, а также между самими индивидуумами. Идентичные гены, которые имеют различия только в своем эпигенетическом состоянии, называются эпиаллелями . Эпиаллели можно разделить на три категории: те, которые напрямую определяются генотипом индивидуума, те, которые находятся под влиянием генотипа, и те, которые полностью независимы от генотипа. Эпигеном также значительно зависит от факторов окружающей среды. Диета, токсины и гормоны влияют на эпигенетическое состояние. Исследования в области диетических манипуляций продемонстрировали, что диеты с дефицитом метила связаны с гипометилированием эпигенома. Такие исследования устанавливают эпигенетику как важный интерфейс между окружающей средой и геномом. [119]
Получено 2 декабря 2022 г.
С операционной точки зрения функциональные элементы определяются как дискретные, линейно упорядоченные особенности последовательности, которые определяют молекулярные продукты (например, гены, кодирующие белок, или некодирующие РНК) или биохимические активности с механистическими ролями в регуляции генов или генома (например, промоторы или энхансеры транскрипции).
Эти данные позволили нам назначить биохимические функции для 80% генома, в частности, за пределами хорошо изученных областей кодирования белков..
Доля небольших (50–100 пн) сегментов в геноме млекопитающих, находящихся под (очищающим) отбором, может быть оценена примерно в 5%. Эта доля намного выше, чем можно объяснить только белок-кодирующими последовательностями, что подразумевает, что геном содержит множество дополнительных признаков (таких как нетранслируемые области, регуляторные элементы, гены, не кодирующие белок, и хромосомные структурные элементы), которые подвергаются отбору для выполнения биологической функции.
Мы подсчитали, что расхождение нуклеотидов по всему геному между человеком и шимпанзе составляет 1,23%, что подтверждает недавние результаты более ограниченных исследований.
мы оцениваем, что полиморфизм отвечает за 14–22% наблюдаемой скорости расхождения и, таким образом, что фиксированное расхождение составляет ~1,06% или меньше.
Наши результаты подразумевают, что люди и шимпанзе различаются по крайней мере на 6% (1418 из 22000 генов) в их наборе генов, что резко контрастирует с часто цитируемой разницей в 1,5% между ортологичными нуклеотидными последовательностями.
Человеческая хромосома 2 возникла в результате слияния двух предковых хромосом, которые остались отдельными в родословной шимпанзе.
Крупномасштабное секвенирование генома шимпанзе уже не за горами.
Наши результаты показывают, что ухудшение обонятельного репертуара произошло одновременно с приобретением полного трихроматического цветового зрения у приматов.