Цифровая база данных последовательностей нуклеиновых кислот
Референсный геном ( также известный как референсная сборка ) — это цифровая база данных последовательностей нуклеиновых кислот , собранная учеными в качестве репрезентативного примера набора генов в одном идеальном индивидуальном организме вида. Поскольку они собираются из секвенирования ДНК от нескольких индивидуальных доноров, референсные геномы не точно представляют набор генов любого отдельного индивидуального организма. Вместо этого референс предоставляет гаплоидную мозаику различных последовательностей ДНК от каждого донора. Например, один из самых последних референсных геномов человека, сборка GRCh38/hg38 , получен из >60 библиотек геномных клонов . [1] Существуют референсные геномы для нескольких видов вирусов , бактерий , грибов , растений и животных . Референсные геномы обычно используются в качестве руководства, на основе которого строятся новые геномы, что позволяет собирать их гораздо быстрее и дешевле, чем первоначальный проект «Геном человека» . Доступ к референтным геномам можно получить в Интернете в нескольких местах, используя специальные браузеры, такие как Ensembl или UCSC Genome Browser . [2]
Свойства референтных геномов
Меры длины
Длину генома можно измерить несколькими способами.
Простой способ измерения длины генома — подсчет количества пар оснований в сборке. [3]
Золотой путь — это альтернативная мера длины, которая исключает избыточные регионы, такие как гаплотипы и псевдоаутосомные регионы . [4] [5] Обычно он строится путем наложения информации о секвенировании на физическую карту для объединения информации о каркасе. Это «лучшая оценка» того, как будет выглядеть геном , и обычно включает пробелы, что делает его длиннее, чем типичная сборка пар оснований. [6]
Контиги и скаффолды
Сборка референтных геномов требует перекрытия прочтений, создавая контиги , которые являются смежными областями ДНК консенсусных последовательностей . [7] Если между контигами есть пробелы, их можно заполнить с помощью скаффолдинга , либо путем амплификации контигов с помощью ПЦР и секвенирования, либо путем клонирования бактериальной искусственной хромосомы (BAC) . [8] [7] Заполнение этих пробелов не всегда возможно, в этом случае в референтной сборке создается несколько скаффолдов. [9] Скаффолды классифицируются на 3 типа: 1) размещенные, хромосома которых, геномные координаты и ориентации известны; 2) нелокализованные, когда известна только хромосома, но не координаты или ориентация; 3) неразмещенные, хромосома которых неизвестна. [10]
Число контигов и остовов , а также их средняя длина являются значимыми параметрами, среди многих других, для оценки качества сборки референтного генома, поскольку они предоставляют информацию о непрерывности окончательного отображения исходного генома. Чем меньше число остовов на хромосому, пока один остов не займет всю хромосому, тем выше непрерывность сборки генома. [11] [12] [13] Другие связанные параметры — N50 и L50 . N50 — это длина контигов/остовов, в которых 50% сборки находится во фрагментах этой длины или больше, в то время как L50 — это количество контигов/остовов, длина которых составляет N50. Чем выше значение N50, тем ниже значение L50, и наоборот, что указывает на высокую непрерывность сборки. [14] [15] [16]
Последняя сборка референсного генома человека, выпущенная Genome Reference Consortium , была GRCh38 в 2017 году. [25] Для ее обновления было добавлено несколько патчей, последний из которых — GRCh38.p14, опубликованный 3 февраля 2022 года. [26] [27] Эта сборка имеет всего 349 пробелов во всей сборке, что подразумевает значительное улучшение по сравнению с первой версией, в которой было примерно 150 000 пробелов. [18] Пробелы в основном находятся в таких областях, как теломеры , центромеры и длинные повторяющиеся последовательности , с самым большим пробелом вдоль длинного плеча Y-хромосомы, областью длиной ~30 Мб (~52% длины Y-хромосомы). [28] Количество библиотек геномных клонов, вносящих вклад в референс, неуклонно увеличивалось до >60 за эти годы, хотя отдельные RP11 по-прежнему составляют 70% референсного генома. [1] Геномный анализ этого анонимного мужчины предполагает, что он имеет афро-европейское происхождение. [1] Согласно веб-сайту GRC, их следующий выпуск сборки для человеческого генома (версия GRCh39) в настоящее время «отложен на неопределенный срок». [29]
В 2022 году Консорциум теломер-теломер (T2T) [30] , открытый, основанный на сообществе проект, опубликовал первый полностью собранный референсный геном (версия T2T-CHM13) без каких-либо пробелов в сборке. Он не содержал Y-хромосому до версии 2.0. [31] [32] Эта сборка позволяет исследовать эволюцию центромерной и перицентромерной последовательности. Консорциум использовал строгие методы для сборки, очистки и проверки сложных повторяющихся областей, которые особенно трудно секвенировать. [33] Он использовал сверхдлинное секвенирование (>100 кб) для точного секвенирования сегментных дупликаций . [34]
T2T-CHM13 секвенирован из CHM13hTERT, клеточной линии из по существу гаплоидного пузырного заноса . «CHM» означает «Complete Hydatidiform Mole», а «13» — это номер его линии. «hTERT» означает «human Telomerase Reverse Transcriptase ». Клеточная линия была трансфицирована геном TERT, который отвечает за поддержание длины теломер и, таким образом, способствует бессмертию клеточной линии . [35] Пузырный занос содержит две копии одного и того же родительского генома и, таким образом, по существу гаплоиден. Это устраняет аллельные вариации и обеспечивает лучшую точность секвенирования. [34]
Последние сборки генома следующие: [36]
Ограничения
Для большей части генома ссылка обеспечивает хорошее приближение ДНК любого отдельного человека. Но в регионах с высоким аллельным разнообразием , таких как главный комплекс гистосовместимости у людей и основные белки мочи у мышей, эталонный геном может значительно отличаться от других людей. [37] [38] [39] В связи с тем, что эталонный геном представляет собой «единую» отдельную последовательность, что дает его полезность в качестве индекса или локатора геномных особенностей, существуют ограничения с точки зрения того, насколько точно он представляет человеческий геном и его изменчивость . Большинство исходных образцов, используемых для секвенирования эталонного генома, были получены от людей европейского происхождения. В 2010 году было обнаружено, что при сборке de novo геномов из африканских и азиатских популяций с эталонным геномом NCBI (версия NCBI36) эти геномы имели последовательности размером ~5 Мб, которые не совпадали ни с одним регионом эталонного генома. [40]
Последующие проекты проекта «Геном человека» направлены на более глубокую и разнообразную характеристику генетической изменчивости человека, которую эталонный геном не может отразить. Проект HapMap , действующий в период 2002–2010 гг., с целью создания карты гаплотипов и их наиболее распространенных вариаций среди различных популяций человека. Было изучено до 11 популяций разного происхождения, таких как представители этнической группы хань из Китая, гуджаратцы из Индии, народ йоруба из Нигерии или японцы и другие. [41] [42] [43] [44] Проект «1000 геномов» , реализуемый в период с 2008 по 2015 гг., с целью создания базы данных, которая включает более 95% вариаций, присутствующих в геноме человека, и результаты которой могут быть использованы в исследованиях ассоциации с заболеваниями ( GWAS ), такими как диабет, сердечно-сосудистые или аутоиммунные заболевания. В этом проекте было изучено в общей сложности 26 этнических групп, что расширило сферу охвата проекта HapMap на новые этнические группы, такие как народ менде в Сьерра-Леоне, вьетнамцы или бенгальцы . [45] [46] [47] [48] Проект «Пангеном человека», начальная фаза которого началась в 2019 году с создания Консорциума по референтному анализу пангенома человека, направлен на создание крупнейшей карты генетической изменчивости человека, взяв за отправную точку результаты предыдущих исследований. [49] [50]
Референсный геном мыши
Последние сборки генома мыши выглядят следующим образом: [36]
Другие геномы
После завершения проекта «Геном человека» было начато несколько международных проектов, направленных на сборку референтных геномов для многих организмов. Модельные организмы (например, данио-рерио ( Danio rerio ), курица ( Gallus gallus ), Escherichia coli и т. д.) представляют особый интерес для научного сообщества, как и, например, исчезающие виды (например, азиатская арована ( Scleropages formosus ) или американский бизон ( Bison bison )). По состоянию на август 2022 года база данных NCBI содержит 71 886 частично или полностью секвенированных и собранных геномов разных видов, таких как 676 млекопитающих , 590 птиц и 865 рыб . Также следует отметить количество геномов 1796 насекомых , 3747 грибов , 1025 растений , 33 724 бактерий , 26 004 вирусов и 2040 архей . [51] Многие из этих видов имеют аннотационные данные, связанные с их референтными геномами, которые могут быть общедоступны и визуализированы в геномных браузерах, таких как Ensembl и UCSC Genome Browser . [52] [53]
Вот несколько примеров таких международных проектов: проект «Геном шимпанзе» , реализуемый в период с 2005 по 2013 год совместно Институтом Брода и Институтом генома Макдоннелла Вашингтонского университета в Сент-Луисе , в ходе которого были получены первые референтные геномы для 4 подвидов Pan troglodytes ; [54] [55] проект «Геном 100K патогенов» , стартовавший в 2012 году с главной целью создания базы данных референтных геномов для 100 000 патогенных микроорганизмов для использования в здравоохранении, выявлении вспышек, сельском хозяйстве и охране окружающей среды; [56] проект «Биогеном Земли» , стартовавший в 2018 году и направленный на секвенирование и каталогизацию геномов всех эукариотических организмов на Земле для содействия проектам по сохранению биоразнообразия. Внутри этого крупного научного проекта есть до 50 менее масштабных дочерних проектов, таких как проект «Биогеном Африки» или проект «1000 геномов грибов». [57] [58] [59]
Ссылки
^ abc "Сколько людей было секвенировано для сборки референсного генома человека?". Genome Reference Consortium . Получено 7 апреля 2022 г.
^ Flicek P, Aken BL, Beal K, Ballester B, Caccamo M, Chen Y и др. (январь 2008 г.). "Ensembl 2008". Nucleic Acids Research . 36 (выпуск базы данных): D707–D714. doi :10.1093/nar/gkm988. PMC 2238821. PMID 18000006 .
^ Ло, Цзюньвэй; Вэй, Явэй; Лю, Менгна; Ву, Чжэнцзян; Лю, Сяоянь; Ло, Хуэйминь; Ян, Чаокун (02 сентября 2021 г.). «Всесторонний обзор методов сборки генома». Брифинги по биоинформатике . 22 (5): bbab033. дои : 10.1093/нагрудник/bbab033. ISSN 1477-4054. ПМИД 33634311.
^ "Хромосомы, каркасы и контиги". www.ensembl.org . Получено 2022-09-26 .
^ Мидер, Стивен; Хиллер, ЛаДеана В.; Локк, Девин; Понтинг, Крис П.; Лантер, Гертон (май 2010 г.). «Качество сборки генома: оценка и улучшение с использованием модели нейтральных инделей». Genome Research . 20 (5): 675–684. doi :10.1101/gr.096966.109. ISSN 1088-9051. PMC 2860169 . PMID 20305016.
^ Райс, Эдвард С.; Грин, Ричард Э. (2019-02-15). «Новые подходы к сборке генома и созданию каркасов». Annual Review of Animal Biosciences . 7 (1): 17–40. doi :10.1146/annurev-animal-020518-115344. ISSN 2165-8102. PMID 30485757. S2CID 54121772.
^ Cao, Minh Duc; Nguyen, Son Hoang; Ganesamoorthy, Devika; Elliott, Alysha G.; Cooper, Matthew A.; Coin, Lachlan JM (2017-02-20). "Scaffolding and complete genome assemblies in real-time with nanopore sequencing". Nature Communications . 8 (1): 14515. Bibcode :2017NatCo...814515C. doi : 10.1038/ncomms14515 . ISSN 2041-1723. PMC 5321748 . PMID 28218240.
^ Менде, Дэниел Р.; Уоллер, Элисон С.; Сунагава, Шиничи; Ярвелин, Айно И.; Чан, Мишель М.; Арумугам, Маниможиян; Раес, Йерун; Борк, Пир (2012-02-23). «Оценка метагеномной сборки с использованием данных смоделированного секвенирования следующего поколения». PLOS ONE . 7 (2): e31386. Bibcode : 2012PLoSO...731386M. doi : 10.1371/journal.pone.0031386 . ISSN 1932-6203. PMC 3285633. PMID 22384016 .
^ Кастро, Кристина Дж.; Нг, Терри Фэй Фань (01.11.2017). «U50: новая метрика для измерения выходных данных сборки на основе неперекрывающихся целевых контигов». Журнал вычислительной биологии . 24 (11): 1071–1080. doi :10.1089/cmb.2017.0013. PMC 5783553. PMID 28418726 .
^ Шерер С. (2008). Краткое руководство по геному человека . CSHL Press. стр. 135. ISBN978-0-87969-791-4.
^ ab "E pluribus unum". Природные методы . 7 (5): 331. Май 2010 г. doi : 10.1038/nmeth0510-331 . ПМИД 20440876.
^ Ballouz S, Dobin A, Gillis JA (август 2019 г.). «Пришло ли время изменить референсный геном?». Genome Biology . 20 (1): 159. doi : 10.1186/s13059-019-1774-4 . PMC 6688217. PMID 31399121 .
^ Rosenfeld JA, Mason CE, Smith TM (11 июля 2012 г.). «Ограничения референсного генома человека для персонализированной геномики». PLOS ONE . 7 (7): e40294. Bibcode : 2012PLoSO...740294R. doi : 10.1371 /journal.pone.0040294 . PMC 3394790. PMID 22811759.
^ ab Wade N (31 мая 2007 г.). «Геном ДНК-пионера расшифрован». New York Times . Получено 21 февраля 2009 г.
^ ab Wheeler DA, Srinivasan M, Egholm M, Shen Y, Chen L, McGuire A и др. (апрель 2008 г.). «Полный геном человека с помощью массивного параллельного секвенирования ДНК». Nature . 452 (7189): 872–876. Bibcode :2008Natur.452..872W. doi : 10.1038/nature06884 . PMID 18421352.
^ "Просмотрщик геномных данных - NCBI". www.ncbi.nlm.nih.gov . Получено 18 августа 2022 г.
^ Schneider VA, Graves-Lindsay T, Howe K, Bouk N, Chen HC, Kitts PA и др. (май 2017 г.). «Оценка сборок GRCh38 и de novo гаплоидного генома демонстрирует устойчивое качество референтной сборки». Genome Research . 27 (5): 849–864. doi :10.1101/gr.213611.116. PMC 5411779 . PMID 28396521.
^ Нурк С., Корен С., Ри А., Раутиайнен М., Бзикадзе А.В., Михеенко А. и др. (апрель 2022 г.). «Полная последовательность человеческого генома». Наука . 376 (6588): 44–53. Бибкод : 2022Sci...376...44N. doi : 10.1126/science.abj6987. ПМЦ 9186530 . PMID 35357919. S2CID 247854936.
^ Альтемосе, Николас; Логсдон, Гленнис А.; Бзикадзе Андрей Владимирович; Сидхвани, Прагья; Лэнгли, Саша А.; Кальдас, Джина В.; Хойт, Саванна Дж.; Уральский, Лев; Рябов Федор Дмитриевич; Шью, Колин Дж.; Саурия, Майкл Э.Г.; Борчерс, Мэтью; Гершман, Ариэль; Михеенко Алла; Шепелев, Валерий А. (апрель 2022 г.). «Полные геномные и эпигенетические карты центромер человека». Наука . 376 (6588): eabl4178. дои : 10.1126/science.abl4178. ISSN 0036-8075. ПМЦ 9233505 . ПМИД 35357911.
^ ab Church, Deanna M. (апрель 2022 г.). «Последовательность генома человека следующего поколения». Science . 376 (6588): 34–35. Bibcode :2022Sci...376...34C. doi :10.1126/science.abo5367. ISSN 0036-8075. PMID 35357937.
^ Steinberg, Karyn Meltz; Schneider, Valerie A.; Graves-Lindsay, Tina A.; Fulton, Robert S.; Agarwala, Richa; Huddleston, John; Shiryev, Sergey A.; Morgulis, Aleksandr; Surti, Urvashi; Warren, Wesley C.; Church, Deanna M.; Eichler, Evan E.; Wilson, Richard K. (декабрь 2014 г.). "Single haplotype assembly of the human genome from a hydatidiform mole". Genome Research . 24 (12): 2066–2076. doi :10.1101/gr.180893.114. ISSN 1088-9051. PMC 4248323 . PMID 25373144.
^ Консорциум по секвенированию MHC (октябрь 1999 г.). «Полная последовательность и карта генов главного комплекса гистосовместимости человека. Консорциум по секвенированию MHC». Nature . 401 (6756): 921–923. Bibcode :1999Natur.401..921T. doi :10.1038/44853. PMID 10553908. S2CID 186243515.
^ Logan DW, Marton TF, Stowers L (сентябрь 2008 г.). Vosshall LB (ред.). "Видовая специфичность основных белков мочи путем параллельной эволюции". PLOS ONE . 3 (9): e3280. Bibcode :2008PLoSO...3.3280L. doi : 10.1371/journal.pone.0003280 . PMC 2533699 . PMID 18815613.
^ Hurst J, Beynon RJ, Roberts SC, Wyatt TD (октябрь 2007 г.). Липокалины в моче у грызунов: есть ли общая модель? . Химические сигналы у позвоночных 11. Springer New York. ISBN978-0-387-73944-1.
^ Li R, Li Y, Zheng H, Luo R, Zhu H, Li Q и др. (январь 2010 г.). «Построение карты последовательностей человеческого пангенома». Nature Biotechnology . 28 (1): 57–63. doi :10.1038/nbt.1596. PMID 19997067. S2CID 205274447.
↑ Международный консорциум HapMap (октябрь 2005 г.). «Карта гаплотипа генома человека». Nature . 437 (7063): 1299–1320. Bibcode :2005Natur.437.1299T. doi :10.1038/nature04226. PMC 1880871 . PMID 16255080.
^ Frazer KA, Ballinger DG, Cox DR, Hinds DA, Stuve LL, Gibbs RA и др. (октябрь 2007 г.). «Карта гаплотипов человека второго поколения из более чем 3,1 миллиона однонуклеотидных полиморфизмов» (A second generation human haplotype map of over 3.1 million SNPs). Nature . 449 (7164): 851–861. Bibcode :2007Natur.449..851F. doi :10.1038/nature06258. PMC 2689609 . PMID 17943122.
^ Altshuler DM, Gibbs RA, Peltonen L, Altshuler DM, Gibbs RA, Peltonen L, et al. (сентябрь 2010 г.). «Интеграция общих и редких генетических вариаций в различных человеческих популяциях». Nature . 467 (7311): 52–58. Bibcode :2010Natur.467...52T. doi :10.1038/nature09298. PMC 3173859 . PMID 20811451.
^ "Международный проект HapMap". Genome.gov . Получено 2022-08-18 .
^ Abecasis GR, Altshuler D, Auton A, Brooks LD, Durbin RM, Gibbs RA и др. (октябрь 2010 г.). «Карта вариаций генома человека, полученная в результате секвенирования в масштабе популяции». Nature . 467 (7319): 1061–1073. Bibcode :2010Natur.467.1061T. doi :10.1038/nature09534. PMC 3042601 . PMID 20981092.
^ Abecasis GR, Auton A, Brooks LD, DePristo MA, Durbin RM, Handsaker RE и др. (ноябрь 2012 г.). «Интегрированная карта генетической изменчивости 1092 человеческих геномов». Nature . 491 (7422): 56–65. Bibcode :2012Natur.491...56T. doi :10.1038/nature11632. PMC 3498066 . PMID 23128226.
^ Auton A, Brooks LD, Durbin RM, Garrison EP, Kang HM, Korbel JO и др. (октябрь 2015 г.). «Глобальный справочник по генетическим вариациям человека». Nature . 526 (7571): 68–74. Bibcode :2015Natur.526...68T. doi :10.1038/nature15393. PMC 4750478 . PMID 26432245.
^ Sudmant PH, Rausch T, Gardner EJ, Handsaker RE, Abyzov A, Huddleston J, et al. (Октябрь 2015 г.). «Интегрированная карта структурных вариаций в 2504 человеческих геномах». Nature . 526 (7571): 75–81. Bibcode :2015Natur.526...75.. doi :10.1038/nature15394. PMC 4617611 . PMID 26432246.
^ Miga KH, Wang T (август 2021 г.). «Необходимость референсной последовательности человеческого пангенома». Annual Review of Genomics and Human Genetics . 22 (1): 81–102. doi :10.1146/annurev-genom-120120-081921. PMC 8410644. PMID 33929893 .
^ Wang T, Antonacci-Fulton L, Howe K, Lawson HA, Lucas JK, Phillippy AM и др. (апрель 2022 г.). «Проект человеческого пангенома: глобальный ресурс для картирования геномного разнообразия». Nature . 604 (7906): 437–446. Bibcode :2022Natur.604..437W. doi :10.1038/s41586-022-04601-8. PMC 9402379 . PMID 35444317. S2CID 248297723.
^ "Список геномов - Геном - NCBI". www.ncbi.nlm.nih.gov . Получено 18 августа 2022 г.
^ Prado-Martinez J, Sudmant PH, Kidd JM, Li H, Kelley JL, Lorente-Galdos B, et al. (Июль 2013 г.). «Генетическое разнообразие и история популяции высших приматов». Nature . 499 (7459): 471–475. Bibcode :2013Natur.499..471P. doi :10.1038/nature12228. PMC 3822165 . PMID 23823723.
^ "Проект 100K Pathogen Genome – Геномы для общественного здравоохранения и безопасности пищевых продуктов" . Получено 2022-08-18 .
^ Lewin HA, Robinson GE, Kress WJ, Baker WJ, Coddington J, Crandall KA и др. (апрель 2018 г.). «Проект Earth BioGenome: секвенирование жизни для будущего жизни». Труды Национальной академии наук Соединенных Штатов Америки . 115 (17): 4325–4333. Bibcode : 2018PNAS..115.4325L. doi : 10.1073/pnas.1720115115 . PMC 5924910. PMID 29686065 .
^ "African BioGenome Project – Геномика на службе сохранения и улучшения биологического разнообразия Африки" . Получено 2022-08-18 .