База данных, содержащая референтные последовательности генов, белков и транскриптов
База данных Reference Sequence ( RefSeq ) [1] представляет собой открытый доступ , аннотированную и курируемую коллекцию общедоступных нуклеотидных последовательностей ( ДНК , РНК ) и их белковых продуктов. RefSeq был представлен в 2000 году. [2] [3] Эта база данных создана Национальным центром биотехнологической информации (NCBI) и, в отличие от GenBank , предоставляет только одну запись для каждой естественной биологической молекулы (т. е. ДНК, РНК или белок) для основных организмов, от вирусов до бактерий и эукариот .
Для каждого модельного организма RefSeq стремится предоставить отдельные и связанные записи для геномной ДНК, генных транскриптов и белков, возникающих из этих транскриптов. RefSeq ограничен основными организмами, для которых доступно достаточно данных (121 461 отдельных «именованных» организмов по состоянию на июль 2022 года), [4] в то время как GenBank включает последовательности для любого представленного организма (приблизительно 504 000 формально описанных видов ). [5]
Категории RefSeq
Коллекция RefSeq содержит различные типы данных с различным происхождением, поэтому необходимо установить стандартные категории и идентификаторы для хранения каждого типа данных. Наиболее важными категориями являются:
Более подробную информацию и другие категории см. в таблице 1 в главе 18 книги «База данных референтных последовательностей (RefSeq)».
Проекты RefSeq
В настоящее время NCBI разрабатывает несколько проектов по улучшению сервисов RefSeq , часто в сотрудничестве с исследовательскими центрами, такими как EMBL-EBI:
- Consensus CDS (CCDS): Этот проект направлен на определение основного набора областей кодирования белков человека и мыши и стандартизацию наборов генов с высоким и постоянным уровнем качества геномной аннотации. Этот проект был анонсирован в 2009 году и все еще находится в стадии разработки. [6] [7]
- Функциональные элементы RefSeq (RefSeqFE): он сосредоточен на описании негенных функциональных элементов, которые являются регуляторными областями генов, такими как: энхансеры , сайленсеры , гиперчувствительные к ДНКазе I области , точки начала репликации ДНК и т. д. Текущая область действия этого проекта ограничена геномами человека и мыши. [8]
- RefSeqGene: Его главная цель — определить геномные последовательности, которые будут использоваться в качестве эталонных стандартов для хорошо охарактеризованных генов. Ранее описанные мРНК , белковые и хромосомные последовательности имеют недостатки, заключающиеся в том, что они не предоставляют явных геномных координат фланкирующих генов и интронных областей, а также показывают неуклюже большие координаты, которые меняются с каждой новой сборкой генома. Проект RefSeqGene призван устранить эти ошибки. [9]
- Целевые локусы: Этот проект регистрирует молекулярные маркеры, особенно кодирующие белок и рибосомальные РНК локусы, которые используются для филогенетического и штрихкодирующего анализа . В сферу этого проекта входят последовательности для организмов Archaea , Bacteria и Fungi , доступные через запросы Entrez и BLAST . Он также включает последовательности GenBank для животных , растений и простейших , доступные через запросы BLAST. [10]
- Вариация вируса (ViV): Это особый ресурс конвейеров обработки данных последовательностей и инструментов анализа для отображения и извлечения последовательностей из нескольких вирусных групп, таких как вирус гриппа , вирус Эбола , коронавирус MERS или вирус Зика . Регулярно включаются новые вирусы, конвейеры обработки, инструменты и другие функции. [11]
- RefSeq Select: этот проект направлен на выбор наборов данных транскриптов RefSeq Select , как наиболее репрезентативных для каждого гена, кодирующего белок, на основе нескольких критериев: предшествующее использование в клинических базах данных, экспрессия транскрипта, эволюционная консервация кодирующей области и т. д. Поскольку многие гены представлены несколькими транскриптами/белками RefSeq из-за биологического процесса альтернативного сплайсинга , эта сложность является проблематичной для таких исследований, как сравнительная геномика или обмен данными о клинических вариантах. [12]
- MANE ( совпадающая аннотация от NCBI и E MBL-EBI): Это совместный проект NCBI и EMBL - EBI , главной целью которого является определение набора транскриптов и их белков для всех генов, кодирующих белки в геноме человека. Благодаря этому уменьшаются различия в аннотации транскриптов между системами аннотаций RefSeq и Ensembl / GENCODE. Набор транскриптов MANE Select создается как полезный универсальный стандарт для клинической отчетности и сравнительной или эволюционной геномики. Также создается второй клинический набор MANE Plus с дополнительными транскриптами для сообщения обо всех патогенных (P) или вероятных патогенных (LP) клинических вариантах, доступных в общедоступных ресурсах. [13] Этот проект был анонсирован в 2018 году и, как ожидается, будет завершен в 2022 году.
Статистика
Согласно выпуску RefSeq 213 (июль 2022 г.), количество видов, представленных в базе данных путем подсчета отдельных таксономических идентификаторов, следующее: [4]
Количество присоединений и пар оснований на тип молекулы составляет: [4]
Смотрите также
Ссылки
- ^ ab Pruitt KD , Tatusova T, Maglott DR (январь 2005 г.). "NCBI Reference Sequence (RefSeq): курируемая неизбыточная база данных последовательностей геномов, транскриптов и белков". Nucleic Acids Research . 33 (выпуск базы данных): D501–D504. doi :10.1093/nar/gki025. PMC 539979. PMID 15608248 .
- ^ Maglott DR , Katz KS, Sicotte H, Pruitt KD (январь 2000 г.). "NCBI's LocusLink and RefSeq". Nucleic Acids Research . 28 (1): 126–128. doi : 10.1093/nar/28.1.126. PMC 102393. PMID 10592200.
- ^ Pruitt KD, Katz KS, Sicotte H, Maglott DR (январь 2000 г.). «Введение в RefSeq и LocusLink: кураторские ресурсы по геному человека в NCBI». Trends in Genetics . 16 (1): 44–47. doi :10.1016/s0168-9525(99)01882-x. PMID 10637631.
- ^ Статистика abc RefSeq Release 213 (отчет). Национальная медицинская библиотека . 11 июля 2022 г. Получено 20 июля 2022 г.
- ^ Sayers EW, Cavanaugh M, Clark K, Pruitt KD, Schoch CL, Sherry ST, Karsch-Mizrachi I (январь 2022 г.). "GenBank". Nucleic Acids Research . 50 (D1): D161–D164. doi : 10.1093 /nar/gkab1135 . PMC 8690257. PMID 34850943.
- ^ Pruitt KD, Harrow J, Harte RA, Wallin C, Diekhans M, Maglott DR и др. (июль 2009 г.). «Проект консенсусной кодирующей последовательности (CCDS): определение общего набора генов, кодирующих белок, для геномов человека и мыши». Genome Research . 19 (7): 1316–1323. doi :10.1101/gr.080531.108. PMC 2704439 . PMID 19498102.
- ^ Pujar S, O'Leary NA, Farrell CM, Loveland JE, Mudge JM, Wallin C и др. (январь 2018 г.). «База данных консенсусной кодирующей последовательности (CCDS): стандартизированный набор областей кодирования белков человека и мыши, поддерживаемый экспертным кураторством». Nucleic Acids Research . 46 (D1): D221–D228. doi :10.1093/nar/gkx1031. PMC 5753299 . PMID 29126148.
- ^ Farrell CM, Goldfarb T, Rangwala SH, Astashyn A, Ermolaeva OD, Hem V и др. (Январь 2022 г.). «Функциональные элементы RefSeq как экспериментально проанализированные негенные эталонные стандарты и функциональные взаимодействия у человека и мыши». Genome Research . 32 (1): 175–188. doi :10.1101/gr.275819.121. PMC 8744684 . PMID 34876495.
- ^ Gulley ML, Braziel RM, Halling KC, Hsi ED, Kant JA, Nikiforova MN и др. (июнь 2007 г.). «Клинические лабораторные отчеты по молекулярной патологии». Архивы патологии и лабораторной медицины . 131 (6): 852–863. doi :10.5858/2007-131-852-CLRIMP. PMID 17550311.
- ^ "Проект целевых локусов NCBI RefSeq". www.ncbi.nlm.nih.gov . Получено 27.07.2022 .
- ^ Hatcher EL, Zhdanov SA, Bao Y, Blinkova O, Nawrocki EP, Ostapchuck Y и др. (январь 2017 г.). «Ресурс вариаций вирусов — улучшенный ответ на возникающие вирусные вспышки». Nucleic Acids Research . 45 (D1): D482–D490. doi :10.1093/nar/gkw1065. PMC 5210549. PMID 27899678 .
- ^ "NCBI RefSeq Select". www.ncbi.nlm.nih.gov . Получено 2022-07-27 .
- ^ Моралес Дж., Пуджар С., Лавленд Дж. Э., Асташин А., Беннетт Р., Берри А. и др. (апрель 2022 г.). «Совместный набор транскриптов NCBI и EMBL-EBI для клинической геномики и исследований». Nature . 604 (7905): 310–315. Bibcode :2022Natur.604..310M. doi :10.1038/s41586-022-04558-8. PMC 9007741 . PMID 35388217.
Источники
Внешние ссылки
- РефСек
- GenBank, RefSeq, TPA и UniProt: что кроется в названии?