stringtranslate.com

ГенБанк

База данных последовательностей GenBank — это аннотированная коллекция всех общедоступных нуклеотидных последовательностей и их белковых трансляций с открытым доступом . Она создается и поддерживается Национальным центром биотехнологической информации (NCBI; часть Национальных институтов здравоохранения в США ) в рамках Международного сотрудничества по базам данных нуклеотидных последовательностей (INSDC).

GenBank и его сотрудники получат последовательности, полученные в лабораториях по всему миру из более чем 500 000 формально описанных видов . [2] База данных была создана в 1982 году Уолтером Гоудом и Лос-Аламосской национальной лабораторией . GenBank стал важной базой данных для исследований в области биологии и в последние годы рос экспоненциально, удваиваясь примерно каждые 18 месяцев. [3] [4]

Выпуск 250.0, опубликованный в июне 2022 года, содержал более 17 триллионов нуклеотидных оснований в более чем 2,45 миллиарда последовательностей. [5] GenBank формируется на основе прямых заявок от отдельных лабораторий, а также на основе массовых заявок от крупных центров секвенирования .

Представления

Только оригинальные последовательности могут быть отправлены в GenBank. Прямые отправки в GenBank осуществляются с помощью BankIt, который представляет собой веб-форму, или автономной программы отправки Sequin. После получения отправки последовательности сотрудники GenBank проверяют оригинальность данных, присваивают последовательности номер доступа и выполняют проверки качества. Затем отправки публикуются в общедоступной базе данных, где записи могут быть извлечены Entrez или загружены по FTP . Массовые отправки данных Expressed Sequence Tag (EST), Sequence-tagged site (STS), Genome Survey Sequence (GSS) и High-Throughput Genome Sequence (HTGS) чаще всего отправляются крупными центрами секвенирования. Группа прямых отправок GenBank также обрабатывает полные последовательности микробных геномов. [6] [7]

История

Уолтер Гоад из Группы теоретической биологии и биофизики в Лос-Аламосской национальной лаборатории (LANL) и другие создали Лос-Аламосскую базу данных последовательностей в 1979 году, которая достигла кульминации в 1982 году с созданием публичного GenBank. [8] Финансирование было предоставлено Национальными институтами здравоохранения , Национальным научным фондом , Министерством энергетики и Министерством обороны . LANL сотрудничала над GenBank с фирмой Bolt, Beranek и Newman , и к концу 1983 года в ней хранилось более 2000 последовательностей.

В середине 1980-х годов биоинформатическая компания Intelligenetics в Стэнфордском университете совместно с LANL управляла проектом GenBank. [9] Как один из самых ранних проектов сообщества биоинформатики в Интернете, проект GenBank запустил новостные группы BIOSCI /Bionet для продвижения открытых коммуникаций среди ученых-биологов. В период с 1989 по 1992 год проект GenBank перешел в недавно созданный Национальный центр биотехнологической информации (NCBI) . [10]

Genbank и EMBL: NucleotideSequences 1986/1987 Тома I–VII.
CD-ROM Genbank v100

Рост

Рост числа пар оснований GenBank с 1982 по 2018 г. по полулогарифмической шкале

В примечаниях к выпуску GenBank для версии 250.0 (июнь 2022 г.) указано, что «с 1982 г. по настоящее время количество оснований в GenBank удваивалось примерно каждые 18 месяцев». [5] [11] По состоянию на 15 июня 2022 г. версия GenBank 250.0 содержит более 239 миллионов локусов , 1,39 триллиона нуклеотидных оснований из 239 миллионов зарегистрированных последовательностей. [5]

База данных GenBank включает в себя дополнительные наборы данных, которые создаются механически из коллекции данных основной последовательности и поэтому исключаются из этого подсчета.

Неполные идентификации

В общедоступных базах данных, поиск в которых можно осуществлять с помощью инструмента поиска базовых локальных выравниваний Национального центра биотехнологической информации (NCBI BLAST), отсутствуют рецензируемые последовательности типовых штаммов и последовательности нетиповых штаммов. С другой стороны, в то время как коммерческие базы данных потенциально содержат высококачественные отфильтрованные данные о последовательностях, существует ограниченное количество референтных последовательностей.

В статье, опубликованной в Journal of Clinical Microbiology [12], дана оценка результатов секвенирования гена 16S рРНК, проанализированных с помощью GenBank в сочетании с другими свободно доступными, контролируемыми по качеству, общедоступными веб-базами данных, такими как базы данных EzTaxon -e [13] и BIBI [14] . Результаты показали, что анализы, выполненные с использованием GenBank в сочетании с EzTaxon -e (каппа = 0,79), были более дискриминантными, чем при использовании GenBank (каппа = 0,66) или других баз данных по отдельности.

GenBank, будучи общедоступной базой данных, может содержать последовательности, ошибочно отнесенные к определенному виду, поскольку первоначальная идентификация организма была неверной. Недавняя статья, опубликованная в Genome, показала, что 75% последовательностей субъединицы I митохондриальной цитохром с оксидазы были ошибочно отнесены к рыбе Nemipterus mesoprion в результате продолжающегося использования последовательностей изначально неверно идентифицированных особей. [15] Авторы дают рекомендации, как избежать дальнейшего распространения общедоступных последовательностей с неправильными научными названиями.

Многочисленные опубликованные рукописи выявили ошибочные последовательности в GenBank. [16] [17] [18] Это не только неправильные определения видов (которые могут иметь разные причины), но также включают химеры и записи о присоединении с ошибками секвенирования. Недавняя рукопись о качестве всех записей цитохрома b птиц также показала, что 45% выявленных ошибочных записей не имеют контрольного образца, что препятствует повторной оценке идентификации вида. [19]

Смотрите также

Ссылки

  1. ^ На странице загрузки в UCSC говорится: « NCBI не накладывает никаких ограничений на использование или распространение данных GenBank. Однако некоторые заявители могут заявлять о патентных , авторских правах или других правах интеллектуальной собственности на все или часть предоставленных ими данных. NCBI не имеет возможности оценивать обоснованность таких заявлений и, следовательно, не может предоставлять комментарии или неограниченные разрешения относительно использования, копирования или распространения информации, содержащейся в GenBank».
  2. ^ Эрик В. Сэйерс; Марк Кавано; Карен Кларк; Ким Д. Прюитт; Конрад Л. Шох; Стивен Т. Шерри; Илен Карш-Мизраки (7 января 2022 г.). "GenBank". Архив нуклеиновых кислот . 50 (D1): D161 – D164. doi : 10.1093/nar/gkab1135 . PMC 8690257. PMID  34850943. 
  3. ^ Бенсон Д.; Карш-Мизраки, И.; Липман, Д.Дж.; Остелл, Дж.; Уилер, Д.Л.; и др. (2008). "GenBank". Nucleic Acids Research . 36 (База данных): D25–D30. doi :10.1093/nar/gkm929. PMC 2238942. PMID  18073190 . 
  4. ^ Бенсон Д.; Карш-Мизраки, И.; Липман, Д.Дж.; Остелл, Дж.; Сэйерс, Э.У.; и др. (2009). "GenBank". Исследования нуклеиновых кислот . 37 (База данных): D26–D31. doi :10.1093/nar/gkn723. PMC 2686462. PMID  18940867 . 
  5. ^ abcd "GenBank release notes (Release 250)". NCBI. 15 июня 2022 г. Получено 20 июля 2022 г.
  6. ^ "Как отправить данные в GenBank". NCBI . Получено 20 июля 2022 г.
  7. ^ "Типы заявок GenBank". NCBI . Получено 20 июля 2022 г. .
  8. ^ Хансон, Тодд (2000-11-21). "Умер Уолтер Гоуд, основатель GenBank". Информационный бюллетень: некролог . Национальная лаборатория Лос-Аламоса.
  9. ^ История Генбанка LANL
  10. ^ Бентон Д. (1990). «Последние изменения в онлайн-сервисе GenBank». Nucleic Acids Research . 18 (6): 1517–1520. doi :10.1093/nar/18.6.1517. PMC 330520. PMID  2326192 . 
  11. ^ Бенсон, ДА; Кавано, М.; Кларк, К.; Карш-Мизраки, И.; Липман, Д.Дж.; Остелл, Дж.; Сэйерс, Э.У. (2012). "GenBank". Исследования нуклеиновых кислот . 41 (Выпуск базы данных): D36–D42. doi :10.1093/nar/gks1195. PMC 3531190. PMID  23193287 . 
  12. ^ Kyung Sun Park; Chang-Seok Ki; Cheol-In Kang; Yae-Jean Kim; Doo Ryeon Chung; Kyong Ran Peck; Jae-Hoon Song; Nam Yong Lee (май 2012 г.). «Оценка услуг GenBank, EzTaxon и BIBI для молекулярной идентификации клинических изолятов крови, которые не удалось идентифицировать или которые были неправильно идентифицированы традиционными методами». J. Clin. Microbiol . 50 (5): 1792–1795. doi :10.1128/JCM.00081-12. PMC 3347139. PMID 22403421  . 
  13. ^ База данных EzTaxon-e eztaxon-e.ezbiocloud.net (архив доступен 25 марта 2021 г.)
  14. ^ leBIBI V5 pbil.univ-lyon1.fr (архив доступен 25 марта 2021 г.)
  15. ^ Огванг, Джоэл; Бариш, Мишель; Бос, Артур Р. (2021). «Генетическое разнообразие и филогенетические связи нитеперых лещей (Nemipterus spp.) из Красного моря и восточной части Средиземного моря». Геном . 64 (3): 207–216. doi :10.1139/gen-2019-0163. PMID  32678985.
  16. ^ van den Burg, Matthijs P.; Herrando-Pérez, Salvador; Vieites, David R. (13 августа 2020 г.). "ACDC, глобальная база данных последовательностей цитохрома b амфибий с использованием воспроизводимого курирования для записей GenBank". Scientific Data . 7 (1): 268. Bibcode :2020NatSD...7..268V. doi :10.1038/s41597-020-00598-9. eISSN  2052-4463. PMC 7426930 . PMID  32792559. 
  17. ^ Ли, Сяобин; Шэнь, Сюэцзюань; Чэнь, Сяо; Сян, Дэн; Мерфи, Роберт В.; Шэнь, Йонги (6 февраля 2018 г.). «Обнаружение потенциально проблемных последовательностей гена Cytb у рыб в GenBank». Frontiers in Genetics . 9 : 30. doi : 10.3389/fgene.2018.00030 . eISSN  1664-8021. PMC 5808227. PMID 29467794  . 
  18. ^ Хеллер, Филипп; Касалетто, Джеймс; Руис, Грегори; Геллер, Джонатан (7 августа 2018 г.). «База данных последовательностей генов субъединицы I цитохрома с оксидазы метазоа, полученных из GenBank с помощью CO-ARBitrator». Scientific Data . 5 (1). Bibcode : 2018NatSD...580156H. doi : 10.1038/sdata.2018.156. eISSN  2052-4463. PMC 6080493. PMID 30084847  . 
  19. ^ Ван Ден Бург, Маттис П.; Виейтес, Дэвид Р. (22 сентября 2022 г.). «Базы данных генетики птиц нуждаются в улучшенном курировании и сообщении об ошибках в <scp>NCBI</scp>». Ibis . doi : 10.1111/ibi.13143 . eISSN  1474-919X. hdl : 10261/282622 . ISSN  0019-1019.


Внешние ссылки