ГенБанк

База данных последовательностей GenBank — это аннотированная коллекция всех общедоступных нуклеотидных последовательностей и их белковых трансляций с открытым доступом . Она создается и поддерживается Национальным центром биотехнологической информации (NCBI; часть Национальных институтов здравоохранения в США ) в рамках Международного сотрудничества по базам данных нуклеотидных последовательностей (INSDC).

GenBank и его сотрудники получат последовательности, полученные в лабораториях по всему миру из более чем 500 000 формально описанных видов . ^[2] База данных была создана в 1982 году Уолтером Гоудом и Лос-Аламосской национальной лабораторией . GenBank стал важной базой данных для исследований в области биологии и в последние годы рос экспоненциально, удваиваясь примерно каждые 18 месяцев. ^[3]^[4]

Выпуск 250.0, опубликованный в июне 2022 года, содержал более 17 триллионов нуклеотидных оснований в более чем 2,45 миллиарда последовательностей. ^[5] GenBank формируется на основе прямых заявок от отдельных лабораторий, а также на основе массовых заявок от крупных центров секвенирования .

Представления

Только оригинальные последовательности могут быть отправлены в GenBank. Прямые отправки в GenBank осуществляются с помощью BankIt, который представляет собой веб-форму, или автономной программы отправки Sequin. После получения отправки последовательности сотрудники GenBank проверяют оригинальность данных и присваивают последовательности номер доступа , а также выполняют проверки обеспечения качества. Затем отправки публикуются в общедоступной базе данных, где записи могут быть извлечены Entrez или загружены по FTP . Массовые отправки данных Expressed Sequence Tag (EST), Sequence-tagged site (STS), Genome Survey Sequence (GSS) и High-Throughput Genome Sequence (HTGS) чаще всего отправляются крупными центрами секвенирования. Группа прямых отправок GenBank также обрабатывает полные последовательности микробных геномов. ^[6]^[7]

История

Уолтер Гоад из Группы теоретической биологии и биофизики в Лос-Аламосской национальной лаборатории (LANL) и другие создали Лос-Аламосскую базу данных последовательностей в 1979 году, которая достигла кульминации в 1982 году с созданием публичного GenBank. ^[8] Финансирование было предоставлено Национальными институтами здравоохранения , Национальным научным фондом , Министерством энергетики и Министерством обороны . LANL сотрудничала над GenBank с фирмой Bolt, Beranek и Newman , и к концу 1983 года в ней хранилось более 2000 последовательностей.

В середине 1980-х годов биоинформатическая компания Intelligenetics в Стэнфордском университете совместно с LANL управляла проектом GenBank. ^[9] Как один из самых ранних проектов сообщества биоинформатики в Интернете, проект GenBank запустил новостные группы BIOSCI /Bionet для продвижения открытых коммуникаций среди ученых-биологов. В период с 1989 по 1992 год проект GenBank перешел в недавно созданный Национальный центр биотехнологической информации (NCBI) . ^[10]

Рост

В примечаниях к выпуску GenBank для версии 250.0 (июнь 2022 г.) указано, что «с 1982 г. по настоящее время количество оснований в GenBank удваивалось примерно каждые 18 месяцев». ^[5]^[11] По состоянию на 15 июня 2022 г. версия GenBank 250.0 содержит более 239 миллионов локусов , 1,39 триллиона нуклеотидных оснований из 239 миллионов зарегистрированных последовательностей. ^[5]

База данных GenBank включает в себя дополнительные наборы данных, которые создаются механически из коллекции данных основной последовательности и поэтому исключаются из этого подсчета.

Неполные идентификации

В общедоступных базах данных, поиск в которых можно осуществлять с помощью инструмента поиска базовых локальных выравниваний Национального центра биотехнологической информации (NCBI BLAST), отсутствуют рецензируемые последовательности типовых штаммов и последовательности нетиповых штаммов. С другой стороны, в то время как коммерческие базы данных потенциально содержат высококачественные отфильтрованные данные о последовательностях, существует ограниченное количество референтных последовательностей.

В статье, опубликованной в Journal of Clinical Microbiology^[12], дана оценка результатов секвенирования гена 16S рРНК, проанализированных с помощью GenBank в сочетании с другими свободно доступными, контролируемыми по качеству, общедоступными веб-базами данных, такими как базы данных EzTaxon -e ^[13] и BIBI ^[14] . Результаты показали, что анализы, выполненные с использованием GenBank в сочетании с EzTaxon -e (каппа = 0,79), были более дискриминантными, чем при использовании GenBank (каппа = 0,66) или других баз данных по отдельности.

GenBank, будучи общедоступной базой данных, может содержать последовательности, ошибочно отнесенные к определенному виду, поскольку первоначальная идентификация организма была неверной. Недавняя статья, опубликованная в Genome, показала, что 75% последовательностей субъединицы I митохондриальной цитохром с оксидазы были ошибочно отнесены к рыбе Nemipterus mesoprion в результате продолжающегося использования последовательностей изначально неверно идентифицированных особей. ^[15] Авторы дают рекомендации, как избежать дальнейшего распространения общедоступных последовательностей с неправильными научными названиями.

Многочисленные опубликованные рукописи выявили ошибочные последовательности в GenBank. ^[16]^[17]^[18] Это не только неправильные назначения видов (которые могут иметь разные причины), но также включают химеры и записи о присоединении с ошибками секвенирования. Недавняя рукопись о качестве всех записей цитохрома b птиц также показала, что 45% выявленных ошибочных записей не имеют контрольного образца, что препятствует повторной оценке идентификации вида. ^[19]

Смотрите также

Ансамбль
База данных референтных белков человека (HPRD)
Анализ последовательности
UniProt
Список секвенированных эукариотических геномов
Список секвенированных геномов архей
RefSeq — база данных референтных последовательностей
Geneious — включает в себя инструмент отправки GenBank
Открытые научные данные
Открытый стандарт

Ссылки

^ На странице загрузки в UCSC говорится: « NCBI не накладывает никаких ограничений на использование или распространение данных GenBank. Однако некоторые заявители могут заявлять о патентных , авторских правах или других правах интеллектуальной собственности на все или часть предоставленных ими данных. NCBI не имеет возможности оценивать обоснованность таких заявлений и, следовательно, не может предоставлять комментарии или неограниченные разрешения относительно использования, копирования или распространения информации, содержащейся в GenBank».
^ Эрик В. Сэйерс; Марк Кавано; Карен Кларк; Ким Д. Прюитт; Конрад Л. Шох; Стивен Т. Шерри; Илен Карш-Мизрачи (7 января 2022 г.). «ГенБанк». Архив нуклеиновых кислот . 50 (Д1): Д161–Д164. дои : 10.1093/nar/gkab1135 . ПМЦ 8690257 . ПМИД 34850943.
^ Бенсон Д; Карш-Мизрачи, И.; Липман, диджей; Остелл, Дж.; Уилер, Д.Л.; и др. (2008). «ГенБанк». Исследования нуклеиновых кислот . 36 (База данных): D25–D30. дои : 10.1093/nar/gkm929. ПМК 2238942 . ПМИД 18073190.
^ Бенсон Д; Карш-Мизрачи, И.; Липман, диджей; Остелл, Дж.; Сэйерс, EW; и др. (2009). «ГенБанк». Исследования нуклеиновых кислот . 37 (База данных): D26–D31. дои : 10.1093/nar/gkn723. ПМК 2686462 . ПМИД 18940867.
^ abcd "GenBank release notes (Release 250)". NCBI. 15 июня 2022 г. Получено 20 июля 2022 г.
^ "Как отправить данные в GenBank". NCBI . Получено 20 июля 2022 г.
^ "Типы заявок GenBank". NCBI . Получено 20 июля 2022 г. .
^ Хансон, Тодд (21.11.2000). «Умер Уолтер Гоуд, основатель GenBank». Информационный бюллетень: некролог . Национальная лаборатория Лос-Аламоса.
^ История LANL GenBank
^ Бентон Д. (1990). «Последние изменения в онлайн-сервисе GenBank». Nucleic Acids Research . 18 (6): 1517–1520. doi :10.1093/nar/18.6.1517. PMC 330520. PMID 2326192 .
^ Бенсон, ДА; Кавано, М.; Кларк, К.; Карш-Мизраки, И.; Липман, Д.Дж.; Остелл, Дж.; Сэйерс, Э.У. (2012). "GenBank". Исследования нуклеиновых кислот . 41 (Выпуск базы данных): D36–D42. doi :10.1093/nar/gks1195. PMC 3531190. PMID 23193287 .
^ Kyung Sun Park; Chang-Seok Ki; Cheol-In Kang; Yae-Jean Kim; Doo Ryeon Chung; Kyong Ran Peck; Jae-Hoon Song; Nam Yong Lee (май 2012 г.). «Оценка услуг GenBank, EzTaxon и BIBI для молекулярной идентификации клинических изолятов крови, которые не удалось идентифицировать или которые были неправильно идентифицированы традиционными методами». J. Clin. Microbiol . 50 (5): 1792–1795. doi :10.1128/JCM.00081-12. PMC 3347139. PMID 22403421 .
^ База данных EzTaxon-e eztaxon-e.ezbiocloud.net (архив доступен 25 марта 2021 г.)
^ leBIBI V5 pbil.univ-lyon1.fr (архив доступен 25 марта 2021 г.)
^ Огванг, Джоэл; Бариш, Мишель; Бос, Артур Р. (2021). «Генетическое разнообразие и филогенетические связи нитеперых лещей (Nemipterus spp.) из Красного моря и восточной части Средиземного моря». Геном . 64 (3): 207–216. doi :10.1139/gen-2019-0163. PMID 32678985.
^ van den Burg, Matthijs P.; Herrando-Pérez, Salvador; Vieites, David R. (13 августа 2020 г.). "ACDC, глобальная база данных последовательностей цитохрома b амфибий с использованием воспроизводимого курирования для записей GenBank". Scientific Data . 7 (1): 268. Bibcode :2020NatSD...7..268V. doi :10.1038/s41597-020-00598-9. eISSN 2052-4463. PMC 7426930 . PMID 32792559.
^ Ли, Сяобин; Шэнь, Сюэцзюань; Чэнь, Сяо; Сян, Дэн; Мерфи, Роберт В.; Шэнь, Юнги (6 февраля 2018 г.). «Обнаружение потенциально проблемных последовательностей гена Cytb у рыб в GenBank». Frontiers in Genetics . 9 : 30. doi : 10.3389/fgene.2018.00030 . eISSN 1664-8021. PMC 5808227. PMID 29467794 .
^ Хеллер, Филипп; Касалетто, Джеймс; Руис, Грегори; Геллер, Джонатан (7 августа 2018 г.). «База данных последовательностей генов субъединицы I цитохрома с оксидазы метазоа, полученных из GenBank с помощью CO-ARBitrator». Scientific Data . 5 (1). Bibcode : 2018NatSD...580156H. doi : 10.1038/sdata.2018.156. eISSN 2052-4463. PMC 6080493. PMID 30084847 .
^ Ван Ден Бург, Маттейс П.; Виетес, Дэвид Р. (22 сентября 2022 г.). «Генетические базы данных птиц нуждаются в улучшенном хранении и сообщении об ошибках в <scp>NCBI</scp>». Ибис . дои : 10.1111/ibi.13143 . eISSN 1474-919X. hdl : 10261/282622 . ISSN 0019-1019.

В статье использованы материалы из общедоступного справочника NCBI Handbook. Национальный центр биотехнологической информации .

Внешние ссылки

ГенБанк
Пример записи последовательности для гемоглобина бета
БанкИт
Sequin — автономный программный инструмент, разработанный NCBI для отправки и обновления записей в базе данных последовательностей GenBank.
EMBOSS — бесплатное программное обеспечение с открытым исходным кодом для молекулярной биологии
GenBank, RefSeq, TPA и UniProt: что кроется в названии?