stringtranslate.com

ГенБанк

База данных последовательностей GenBank представляет собой аннотированную коллекцию с открытым доступом всех общедоступных нуклеотидных последовательностей и их белковых трансляций. Он производится и поддерживается Национальным центром биотехнологической информации (NCBI; часть Национальных институтов здравоохранения США ) в рамках Международного сотрудничества по базам данных нуклеотидных последовательностей (INSDC).

GenBank и его сотрудники получат последовательности, полученные в лабораториях по всему миру более чем 500 000 официально описанных видов . [2] База данных была создана в 1982 году Уолтером Гоудом и Национальной лабораторией Лос-Аламоса . GenBank стал важной базой данных для исследований в области биологии и в последние годы рос в геометрической прогрессии , удваиваясь примерно каждые 18 месяцев. [3] [4]

Версия 250.0, опубликованная в июне 2022 года, содержала более 17 триллионов нуклеотидных оснований в более чем 2,45 миллиардах последовательностей. [5] GenBank создается за счет прямых материалов из отдельных лабораторий, а также из массовых материалов из крупных центров секвенирования .

Материалы

В GenBank можно отправлять только оригинальные последовательности. Прямые заявки передаются в GenBank с помощью BankIt, веб-формы, или отдельной программы подачи Sequin. После получения представленной последовательности сотрудники GenBank проверяют оригинальность данных, присваивают последовательности инвентарный номер и выполняют проверки качества. Затем материалы передаются в общедоступную базу данных, где их можно получить с помощью Entrez или загрузить через FTP . Массовая подача данных экспрессированных тегов последовательностей (EST), сайтов с тегами последовательностей (STS), последовательностей геномных исследований (GSS) и высокопроизводительных геномных последовательностей (HTGS) чаще всего предоставляется крупными центрами секвенирования. Группа прямых заявок GenBank также обрабатывает полные последовательности микробного генома. [6] [7]

История

Уолтер Гоуд из группы теоретической биологии и биофизики Лос-Аламосской национальной лаборатории (LANL) и другие создали Лос-Аламосскую базу данных последовательностей в 1979 году, кульминацией которой стало создание в 1982 году общедоступного банка генов. [8] Финансирование было предоставлено Национальными институтами здравоохранения , Национальным научным фондом , Министерством энергетики и Министерством обороны . LANL сотрудничала в GenBank с фирмой Bolt, Beranek и Newman , и к концу 1983 года в нем хранилось более 2000 последовательностей.

В середине 1980-х годов биоинформатическая компания Intelligenetics в Стэнфордском университете управляла проектом GenBank в сотрудничестве с LANL. [9] Являясь одним из первых проектов биоинформатического сообщества в Интернете, проект GenBank основал новостные группы BIOSCI /Bionet для продвижения открытого доступа к общению среди ученых-биологов. В период с 1989 по 1992 год проект GenBank перешел в недавно созданный Национальный центр биотехнологической информации (NCBI) . [10]

Genbank и EMBL: NucleotideSequences 1986/1987, тома с I по VII.
CD-ROM Генбанка v100

Рост

Рост пар оснований GenBank с 1982 по 2018 год в полулогарифмическом масштабе.

В примечаниях к выпуску GenBank для версии 250.0 (июнь 2022 г.) говорится, что «с 1982 года по настоящее время количество баз в GenBank удваивается примерно каждые 18 месяцев». [5] [11] По состоянию на 15 июня 2022 года версия GenBank 250.0 содержит более 239 миллионов локусов , 1,39 триллиона нуклеотидных оснований из 239 миллионов зарегистрированных последовательностей. [5]

База данных GenBank включает дополнительные наборы данных, которые создаются механически из сбора данных основной последовательности и поэтому исключены из этого подсчета.

Неполная идентификация

В общедоступных базах данных, поиск в которых можно осуществлять с помощью инструмента базового локального поиска национального центра биотехнологической информации (NCBI BLAST), отсутствуют рецензируемые последовательности типовых штаммов и последовательности нетиповых штаммов. С другой стороны, хотя коммерческие базы данных потенциально содержат высококачественные данные отфильтрованных последовательностей, существует ограниченное количество эталонных последовательностей.

В статье, опубликованной в Журнале клинической микробиологии [12], оценивались результаты секвенирования гена 16S рРНК , проанализированные с помощью GenBank в сочетании с другими свободно доступными общедоступными веб-базами данных с контролем качества, такими как EzTaxon -e [ 13] и Базы данных БИБИ [14] . Результаты показали, что анализы, выполненные с использованием GenBank в сочетании с EzTaxon -e (каппа = 0,79), были более разборчивыми, чем с использованием GenBank (каппа = 0,66) или других баз данных отдельно.

GenBank, будучи общедоступной базой данных, может содержать последовательности, ошибочно отнесенные к определенному виду, поскольку первоначальная идентификация организма была ошибочной. Недавняя статья, опубликованная в журнале «Геном» , показала, что 75% последовательностей субъединицы I митохондриальной цитохром-с-оксидазы были ошибочно отнесены к мезоприону рыбы Nemipterus в результате продолжающегося использования последовательностей первоначально ошибочно идентифицированных особей. [15] Авторы дают рекомендации, как избежать дальнейшего распространения общедоступных последовательностей с неверными научными названиями.

Многочисленные опубликованные рукописи выявили ошибочные последовательности в GenBank. [16] [17] [18] Это не только неправильное отнесение видов (которые могут иметь разные причины), но также включают химеры и записи об образцах с ошибками секвенирования. Недавняя рукопись о качестве всех записей цитохрома b птиц также показала, что в 45% выявленных ошибочных записей отсутствует ваучерный образец, который предотвращает повторную оценку идентификации вида. [19]

Смотрите также

Рекомендации

  1. ^ На странице загрузки в UCSC говорится: « NCBI не накладывает никаких ограничений на использование или распространение данных GenBank. Однако некоторые отправители могут претендовать на патенты , авторские права или другие права интеллектуальной собственности на все или часть отправленных ими данных. NCBI не в состоянии оценить обоснованность таких претензий и, следовательно, не может предоставить комментарии или неограниченное разрешение относительно использования, копирования или распространения информации, содержащейся в GenBank».
  2. ^ Эрик В. Сэйерс; Марк Кавано; Карен Кларк; Ким Д. Прюитт; Конрад Л. Шох; Стивен Т. Шерри; Илен Карш-Мизрачи (7 января 2022 г.). «ГенБанк». Архив нуклеиновых кислот . 50 (Д1): Д161–Д164. дои : 10.1093/nar/gkab1135 . ПМЦ 8690257 . 
  3. ^ Бенсон Д; Карш-Мизрачи, И.; Липман, диджей; Остелл, Дж.; Уилер, Д.Л.; и другие. (2008). «ГенБанк». Исследования нуклеиновых кислот . 36 (База данных): D25–D30. дои : 10.1093/nar/gkm929. ПМК 2238942 . ПМИД  18073190. 
  4. ^ Бенсон Д; Карш-Мизрачи, И.; Липман, диджей; Остелл, Дж.; Сэйерс, EW; и другие. (2009). «ГенБанк». Исследования нуклеиновых кислот . 37 (База данных): D26–D31. дои : 10.1093/nar/gkn723. ПМЦ 2686462 . ПМИД  18940867. 
  5. ^ abcd «Примечания к выпуску GenBank (выпуск 250)» . НКБИ. 15 июня 2022 г. Проверено 20 июля 2022 г.
  6. ^ «Как отправить данные в GenBank» . НКБИ . Проверено 20 июля 2022 г.
  7. ^ «Типы отправки данных в GenBank» . НКБИ . Проверено 20 июля 2022 г.
  8. ^ Хэнсон, Тодд (21 ноября 2000 г.). «Умер Уолтер Гоуд, основатель GenBank» . Информационный бюллетень: некролог . Лос-Аламосская национальная лаборатория.
  9. ^ История LANL GenBank
  10. ^ Бентон Д. (1990). «Последние изменения в онлайн-сервисе GenBank». Исследования нуклеиновых кислот . 18 (6): 1517–1520. дои : 10.1093/нар/18.6.1517. ПМК 330520 . ПМИД  2326192. 
  11. ^ Бенсон, Д.А.; Кавано, М.; Кларк, К.; Карш-Мизрачи, И.; Липман, диджей; Остелл, Дж.; Сэйерс, EW (2012). «ГенБанк». Исследования нуклеиновых кислот . 41 (Проблема с базой данных): D36–D42. дои : 10.1093/nar/gks1195. ПМК 3531190 . ПМИД  23193287. 
  12. ^ Кён Сан Пак; Чанг-Сок Ки; Чхоль-Ин Кан; Яэ-Жан Ким; Ду Рён Чон; Кьонг Ран Пек; Сон Джэ Хун; Нам Ён Ли (май 2012 г.). «Оценка услуг GenBank, EzTaxon и BIBI по молекулярной идентификации изолятов клинических культур крови, которые были неидентифицированы или ошибочно идентифицированы обычными методами». Дж. Клин. Микробиол . 50 (5): 1792–1795. дои : 10.1128/JCM.00081-12. ПМЦ 3347139 . ПМИД  22403421. 
  13. ^ База данных EzTaxon-e eztaxon-e.ezbiocloud.net (по состоянию на 25 марта 2021 г.)
  14. ^ leBIBI V5 pbil.univ-lyon1.fr (по состоянию на 25 марта 2021 г.)
  15. ^ Огванг, Джоэл; Бариш, Мишель; Бос, Артур Р. (2021). «Генетическое разнообразие и филогенетические взаимоотношения тонкоперых лещей (Nemipterus spp.) Красного моря и восточной части Средиземного моря». Геном . 64 (3): 207–216. doi : 10.1139/gen-2019-0163.
  16. ^ ван ден Бург, Маттейс П.; Эррандо-Перес, Сальвадор; Виетес, Дэвид Р. (13 августа 2020 г.). «ACDC, глобальная база данных последовательностей цитохрома b амфибий с использованием воспроизводимого курирования записей GenBank». Научные данные . 7 (1): 268. дои : 10.1038/s41597-020-00598-9. eISSN  2052-4463. ПМЦ 7426930 . ПМИД  32792559. 
  17. ^ Ли, Сяобин; Шен, Сюэцзюань; Чен, Сяо; Сян, Дэн; Мерфи, Роберт В.; Шен, Юнъи (6 февраля 2018 г.). «Обнаружение потенциально проблемных последовательностей генов Cytb рыб в GenBank». Границы генетики . 9:30 . дои : 10.3389/fgene.2018.00030 . eISSN  1664-8021. ПМЦ 5808227 . ПМИД  29467794. 
  18. ^ Хеллер, Филип; Казалетто, Джеймс; Руис, Грегори; Геллер, Джонатан (7 августа 2018 г.). «База данных последовательностей генов субъединицы I цитохром с оксидазы многоклеточных животных, полученных из GenBank с помощью CO-ARBitrator». Научные данные . 5 (1). doi : 10.1038/sdata.2018.156. eISSN  2052-4463. ПМК 6080493 . ПМИД  30084847. 
  19. ^ Ван Ден Бург, Маттейс П.; Виетес, Дэвид Р. (22 сентября 2022 г.). «Генетические базы данных птиц нуждаются в улучшенном хранении и сообщении об ошибках в <scp>NCBI</scp>». Ибис . дои : 10.1111/ibi.13143 . eISSN  1474-919X. hdl : 10261/282622 . ISSN  0019-1019.


Внешние ссылки