База данных последовательностей GenBank — это аннотированная коллекция всех общедоступных нуклеотидных последовательностей и их белковых трансляций с открытым доступом . Она создается и поддерживается Национальным центром биотехнологической информации (NCBI; часть Национальных институтов здравоохранения в США ) в рамках Международного сотрудничества по базам данных нуклеотидных последовательностей (INSDC).
GenBank и его сотрудники получат последовательности, полученные в лабораториях по всему миру из более чем 500 000 формально описанных видов . [2] База данных была создана в 1982 году Уолтером Гоудом и Лос-Аламосской национальной лабораторией . GenBank стал важной базой данных для исследований в области биологии и в последние годы рос экспоненциально, удваиваясь примерно каждые 18 месяцев. [3] [4]
Выпуск 250.0, опубликованный в июне 2022 года, содержал более 17 триллионов нуклеотидных оснований в более чем 2,45 миллиарда последовательностей. [5] GenBank формируется на основе прямых заявок от отдельных лабораторий, а также на основе массовых заявок от крупных центров секвенирования .
Только оригинальные последовательности могут быть отправлены в GenBank. Прямые отправки в GenBank осуществляются с помощью BankIt, который представляет собой веб-форму, или автономной программы отправки Sequin. После получения отправки последовательности сотрудники GenBank проверяют оригинальность данных и присваивают последовательности номер доступа , а также выполняют проверки обеспечения качества. Затем отправки публикуются в общедоступной базе данных, где записи могут быть извлечены Entrez или загружены по FTP . Массовые отправки данных Expressed Sequence Tag (EST), Sequence-tagged site (STS), Genome Survey Sequence (GSS) и High-Throughput Genome Sequence (HTGS) чаще всего отправляются крупными центрами секвенирования. Группа прямых отправок GenBank также обрабатывает полные последовательности микробных геномов. [6] [7]
Уолтер Гоад из Группы теоретической биологии и биофизики в Лос-Аламосской национальной лаборатории (LANL) и другие создали Лос-Аламосскую базу данных последовательностей в 1979 году, которая достигла кульминации в 1982 году с созданием публичного GenBank. [8] Финансирование было предоставлено Национальными институтами здравоохранения , Национальным научным фондом , Министерством энергетики и Министерством обороны . LANL сотрудничала над GenBank с фирмой Bolt, Beranek и Newman , и к концу 1983 года в ней хранилось более 2000 последовательностей.
В середине 1980-х годов биоинформатическая компания Intelligenetics в Стэнфордском университете совместно с LANL управляла проектом GenBank. [9] Как один из самых ранних проектов сообщества биоинформатики в Интернете, проект GenBank запустил новостные группы BIOSCI /Bionet для продвижения открытых коммуникаций среди ученых-биологов. В период с 1989 по 1992 год проект GenBank перешел в недавно созданный Национальный центр биотехнологической информации (NCBI) . [10]
В примечаниях к выпуску GenBank для версии 250.0 (июнь 2022 г.) указано, что «с 1982 г. по настоящее время количество оснований в GenBank удваивалось примерно каждые 18 месяцев». [5] [11] По состоянию на 15 июня 2022 г. версия GenBank 250.0 содержит более 239 миллионов локусов , 1,39 триллиона нуклеотидных оснований из 239 миллионов зарегистрированных последовательностей. [5]
База данных GenBank включает в себя дополнительные наборы данных, которые создаются механически из коллекции данных основной последовательности и поэтому исключаются из этого подсчета.
В общедоступных базах данных, поиск в которых можно осуществлять с помощью инструмента поиска базовых локальных выравниваний Национального центра биотехнологической информации (NCBI BLAST), отсутствуют рецензируемые последовательности типовых штаммов и последовательности нетиповых штаммов. С другой стороны, в то время как коммерческие базы данных потенциально содержат высококачественные отфильтрованные данные о последовательностях, существует ограниченное количество референтных последовательностей.
В статье, опубликованной в Journal of Clinical Microbiology [12], дана оценка результатов секвенирования гена 16S рРНК, проанализированных с помощью GenBank в сочетании с другими свободно доступными, контролируемыми по качеству, общедоступными веб-базами данных, такими как базы данных EzTaxon -e [13] и BIBI [14] . Результаты показали, что анализы, выполненные с использованием GenBank в сочетании с EzTaxon -e (каппа = 0,79), были более дискриминантными, чем при использовании GenBank (каппа = 0,66) или других баз данных по отдельности.
GenBank, будучи общедоступной базой данных, может содержать последовательности, ошибочно отнесенные к определенному виду, поскольку первоначальная идентификация организма была неверной. Недавняя статья, опубликованная в Genome, показала, что 75% последовательностей субъединицы I митохондриальной цитохром с оксидазы были ошибочно отнесены к рыбе Nemipterus mesoprion в результате продолжающегося использования последовательностей изначально неверно идентифицированных особей. [15] Авторы дают рекомендации, как избежать дальнейшего распространения общедоступных последовательностей с неправильными научными названиями.
Многочисленные опубликованные рукописи выявили ошибочные последовательности в GenBank. [16] [17] [18] Это не только неправильные назначения видов (которые могут иметь разные причины), но также включают химеры и записи о присоединении с ошибками секвенирования. Недавняя рукопись о качестве всех записей цитохрома b птиц также показала, что 45% выявленных ошибочных записей не имеют контрольного образца, что препятствует повторной оценке идентификации вида. [19]