База данных последовательностей GenBank представляет собой аннотированную коллекцию с открытым доступом всех общедоступных нуклеотидных последовательностей и их белковых трансляций. Он производится и поддерживается Национальным центром биотехнологической информации (NCBI; часть Национальных институтов здравоохранения США ) в рамках Международного сотрудничества по базам данных нуклеотидных последовательностей (INSDC).
GenBank и его сотрудники получат последовательности, полученные в лабораториях по всему миру более чем 500 000 официально описанных видов . [2] База данных была создана в 1982 году Уолтером Гоудом и Национальной лабораторией Лос-Аламоса . GenBank стал важной базой данных для исследований в области биологии и в последние годы рос в геометрической прогрессии , удваиваясь примерно каждые 18 месяцев. [3] [4]
Версия 250.0, опубликованная в июне 2022 года, содержала более 17 триллионов нуклеотидных оснований в более чем 2,45 миллиардах последовательностей. [5] GenBank создается за счет прямых материалов из отдельных лабораторий, а также из массовых материалов из крупных центров секвенирования .
В GenBank можно отправлять только оригинальные последовательности. Прямые заявки передаются в GenBank с помощью BankIt, веб-формы, или отдельной программы подачи Sequin. После получения представленной последовательности сотрудники GenBank проверяют оригинальность данных, присваивают последовательности инвентарный номер и выполняют проверки качества. Затем материалы передаются в общедоступную базу данных, где их можно получить с помощью Entrez или загрузить через FTP . Массовая подача данных экспрессированных тегов последовательностей (EST), сайтов с тегами последовательностей (STS), последовательностей геномных исследований (GSS) и высокопроизводительных геномных последовательностей (HTGS) чаще всего предоставляется крупными центрами секвенирования. Группа прямых заявок GenBank также обрабатывает полные последовательности микробного генома. [6] [7]
Уолтер Гоуд из группы теоретической биологии и биофизики Лос-Аламосской национальной лаборатории (LANL) и другие создали Лос-Аламосскую базу данных последовательностей в 1979 году, кульминацией которой стало создание в 1982 году общедоступного банка генов. [8] Финансирование было предоставлено Национальными институтами здравоохранения , Национальным научным фондом , Министерством энергетики и Министерством обороны . LANL сотрудничала в GenBank с фирмой Bolt, Beranek и Newman , и к концу 1983 года в нем хранилось более 2000 последовательностей.
В середине 1980-х годов биоинформатическая компания Intelligenetics в Стэнфордском университете управляла проектом GenBank в сотрудничестве с LANL. [9] Являясь одним из первых проектов биоинформатического сообщества в Интернете, проект GenBank основал новостные группы BIOSCI /Bionet для продвижения открытого доступа к общению среди ученых-биологов. В период с 1989 по 1992 год проект GenBank перешел в недавно созданный Национальный центр биотехнологической информации (NCBI) . [10]
В примечаниях к выпуску GenBank для версии 250.0 (июнь 2022 г.) говорится, что «с 1982 года по настоящее время количество баз в GenBank удваивается примерно каждые 18 месяцев». [5] [11] По состоянию на 15 июня 2022 года версия GenBank 250.0 содержит более 239 миллионов локусов , 1,39 триллиона нуклеотидных оснований из 239 миллионов зарегистрированных последовательностей. [5]
База данных GenBank включает дополнительные наборы данных, которые создаются механически из сбора данных основной последовательности и поэтому исключены из этого подсчета.
В общедоступных базах данных, поиск в которых можно осуществлять с помощью инструмента базового локального поиска национального центра биотехнологической информации (NCBI BLAST), отсутствуют рецензируемые последовательности типовых штаммов и последовательности нетиповых штаммов. С другой стороны, хотя коммерческие базы данных потенциально содержат высококачественные данные отфильтрованных последовательностей, существует ограниченное количество эталонных последовательностей.
В статье, опубликованной в Журнале клинической микробиологии [12], оценивались результаты секвенирования гена 16S рРНК , проанализированные с помощью GenBank в сочетании с другими свободно доступными общедоступными веб-базами данных с контролем качества, такими как EzTaxon -e [ 13] и Базы данных БИБИ [14] . Результаты показали, что анализы, выполненные с использованием GenBank в сочетании с EzTaxon -e (каппа = 0,79), были более разборчивыми, чем с использованием GenBank (каппа = 0,66) или других баз данных отдельно.
GenBank, будучи общедоступной базой данных, может содержать последовательности, ошибочно отнесенные к определенному виду, поскольку первоначальная идентификация организма была ошибочной. Недавняя статья, опубликованная в журнале «Геном» , показала, что 75% последовательностей субъединицы I митохондриальной цитохром-с-оксидазы были ошибочно отнесены к мезоприону рыбы Nemipterus в результате продолжающегося использования последовательностей первоначально ошибочно идентифицированных особей. [15] Авторы дают рекомендации, как избежать дальнейшего распространения общедоступных последовательностей с неверными научными названиями.
Многочисленные опубликованные рукописи выявили ошибочные последовательности в GenBank. [16] [17] [18] Это не только неправильное отнесение видов (которые могут иметь разные причины), но также включают химеры и записи об образцах с ошибками секвенирования. Недавняя рукопись о качестве всех записей цитохрома b птиц также показала, что в 45% выявленных ошибочных записей отсутствует ваучерный образец, который предотвращает повторную оценку идентификации вида. [19]