ГенБанк

База данных последовательностей GenBank представляет собой аннотированную коллекцию с открытым доступом всех общедоступных нуклеотидных последовательностей и их белковых трансляций. Он производится и поддерживается Национальным центром биотехнологической информации (NCBI; часть Национальных институтов здравоохранения США ) в рамках Международного сотрудничества по базам данных нуклеотидных последовательностей (INSDC).

GenBank и его сотрудники получат последовательности, полученные в лабораториях по всему миру более чем 500 000 официально описанных видов . ^[2] База данных была создана в 1982 году Уолтером Гоудом и Национальной лабораторией Лос-Аламоса . GenBank стал важной базой данных для исследований в области биологии и в последние годы рос в геометрической прогрессии , удваиваясь примерно каждые 18 месяцев. ^[3]^[4]

Версия 250.0, опубликованная в июне 2022 года, содержала более 17 триллионов нуклеотидных оснований в более чем 2,45 миллиардах последовательностей. ^[5] GenBank создается за счет прямых материалов из отдельных лабораторий, а также из массовых материалов из крупных центров секвенирования .

Материалы

В GenBank можно отправлять только оригинальные последовательности. Прямые заявки передаются в GenBank с помощью BankIt, веб-формы, или отдельной программы подачи Sequin. После получения представленной последовательности сотрудники GenBank проверяют оригинальность данных, присваивают последовательности инвентарный номер и выполняют проверки качества. Затем материалы передаются в общедоступную базу данных, где их можно получить с помощью Entrez или загрузить через FTP . Массовая подача данных экспрессированных тегов последовательностей (EST), сайтов с тегами последовательностей (STS), последовательностей геномных исследований (GSS) и высокопроизводительных геномных последовательностей (HTGS) чаще всего предоставляется крупными центрами секвенирования. Группа прямых заявок GenBank также обрабатывает полные последовательности микробного генома. ^[6]^[7]

История

Уолтер Гоуд из группы теоретической биологии и биофизики Лос-Аламосской национальной лаборатории (LANL) и другие создали Лос-Аламосскую базу данных последовательностей в 1979 году, кульминацией которой стало создание в 1982 году общедоступного банка генов. ^[8] Финансирование было предоставлено Национальными институтами здравоохранения , Национальным научным фондом , Министерством энергетики и Министерством обороны . LANL сотрудничала в GenBank с фирмой Bolt, Beranek и Newman , и к концу 1983 года в нем хранилось более 2000 последовательностей.

В середине 1980-х годов биоинформатическая компания Intelligenetics в Стэнфордском университете управляла проектом GenBank в сотрудничестве с LANL. ^[9] Являясь одним из первых проектов биоинформатического сообщества в Интернете, проект GenBank основал новостные группы BIOSCI /Bionet для продвижения открытого доступа к общению среди ученых-биологов. В период с 1989 по 1992 год проект GenBank перешел в недавно созданный Национальный центр биотехнологической информации (NCBI) . ^[10]

Рост

В примечаниях к выпуску GenBank для версии 250.0 (июнь 2022 г.) говорится, что «с 1982 года по настоящее время количество баз в GenBank удваивается примерно каждые 18 месяцев». ^[5]^[11] По состоянию на 15 июня 2022 года версия GenBank 250.0 содержит более 239 миллионов локусов , 1,39 триллиона нуклеотидных оснований из 239 миллионов зарегистрированных последовательностей. ^[5]

База данных GenBank включает дополнительные наборы данных, которые создаются механически из сбора данных основной последовательности и поэтому исключены из этого подсчета.

Неполная идентификация

В общедоступных базах данных, поиск в которых можно осуществлять с помощью инструмента базового локального поиска национального центра биотехнологической информации (NCBI BLAST), отсутствуют рецензируемые последовательности типовых штаммов и последовательности нетиповых штаммов. С другой стороны, хотя коммерческие базы данных потенциально содержат высококачественные данные отфильтрованных последовательностей, существует ограниченное количество эталонных последовательностей.

В статье, опубликованной в Журнале клинической микробиологии^[12], оценивались результаты секвенирования гена 16S рРНК , проанализированные с помощью GenBank в сочетании с другими свободно доступными общедоступными веб-базами данных с контролем качества, такими как EzTaxon -e [ ^13] и Базы данных БИБИ ^[14] . Результаты показали, что анализы, выполненные с использованием GenBank в сочетании с EzTaxon -e (каппа = 0,79), были более разборчивыми, чем с использованием GenBank (каппа = 0,66) или других баз данных отдельно.

GenBank, будучи общедоступной базой данных, может содержать последовательности, ошибочно отнесенные к определенному виду, поскольку первоначальная идентификация организма была ошибочной. Недавняя статья, опубликованная в журнале «Геном» , показала, что 75% последовательностей субъединицы I митохондриальной цитохром-с-оксидазы были ошибочно отнесены к мезоприону рыбы Nemipterus в результате продолжающегося использования последовательностей первоначально ошибочно идентифицированных особей. ^[15] Авторы дают рекомендации, как избежать дальнейшего распространения общедоступных последовательностей с неверными научными названиями.

Многочисленные опубликованные рукописи выявили ошибочные последовательности в GenBank. ^[16]^[17]^[18] Это не только неправильное отнесение видов (которые могут иметь разные причины), но также включают химеры и записи об образцах с ошибками секвенирования. Недавняя рукопись о качестве всех записей цитохрома b птиц также показала, что в 45% выявленных ошибочных записей отсутствует ваучерный образец, который предотвращает повторную оценку идентификации вида. ^[19]

Смотрите также

Ансамбль
Справочная база данных по белкам человека (HPRD)
Анализ последовательности
ЮниПрот
Список секвенированных геномов эукариот
Список секвенированных геномов архей
RefSeq — база данных эталонных последовательностей
Geneious — включает в себя инструмент отправки данных в GenBank.
Открытые научные данные
Открытый стандарт

Внешние ссылки

ГенБанк
Пример записи последовательности для бета-гемоглобина
BankIt
Sequin — автономный программный инструмент, разработанный NCBI для отправки и обновления записей в базу данных последовательностей GenBank.
EMBOSS — бесплатное программное обеспечение с открытым исходным кодом для молекулярной биологии.
GenBank, RefSeq, TPA и UniProt: что в названии?