Национальный центр биотехнологической информации ( NCBI ) [1] [2] является частью (NLM), филиала Национальных институтов здравоохранения (NIH). Он одобрен и финансируется правительством Соединенных Штатов . NCBI находится в Бетесде, штат Мэриленд , и был основан в 1988 году в соответствии с законодательством, спонсируемым конгрессменом США Клодом Пеппером .
NCBI содержит ряд баз данных, относящихся к биотехнологии и биомедицине , и является важным ресурсом для инструментов и услуг биоинформатики. Основные базы данных включают GenBank для последовательностей ДНК и PubMed , библиографическую базу данных для биомедицинской литературы. Другие базы данных включают базу данных NCBI Epigenomics . Все эти базы данных доступны онлайн через поисковую систему Entrez . NCBI руководил Дэвид Липман [2], один из первоначальных авторов программы выравнивания последовательностей BLAST [3] и широко уважаемая фигура в биоинформатике .
NCBI отвечал за предоставление базы данных последовательностей ДНК GenBank с 1992 года. [4] GenBank координирует работу с отдельными лабораториями и другими базами данных последовательностей, такими как Европейская лаборатория молекулярной биологии (EMBL) и Банк данных ДНК Японии (DDBJ). [4]
С 1992 года NCBI расширился и стал предоставлять другие базы данных в дополнение к GenBank. NCBI предоставляет базу данных Gene, Online Mendelian Inheritance in Man , базу данных Molecular Modeling (3D-структуры белков), dbSNP (базу данных однонуклеотидных полиморфизмов ), коллекцию референтных последовательностей, карту генома человека и браузер таксономии , а также координирует работу с Национальным институтом рака для предоставления проекта Cancer Genome Anatomy Project. NCBI присваивает уникальный идентификатор (идентификационный номер таксономии) каждому виду организмов. [5]
NCBI имеет программные инструменты, которые доступны через интернет-браузеры или по FTP . Например, BLAST — это программа поиска сходства последовательностей. BLAST может выполнять сравнение последовательностей с базой данных ДНК GenBank менее чем за 15 секунд.
Книжная полка NCBI [6] представляет собой коллекцию свободно доступных, загружаемых, онлайн-версий избранных биомедицинских книг. Книжная полка охватывает широкий спектр тем, включая молекулярную биологию , биохимию , клеточную биологию , генетику , микробиологию , болезненные состояния с молекулярной и клеточной точки зрения, методы исследования и вирусологию . Некоторые книги являются онлайн-версиями ранее опубликованных книг, в то время как другие, такие как Coffee Break , написаны и отредактированы сотрудниками NCBI. Книжная полка является дополнением к репозиторию Entrez PubMed рецензируемых публикаций , поскольку содержимое Книжной полки предоставляет устоявшиеся перспективы в развивающихся областях исследований и контекст, в котором могут быть организованы многие разрозненные отдельные части представленных исследований. [ необходима ссылка ]
BLAST — это алгоритм, используемый для расчета сходства последовательностей между биологическими последовательностями, такими как нуклеотидные последовательности ДНК и аминокислотные последовательности белков. [7] BLAST — это мощный инструмент для поиска последовательностей, похожих на запрашиваемую последовательность в одном и том же организме или в разных организмах. Он ищет запрашиваемую последовательность в базах данных и серверах NCBI и отправляет результаты обратно в браузер пользователя в выбранном формате. Входные последовательности для BLAST в основном находятся в формате FASTA или GenBank, тогда как выходные данные могут быть доставлены в различных форматах, таких как HTML, XML-форматирование и простой текст. HTML — это формат вывода по умолчанию для веб-страницы NCBI. Результаты для NCBI-BLAST представлены в графическом формате со всеми найденными совпадениями, таблицей с идентификаторами последовательностей для совпадений, имеющих данные, связанные с оценкой, а также выравниваниями для интересующей последовательности и полученными совпадениями с аналогичными оценками BLAST для них. [8]
Система поиска по базам данных Entrez Global Query Cross-Database Search System используется в NCBI для всех основных баз данных, таких как Nucleotide and Protein Sequences, Protein Structures, PubMed, Taxonomy, Complete Genomes, OMIM и ряда других. [9] Entrez — это система индексации и поиска, содержащая данные из различных источников для биомедицинских исследований. NCBI распространил первую версию Entrez в 1991 году, состоящую из нуклеотидных последовательностей из PDB и GenBank , белковых последовательностей из SWISS-PROT, переведенных GenBank, PIR, PRF, PDB и связанных рефератов и цитат из PubMed. Entrez специально разработан для интеграции данных из нескольких различных источников, баз данных и форматов в единую информационную модель и систему поиска, которая может эффективно извлекать соответствующие ссылки, последовательности и структуры. [10]
Gene был внедрен в NCBI для характеристики и организации информации о генах. Он служит основным узлом в связке геномной карты, экспрессии, последовательности, функции белка, структуры и данных гомологии. Каждой записи гена присваивается уникальный GeneID, который можно отслеживать в циклах ревизий. Записи генов для известных или предсказанных генов устанавливаются здесь и разграничиваются позициями карты или нуклеотидными последовательностями. Gene имеет несколько преимуществ по сравнению со своим предшественником LocusLink, включая лучшую интеграцию с другими базами данных в NCBI, более широкий таксономический охват и улучшенные возможности для запросов и поиска, предоставляемые системой Entrez. [11]
База данных белков содержит текстовую запись для отдельных последовательностей белков, полученных из множества различных ресурсов, таких как проект NCBI Reference Sequence (RefSeq), GenBank, PDB и UniProtKB/SWISS-Prot. Записи белков представлены в различных форматах, включая FASTA и XML , и связаны с другими ресурсами NCBI. Protein предоставляет пользователям соответствующие данные, такие как гены, последовательности ДНК/РНК, биологические пути, данные об экспрессии и вариациях и литературу. Она также предоставляет предопределенные наборы похожих и идентичных белков для каждой последовательности, вычисленные BLAST. База данных структур NCBI содержит трехмерные наборы координат для экспериментально определенных структур в PDB, которые импортируются NCBI. База данных консервативных доменов ( CDD ) белков содержит профили последовательностей, которые характеризуют высококонсервативные домены в последовательностях белков. Она также содержит записи из внешних ресурсов, таких как SMART и Pfam . Существует еще одна база данных белков, известная как база данных белковых кластеров, которая содержит наборы последовательностей белков, сгруппированных в соответствии с максимальными выравниваниями между отдельными последовательностями, рассчитанными с помощью BLAST. [12]
База данных PubChem NCBI является общедоступным ресурсом для молекул и их активности в отношении биологических анализов. PubChem доступен для поиска и доступен через информационно-поисковую систему Entrez . [13]