Биологические базы данных представляют собой библиотеки биологических наук, собранные из научных экспериментов, опубликованной литературы, высокопроизводительных экспериментальных технологий и вычислительного анализа. [ требуется ссылка ] Они содержат информацию из таких областей исследований, как геномика , протеомика , метаболомика , экспрессия генов на микрочипах и филогенетика . [2] Информация, содержащаяся в биологических базах данных, включает функцию генов, структуру, локализацию (как клеточную, так и хромосомную), клинические эффекты мутаций, а также сходства биологических последовательностей и структур.
Биологические базы данных можно классифицировать по типу собираемых ими данных (см. ниже). В широком смысле, существуют молекулярные базы данных (для последовательностей, молекул и т. д.), функциональные базы данных (для физиологии, активности ферментов, фенотипов, экологии и т. д.), таксономические базы данных (для видов и других таксономических рангов), изображения и другие носители или образцы (для музейных коллекций и т. д.)
Базы данных являются важными инструментами, помогающими ученым анализировать и объяснять множество биологических явлений, от структуры биомолекул и их взаимодействия до всего метаболизма организмов и понимания эволюции видов . Эти знания помогают облегчить борьбу с болезнями, помогают в разработке лекарств , прогнозировании определенных генетических заболеваний и в обнаружении основных взаимосвязей между видами в истории жизни .
Концепции реляционных баз данных в компьютерной науке и концепции информационного поиска в цифровых библиотеках важны для понимания биологических баз данных. Проектирование, разработка и долгосрочное управление биологическими базами данных являются основной областью дисциплины биоинформатики . [3] Содержимое данных включает последовательности генов, текстовые описания, атрибуты и классификации онтологий , цитаты и табличные данные. Их часто описывают как полуструктурированные данные и могут быть представлены в виде таблиц, записей с разделителями ключей и структур XML . [ требуется цитата ]
Большинство биологических баз данных доступны через веб-сайты, которые организуют данные таким образом, что пользователи могут просматривать данные в режиме онлайн. Кроме того, базовые данные обычно доступны для загрузки в различных форматах. Биологические данные поставляются во многих форматах. Эти форматы включают текст, данные о последовательностях, структуру белка и ссылки. Каждый из них можно найти в определенных источниках, например: [ необходима цитата ]
Биологические знания распределены по бесчисленным базам данных. Иногда это затрудняет обеспечение согласованности информации, например, когда для одного и того же вида или разных форматов данных используются разные названия. Как следствие, совместимость является постоянной проблемой для обмена информацией. Например, если база данных последовательностей ДНК хранит последовательность ДНК вместе с названием вида, изменение названия этого вида может нарушить связи с другими базами данных, которые могут использовать другое название. Интегративная биоинформатика — это одно из направлений, пытающееся решить эту проблему путем предоставления унифицированного доступа. Одним из решений является то, как биологические базы данных перекрестно ссылаются на другие базы данных с номерами доступа , чтобы связать свои связанные знания вместе (например, чтобы номер доступа оставался прежним, даже если название вида меняется). Избыточность — еще одна проблема, поскольку многие базы данных должны хранить одну и ту же информацию, например, базы данных структур белков также содержат последовательность белков, которые они охватывают, их последовательность и их библиографическую информацию.
Для некоторых видов доступны видоспецифичные базы данных, в основном те, которые часто используются в исследованиях ( модельные организмы ). Например, EcoCyc — это база данных E. coli . Другие популярные базы данных модельных организмов включают Mouse Genome Informatics для лабораторной мыши Mus musculus , Rat Genome Database для Rattus , ZFIN для Danio Rerio (зебровая рыбка), PomBase [4] для делящихся дрожжей Schizosaccharomyces pombe , FlyBase для Drosophila , WormBase для нематод Caenorhabditis elegans и Caenorhabditis briggsae , а также Xenbase для лягушек Xenopus tropicalis и Xenopus laevis .
Многочисленные базы данных пытаются документировать разнообразие жизни на Земле. Ярким примером является Каталог жизни , впервые созданный в 2001 году Species 2000 и Integrated Taxonomic Information System. [6] Каталог жизни — это совместный проект, целью которого является документирование таксономической категоризации всех в настоящее время принятых видов в мире. [7] Каталог жизни предоставляет консолидированную и согласованную базу данных для исследователей и политиков. Каталог жизни курирует актуальные наборы данных из других источников, таких как Conifer Database, ICTV MSL (для вирусов) и LepIndex (для бабочек и моли). Всего по состоянию на май 2022 года Каталог жизни черпает информацию из 165 баз данных. [8] Эксплуатационные расходы Каталога жизни оплачиваются Глобальным информационным фондом по биоразнообразию , Иллинойским обзором естественной истории , Центром биоразнообразия Naturalis и Смитсоновским институтом . [9]
Некоторые биологические базы данных также документируют географическое распределение различных видов. Шуан Дай и др. создали новую многоисточниковую базу данных для документирования пространственного/географического распределения 1371 вида птиц в Китае, поскольку в существующих базах данных были серьезные недостатки в данных о пространственном распределении для многих видов. [10] Источниками для этой новой базы данных были книги, литература, GPS-отслеживание и данные веб-страниц в Интернете. Новая база данных отображала таксономию, распределение, информацию о видах и источники данных для каждого вида. После завершения базы данных пространственного распределения птиц было обнаружено, что 61% известных видов в Китае были распространены в регионах за пределами тех, где они были известны ранее. [11]
Медицинские базы данных являются особым случаем ресурсов биомедицинских данных и могут варьироваться от библиографий, таких как PubMed , до баз данных изображений для разработки диагностического программного обеспечения на основе ИИ. Например, одна такая база данных изображений была разработана с целью оказания помощи в разработке алгоритмов мониторинга ран. [13] Более 188 наборов мультимодальных изображений были отобраны из 79 визитов пациентов, состоящих из фотографий, тепловых изображений и карт глубины 3D-сетки. Контуры ран были вручную нарисованы и добавлены в наборы данных фотографий. [14] База данных была сделана общедоступной в виде программы под названием WoundsDB, которую можно загрузить с веб-сайта Chronic Wound Database.
Важным ресурсом для поиска биологических баз данных является специальный ежегодный выпуск журнала Nucleic Acids Research (NAR). Выпуск Database Issue of NAR находится в свободном доступе и классифицирует многие публичные биологические базы данных. Сопутствующая база данных к выпуску, называемая Online Molecular Biology Database Collection, содержит список из 1380 онлайновых баз данных. [15] Существуют и другие коллекции баз данных, такие как MetaBase и Bioinformatics Links Collection. [16] [17]