stringtranslate.com

Биологическая база данных

Домашняя страница биологической базы данных STRING, которая характеризует функциональные связи между белками [1]

Биологические базы данных представляют собой библиотеки биологических наук, собранные из научных экспериментов, опубликованной литературы, высокопроизводительных экспериментальных технологий и вычислительного анализа. [ требуется ссылка ] Они содержат информацию из таких областей исследований, как геномика , протеомика , метаболомика , экспрессия генов на микрочипах и филогенетика . [2] Информация, содержащаяся в биологических базах данных, включает функцию генов, структуру, локализацию (как клеточную, так и хромосомную), клинические эффекты мутаций, а также сходства биологических последовательностей и структур.

Биологические базы данных можно классифицировать по типу собираемых ими данных (см. ниже). В широком смысле, существуют молекулярные базы данных (для последовательностей, молекул и т. д.), функциональные базы данных (для физиологии, активности ферментов, фенотипов, экологии и т. д.), таксономические базы данных (для видов и других таксономических рангов), изображения и другие носители или образцы (для музейных коллекций и т. д.)

Базы данных являются важными инструментами, помогающими ученым анализировать и объяснять множество биологических явлений, от структуры биомолекул и их взаимодействия до всего метаболизма организмов и понимания эволюции видов . Эти знания помогают облегчить борьбу с болезнями, помогают в разработке лекарств , прогнозировании определенных генетических заболеваний и в обнаружении основных взаимосвязей между видами в истории жизни .

Техническая основа и теоретические концепции

Концепции реляционных баз данных в компьютерной науке и концепции информационного поиска в цифровых библиотеках важны для понимания биологических баз данных. Проектирование, разработка и долгосрочное управление биологическими базами данных являются основной областью дисциплины биоинформатики . [3] Содержимое данных включает последовательности генов, текстовые описания, атрибуты и классификации онтологий , цитаты и табличные данные. Их часто описывают как полуструктурированные данные и могут быть представлены в виде таблиц, записей с разделителями ключей и структур XML . [ требуется цитата ]

Доступ

Большинство биологических баз данных доступны через веб-сайты, которые организуют данные таким образом, что пользователи могут просматривать данные в режиме онлайн. Кроме того, базовые данные обычно доступны для загрузки в различных форматах. Биологические данные поставляются во многих форматах. Эти форматы включают текст, данные о последовательностях, структуру белка и ссылки. Каждый из них можно найти в определенных источниках, например: [ необходима цитата ]

Проблемы и вызовы

Биологические знания распределены по бесчисленным базам данных. Иногда это затрудняет обеспечение согласованности информации, например, когда для одного и того же вида или разных форматов данных используются разные названия. Как следствие, совместимость является постоянной проблемой для обмена информацией. Например, если база данных последовательностей ДНК хранит последовательность ДНК вместе с названием вида, изменение названия этого вида может нарушить связи с другими базами данных, которые могут использовать другое название. Интегративная биоинформатика — это одно из направлений, пытающееся решить эту проблему путем предоставления унифицированного доступа. Одним из решений является то, как биологические базы данных перекрестно ссылаются на другие базы данных с номерами доступа , чтобы связать свои связанные знания вместе (например, чтобы номер доступа оставался прежним, даже если название вида меняется). Избыточность — еще одна проблема, поскольку многие базы данных должны хранить одну и ту же информацию, например, базы данных структур белков также содержат последовательность белков, которые они охватывают, их последовательность и их библиографическую информацию.

Базы данных модельных организмов

Для некоторых видов доступны видоспецифичные базы данных, в основном те, которые часто используются в исследованиях ( модельные организмы ). Например, EcoCyc — это база данных E. coli . Другие популярные базы данных модельных организмов включают Mouse Genome Informatics для лабораторной мыши Mus musculus , Rat Genome Database для Rattus , ZFIN для Danio Rerio (зебровая рыбка), PomBase [4] для делящихся дрожжей Schizosaccharomyces pombe , FlyBase для Drosophila , WormBase для нематод Caenorhabditis elegans и Caenorhabditis briggsae , а также Xenbase для лягушек Xenopus tropicalis и Xenopus laevis .

Базы данных по биоразнообразию и видам

Группы животных и их количество видов из « Каталога жизни» [5]

Многочисленные базы данных пытаются документировать разнообразие жизни на Земле. Ярким примером является Каталог жизни , впервые созданный в 2001 году Species 2000 и Integrated Taxonomic Information System. [6] Каталог жизни — это совместный проект, целью которого является документирование таксономической категоризации всех в настоящее время принятых видов в мире. [7] Каталог жизни предоставляет консолидированную и согласованную базу данных для исследователей и политиков. Каталог жизни курирует актуальные наборы данных из других источников, таких как Conifer Database, ICTV MSL (для вирусов) и LepIndex (для бабочек и моли). Всего по состоянию на май 2022 года Каталог жизни черпает информацию из 165 баз данных. [8] Эксплуатационные расходы Каталога жизни оплачиваются Глобальным информационным фондом по биоразнообразию , Иллинойским обзором естественной истории , Центром биоразнообразия Naturalis и Смитсоновским институтом . [9]

Некоторые биологические базы данных также документируют географическое распределение различных видов. Шуан Дай и др. создали новую многоисточниковую базу данных для документирования пространственного/географического распределения 1371 вида птиц в Китае, поскольку в существующих базах данных были серьезные недостатки в данных о пространственном распределении для многих видов. [10] Источниками для этой новой базы данных были книги, литература, GPS-отслеживание и данные веб-страниц в Интернете. Новая база данных отображала таксономию, распределение, информацию о видах и источники данных для каждого вида. После завершения базы данных пространственного распределения птиц было обнаружено, что 61% известных видов в Китае были распространены в регионах за пределами тех, где они были известны ранее. [11]

Медицинские базы данных

Раны на ногах из WoundsDB [12]

Медицинские базы данных являются особым случаем ресурсов биомедицинских данных и могут варьироваться от библиографий, таких как PubMed , до баз данных изображений для разработки диагностического программного обеспечения на основе ИИ. Например, одна такая база данных изображений была разработана с целью оказания помощи в разработке алгоритмов мониторинга ран. [13] Более 188 наборов мультимодальных изображений были отобраны из 79 визитов пациентов, состоящих из фотографий, тепловых изображений и карт глубины 3D-сетки. Контуры ран были вручную нарисованы и добавлены в наборы данных фотографий. [14] База данных была сделана общедоступной в виде программы под названием WoundsDB, которую можно загрузить с веб-сайта Chronic Wound Database.

Исследования нуклеиновых кислотПроблема с базой данных

Важным ресурсом для поиска биологических баз данных является специальный ежегодный выпуск журнала Nucleic Acids Research (NAR). Выпуск Database Issue of NAR находится в свободном доступе и классифицирует многие публичные биологические базы данных. Сопутствующая база данных к выпуску, называемая Online Molecular Biology Database Collection, содержит список из 1380 онлайновых баз данных. [15] Существуют и другие коллекции баз данных, такие как MetaBase и Bioinformatics Links Collection. [16] [17]

Смотрите также

Ссылки

  1. ^ Szklarczyk D; Franceschini A; Kuhn M; et al. (январь 2011 г.). «База данных STRING в 2011 г.: функциональные сети взаимодействия белков, глобально интегрированные и оцененные». Nucleic Acids Res . 39 (выпуск базы данных): D561–8. doi :10.1093/nar/gkq973. PMC  3013807. PMID  21045058 .
  2. ^ Altman RB (март 2004). «Создание успешных биологических баз данных». Краткая информация. Биоинформатика . 5 (1): 4–5. doi : 10.1093/bib/5.1.4 . PMID  15153301.
  3. ^ Bourne P (август 2005 г.). «Будет ли биологическая база данных отличаться от биологического журнала?». PLOS Comput. Biol . 1 (3): 179–81. Bibcode : 2005PLSCB...1...34B. doi : 10.1371/journal.pcbi.0010034 . PMC 1193993. PMID  16158097 . 
  4. ^ Lock, A; Rutherford, K; Harris, MA; Hayles, J; Oliver, SG; Bähler, J; Wood, V (13 октября 2018 г.). «PomBase 2018: управляемая пользователем повторная реализация базы данных делящихся дрожжей обеспечивает быстрый и интуитивно понятный доступ к разнообразной, взаимосвязанной информации». Nucleic Acids Research . 47 (D1): D821–D827. doi :10.1093/nar/gky961. PMC 6324063 . PMID  30321395. 
  5. ^ Catalogue of Life (2001). "Homepage". Поиск . Виды 2000. Архивировано из оригинала 2022-05-05 . Получено 2022-05-05 .
  6. ^ Джонс, Эндрю К. (2011). «Идентификация и соотнесение биологических концепций в каталоге жизни». Журнал биомедицинской семантики . 2 (1): 7. doi : 10.1186/2041-1480-2-7 . PMC 3245425. PMID  22004596 . 
  7. ^ Каталог жизни (2001). "Что такое Каталог жизни?". Наша миссия . Виды 2000. Архивировано из оригинала 2022-05-05 . Получено 2022-05-05 .
  8. ^ Catalogue of Life (2001). "Source Datasets". Species 2000. Архивировано из оригинала 2022-05-14 . Получено 2022-05-05 .
  9. ^ Каталог жизни (2001). "Финансирование". Виды 2000. Архивировано из оригинала 2022-05-05 . Получено 2022-05-05 .
  10. ^ Дай, Шуан (2019). «Пространственная цифровая база данных для всех видов птиц в Китае». Science China Life Sciences . 62 (5): 661–667. doi :10.1007/s11427-018-9419-2. PMID  30900164. S2CID  84845653 . Получено 05.05.2022 .
  11. ^ Дай, Шуан (2019). «Пространственная цифровая база данных для всех видов птиц в Китае». Science China Life Sciences . 62 (5): 661–667. doi :10.1007/s11427-018-9419-2. PMID  30900164. S2CID  84845653 . Получено 05.05.2022 .
  12. ^ "База данных хронических ран". WoundsDB . Силезский технологический университет. 2020. Получено 05.05.2022 .
  13. ^ Kręcichwost, Michał (2021). "База данных изображений хронических ран". Компьютерная медицинская визуализация и графика . 88 : 101844. doi : 10.1016/j.compmedimag.2020.101844. PMID  33477091. S2CID  231676950. Получено 05.05.2022 .
  14. ^ "База данных хронических ран". WoundsDB . Силезский технологический университет. 2020. Получено 05.05.2022 .
  15. ^ Гальперин М.Ю.; Фернандес-Суарес Х.М. (январь 2012 г.). «Выпуск базы данных исследований нуклеиновых кислот 2012 года и онлайн-коллекция базы данных молекулярной биологии». Nucleic Acids Res . 40 (выпуск базы данных): D1–8. doi :10.1093/nar/gkr1196. PMC 3245068. PMID 22144685  . 
  16. ^ Bolser DM; Chibon PY; Palopoli N; et al. (январь 2012 г.). «MetaBase — вики-база данных биологических баз данных». Nucleic Acids Res . 40 (выпуск базы данных): D1250–4. doi :10.1093/nar/gkr1099. PMC 3245051. PMID 22139927  . 
  17. ^ Brazas MD; Yim DS; Yamada JT; Ouellette BF (июль 2011 г.). «Обновление каталога ссылок по биоинформатике 2011 г.: больше ресурсов, инструментов, баз данных и функций для расширения возможностей сообщества биоинформатики». Nucleic Acids Res . 39 (выпуск веб-сервера): W3–7. doi :10.1093/nar/gkr514. PMC 3125814. PMID 21715385  . 

Внешние ссылки