Биологические базы данных являются хранилищами биологической информации. [1] Журнал Nucleic Acids Research регулярно публикует специальные выпуски по биологическим базам данных и содержит список таких баз данных. В выпуске 2018 года содержится список из около 180 таких баз данных и обновлений ранее описанных баз данных. [2] Omics Discovery Index можно использовать для просмотра и поиска в нескольких биологических базах данных. Кроме того, портал NIAID Data Ecosystem Discovery Portal, разработанный Национальным институтом аллергии и инфекционных заболеваний (NIAID), позволяет осуществлять поиск по базам данных.
Мета базы данных
Мета-базы данных — это базы данных баз данных, которые собирают данные о данных для генерации новых данных. Они способны объединять информацию из разных источников и делать ее доступной в новой и более удобной форме или с акцентом на определенном заболевании или организме. Первоначально метаданные были только общим термином, относящимся просто к данным о данных, таким как теги, ключевые слова и заголовки разметки.
Базы данных модельных организмов
Базы данных модельных организмов предоставляют подробные биологические данные для интенсивно изучаемых организмов.
Базы данных нуклеиновых кислот
базы данных ДНК
Первичные базы данных составляют Международную базу данных последовательностей нуклеотидов (INSD). Они включают:
DDBJ (Япония), GenBank (США) и European Nucleotide Archive (Европа) являются репозиториями данных о нуклеотидных последовательностях всех организмов . Все три принимают заявки на нуклеотидные последовательности, а затем ежедневно обмениваются новыми и обновленными данными для достижения оптимальной синхронизации между ними. Эти три базы данных являются основными, поскольку они содержат исходные данные о последовательностях. Они сотрудничают с Sequence Read Archive (SRA), который архивирует необработанные считывания с высокопроизводительных инструментов секвенирования.
Вторичные базы данных: [ требуется разъяснение ]
- База данных 23andMe
- HapMap
- OMIM (Online Mendelian Inheritance in Man): наследственные заболевания
- РефСек
- Проект «1000 геномов» : запущен в январе 2008 года. Геномы более тысячи анонимных участников из различных этнических групп были проанализированы и опубликованы.
- База данных EggNOG: иерархический, функционально и филогенетически аннотированный ортологический ресурс на основе 5090 организмов и 2502 вирусов. Он обеспечивает множественные выравнивания последовательностей и деревья максимального правдоподобия, а также широкую функциональную аннотацию. [6] [7]
Другие базы данных
Базы данных экспрессии генов
Базы данных экспрессии генов
Базы данных экспрессии генов на микрочипах
Базы данных генома
Эти базы данных собирают последовательности генома , аннотируют и анализируют их, а также предоставляют публичный доступ. Некоторые добавляют кураторство экспериментальной литературы для улучшения вычисляемых аннотаций. Эти базы данных могут содержать геномы многих видов или геном одного модельного организма .
- ArrayExpress: [8] архив данных функциональной геномики; хранит данные высокопроизводительных экспериментов функциональной геномики из EMBL
- Биоинформатический комбайн
- База данных генов рака шейки матки
- Ensembl : предоставляет автоматические базы данных аннотаций для геномов человека, мыши, других позвоночных и эукариот
- Ensembl Genomes : предоставляет данные в масштабе генома для бактерий, простейших, грибов, растений и беспозвоночных многоклеточных животных с помощью унифицированного набора интерактивных и программных интерфейсов (с использованием программной платформы Ensembl)
- FlyBase : геном модельного организма Drosophila melanogaster
- База данных генетических заболеваний
- Gene Expression Omnibus (GEO [9] ): публичный репозиторий функциональных геномных данных Национального института рака США (NCI), который поддерживает данные на основе массивов и последовательностей. Предоставляются инструменты для запроса и загрузки профилей экспрессии генов.
- Атлас белков человека (HPA [10] ): общедоступная база данных с профилями экспрессии генов, кодирующих белки человека, как на уровне мРНК, так и на уровне белков в тканях, клетках, субклеточных компартментах и раковых опухолях.
- Информационная система по бобовым (LIS): геномная база данных для семейства бобовых [11]
- Проект «Персональный геном» : геномы 100 000 добровольцев со всего мира
- RGD ( База данных генома крысы ): геномные и фенотипические данные для Rattus norvegicus
- База данных геномов Saccharomyces : [12] геном модельного организма дрожжей
- SNPedia
- База данных SoyBase [13] (SoyBase): Генетическая и геномная база данных сои Министерства сельского хозяйства США ( Soybean )
- Браузер генома малярии UCSC : геном видов, вызывающих малярию ( Plasmodium falciparum и другие)
- Wormbase : геном модельного организма Caenorhabditis elegans и WormBase ParaSite для паразитических видов
- Xenbase : геном модельного организма Xenopus tropicalis и Xenopus laevis
- Информационная сеть по данио-рерио : геном этого модельного организма рыбы
Базы данных фенотипов
РНКбазы данных
Базы данных аминокислот/белков
(См. также: Список белков в организме человека)
Несколько общедоступных репозиториев данных и ресурсов были разработаны для поддержки и управления информацией, связанной с белками , открытия биологических знаний и генерации гипотез на основе данных. [15] Базы данных в таблице ниже выбраны из баз данных, перечисленных в выпусках баз данных Nucleic Acids Research (NAR) и коллекции баз данных, а также баз данных, перекрестно ссылающихся в UniProt KB. Большинство этих баз данных перекрестно ссылаются на UniProt / UniProt KB, так что идентификаторы могут быть сопоставлены друг с другом. [15]
Белки человека:
В стандартном геноме человека насчитывается около ~20 000 генов, кодирующих белки. (Примерно о ~1200 уже есть статьи в Википедии - Gene Wiki - о них). Если мы включим варианты сплайсинга, то может быть около 500 000 уникальных человеческих белков [16]
Различные типы баз данных белков
Базы данных путей передачи сигнала
Базы данных метаболических путей и функций белков
Таксономические базы данных
Многочисленные базы данных собирают информацию о видах и других таксономических категориях. Каталог жизни — это особый случай, поскольку это метабаза данных из примерно 150 специализированных «глобальных баз данных видов» (GSD), которые собрали названия и другую информацию о (почти) всех описанных и, таким образом, «известных» видах.
- BacDive : бактериальная метабаза данных, которая предоставляет информацию о штаммах, связанных с биоразнообразием бактерий и архей, включая таксономическую информацию
- Каталог жизни : метабаза данных всех видов на Земле
- EzTaxon-e : база данных для идентификации прокариот на основе последовательностей генов рибосомальной РНК 16S
- Таксономия NCBI: таксономическая база данных, управляемая NCBI и концентрирующаяся на всех таксонах, для которых доступны последовательности ДНК (эти последовательности хранятся в GenBank , другой базе данных, управляемой NCBI).
Базы данных изображений
Изображения играют важную роль в биомедицине, начиная от изображений антропологических образцов и заканчивая зоологией . Однако существует относительно немного баз данных, посвященных сбору изображений, хотя некоторые проекты, такие как iNaturalist, собирают фотографии как основную часть своих данных. Особым случаем «изображений» являются трехмерные изображения, такие как белковые структуры или трехмерные реконструкции анатомических структур. Базы данных изображений включают, среди прочего: [22]
- Атлас мозга Аллена
- Цифровой банк мозга [23]
- Архив электронных микроскопических изображений (EMPIAR) [24]
- Ресурс данных изображений [22]
- Морфобанк
- Морфоисточник
Радиологические базы данных
Дополнительные базы данных
Базы данных экзосом
- ExoCarta
- Атлас внеклеточной РНК: репозиторий профилей внеклеточной РНК, полученных с помощью секвенирования малых РНК и количественной ПЦР из биологических жидкостей человека и мышей
Базы данных математических моделей
Базы данных наустойчивость к противомикробным препаратамставки и потребление антибиотиков
Базы данных наустойчивость к противомикробным препаратаммеханизмы
Базы данных в стиле Wiki
Специализированные базы данных
- Barcode of Life Data Systems : база данных ДНК-штрихкодов
- База данных белков бактериальных пестицидов [25] [26]
- Атлас генома рака (TCGA): содержит данные сотен образцов рака, полученные с использованием высокопроизводительных методов, таких как профилирование экспрессии генов, профилирование вариаций числа копий, генотипирование SNP, профилирование метилирования ДНК по всему геному, профилирование микроРНК и секвенирование экзонов не менее 1200 генов.
- Целлозавр : источник знаний о клеточных линиях
- CTD ( база данных сравнительной токсикогеномики ): описывает взаимодействие химических веществ, генов и заболеваний.
- DiProDB : база данных для сбора и анализа термодинамических, структурных и других свойств динуклеотидов
- Атлас домашнего хозяйства и референтных транскриптов (HRT Atlas) [27] веб-инструмент для поиска референтных генов/транскриптов, специфичных для клеток, подходящих для нормализации эксперимента qPCR. HRT Atlas также описывает полный список генов и транскриптов домашнего хозяйства человека и мыши
- Дриада : хранилище данных, лежащих в основе научных публикаций в области фундаментальных и прикладных биологических наук
- Эдинбургский мышиный атлас
- База данных эукариотических промоторов EPD
- FINDbase (База данных частоты наследственных заболеваний)
- GigaDB : репозиторий крупномасштабных наборов данных, лежащих в основе научных публикаций в области биологических и биомедицинских исследований.
- HGNC (Комитет по номенклатуре генов HUGO): ресурс для утвержденной номенклатуры генов человека
- Международный консорциум по эпигеному человека : [28] объединяет эпигеномные справочные данные из известных национальных проектов, таких как канадский CEEHRC, [29] European Blueprint, [30] Европейский архив генома и феномена (EGA [31] ), US ENCODE и NIH Roadmap , немецкий DEEP, [32] японский CREST, [33] корейский KNIH, сингапурская GIS и китайский EpiHK [34]
- MethBase : база данных данных метилирования ДНК , визуализированных в браузере генома UCSC
- Minimotif Miner : база данных коротких смежных функциональных пептидных мотивов
- Онкогеномные базы данных : подборка баз данных, которые используются для исследований рака.
- PubMed : ссылки и рефераты по естественным наукам и биомедицинским темам
- Интегрированная база данных млекопитающих RIKEN
- TDR Targets : база данных хемогеномики, ориентированная на поиск лекарств от тропических болезней
- TRANSFAC : база данных о факторах транскрипции эукариот, их геномных сайтах связывания и профилях связывания ДНК
- JASPAR : база данных вручную отобранных, не избыточных профилей связывания факторов транскрипции.
- MetOSite: база данных о сайтах сульфоксидации метионина и их функциональной роли в белках [35]
- Проект Healthcare Cost and Utilization Project (HCUP) — крупнейшая коллекция данных о больничном обслуживании в США. Она включает сотни миллионов стационарных, амбулаторных и экстренных записей.
- LEXAS собирает описания биологических экспериментов из статей PMC.
- База данных метаболомов крупного рогатого скота — это бесплатная веб-база данных, в которой перечислены известные метаболиты крупного рогатого скота.
Ссылки
- ^ Wren JD, Bateman A (октябрь 2008 г.). «Базы данных, могилы данных и пыль на ветру». Биоинформатика . 24 (19): 2127–8. doi : 10.1093/bioinformatics/btn464 . PMID 18819940.
- ^ "Том 46 Выпуск D1 | Исследования нуклеиновых кислот | Oxford Academic". academic.oup.com . Получено 04.09.2018 .
- ^ Lock A, Rutherford K, Harris MA, Hayles J, Oliver SG, Bähler J, Wood V (январь 2019 г.). «PomBase 2018: управляемая пользователем повторная реализация базы данных делящихся дрожжей обеспечивает быстрый и интуитивно понятный доступ к разнообразной, взаимосвязанной информации». Nucleic Acids Research . 47 (D1): D821–D827. doi :10.1093/nar/gky961. PMC 6324063 . PMID 30321395.
- ^ Zhu B, Stülke J (январь 2018 г.). «SubtiWiki в 2018 г.: от генов и белков до функциональной сетевой аннотации модельного организма Bacillus subtilis». Nucleic Acids Research . 46 (D1): D743–D748. doi :10.1093/nar/gkx908. PMC 5753275. PMID 29788229 .
- ^ Маргарита Гарсия-Эрнандес; Таня Берардини; Гуанхун Чен; Дебби Крист; Эшлинг Дойл; Ева Хуала; Эмма Ни; Марк Ламбрехт; Нил Миллер; Лукас А. Мюллер; Супарна Мундоди; Леонора Райзер; Сын Ю. Ри; Рэнди Шолл; Джули Таклинд; Дэн К. Уимс; Йихе Ву; Ирис Сюй; Дэниел Ю; Чонвон Юн; Пейфэнь Чжан (ноябрь 2002 г.). «ТАИР: ресурс интегрированных данных об арабидопсисе». Функциональная и интегративная геномика . 2 (6): 239–253. doi : 10.1007/s10142-002-0077-z. PMID 12444417. S2CID 7827488.
- ^ Powell S, Forslund K, Szklarczyk D, Trachana K, Roth A, Huerta-Cepas J, et al. (январь 2014 г.). "eggNOG v4.0: вложенный вывод ортологии для 3686 организмов". Nucleic Acids Research . 42 (выпуск базы данных): D231-9. doi : 10.1093/nar/gkt1253 . PMC 3964997. PMID 24297252 .
- ^ Huerta-Cepas J, Szklarczyk D, Heller D, Hernández-Plaza A, Forslund SK, Cook H и др. (январь 2019 г.). "eggNOG 5.0: иерархический, функционально и филогенетически аннотированный ресурс ортологии на основе 5090 организмов и 2502 вирусов". Nucleic Acids Research . 47 (D1): D309–D314. doi : 10.1093/nar/gky1085 . PMC 6324079. PMID 30418610 .
- ^ ArrayExpress
- ^ ГЕО
- ^ "Атлас белков человека". www.proteinatlas.org . Получено 27.05.2019 .
- ^ Dash S, Campbell JD, Cannon EK, Cleary AM, Huang W, Kalberer SR и др. (январь 2016 г.). «Информационная система по бобовым (LegumeInfo.org): ключевой компонент набора объединенных ресурсов данных для семейства бобовых». Nucleic Acids Research . 44 (D1): D1181-8. doi :10.1093/nar/gkv1159. PMC 4702835. PMID 26546515 .
- ^ "База данных генома Saccharomyces | SGD". www.yeastgenome.org . Получено 04.09.2018 .
- ^ Грант Д., Нельсон Р. Т., Кэннон С. Б., Шумейкер Р. К. (январь 2010 г.). "SoyBase, база данных генетики и геномики сои USDA-ARS". Nucleic Acids Research . 38 (выпуск базы данных): D843-6. doi :10.1093/nar/gkp798. PMC 2808871. PMID 20008513 .
- ^ "IRESbase".
- ^ ab Chen C, Huang H, Wu CH (2017). "Базы данных и ресурсы белковой биоинформатики". В Wu CH, Arighi CN, Ross KE (ред.). Белковая биоинформатика . Методы в молекулярной биологии. Т. 1558. Нью-Йорк, Нью-Йорк: Springer New York. стр. 3–39. doi :10.1007/978-1-4939-6783-4_1. ISBN 978-1-4939-6781-0. PMC 5506686 . PMID 28150231.
- ^ Карнковская, Анна; Трейтли, Себастьян К.; Брзонь, Ондржей; Новак, Лукаш; Вацек, Войтех; Соукал, Петр; Барлоу, Лаэль Д.; Герман, Эмили К.; Пипалия, Света В.; Панек, Томаш; Жихала, Дэвид; Петржелкова, Романа; Бутенко, Анжелика; Эме, Лаура; Лестница, Кортни В.; Роджер, Эндрю Дж.; Элиаш, Марек; Дакс, Джоэл Б.; Хампл, Владимир (2019). «Геном оксимонад демонстрирует каноническую эукариотическую сложность в отсутствие митохондрии». Молекулярная биология и эволюция . 36 (10): 2292–2312. doi :10.1093/molbev/msz147. PMC 6759080. PMID 31387118 .
- ^ Кешава Прасад, Т.С.; Гоэл, Р.; Кандасами, К.; Киртикумар, С.; Кумар, С.; Мативанан, С.; Теликичерла, Д.; Раджу, Р.; Шафрин, Б.; Венугопал, А.; Балакришнан, Л.; Маримуту, А.; Банерджи, С.; Соманатан, Д.С.; Себастьян, А.; Рани, С.; Рэй, С.; Гаррис Кишор, CJ; Кант, С.; Ахмед, М.; Кашьяп, МК; Мохмуд, Р.; Рамачандра, ЮЛ; Кришна, В.; Рахиман, бакалавр; Мохан, С.; Ранганатан, П.; Рамабадран, С.; Черкады, Р.; Панди, А. (2008). «Справочная база данных по белкам человека — обновление 2009 г.». Исследования нуклеиновых кислот . 37 (выпуск базы данных): D767–D772. doi :10.1093/nar/gkn892. PMC 2686490. PMID 18988627 .
- ^ Mir S, Alhroub Y, Anyango S, Armstrong DR, Berrisford JM, Clark AR и др. (январь 2018 г.). «PDBe: на пути к инфраструктуре многократной доставки данных в банке данных белков в Европе». Nucleic Acids Research . 46 (D1): D486–D492. doi :10.1093/nar/gkx1070. PMC 5753225. PMID 29126160 .
- ^ Kinjo AR, Bekker GJ, Suzuki H, Tsuchiya Y, Kawabata T, Ikegawa Y, Nakamura H (январь 2017 г.). «Банк данных белков Японии (PDBj): обновленные пользовательские интерфейсы, структура описания ресурсов, инструменты анализа для больших структур». Nucleic Acids Research . 45 (D1): D282–D288. doi :10.1093/nar/gkw962. PMC 5210648 . PMID 27789697.
- ^ Rose PW, Prlić A, Altunkaya A, Bi C, Bradley AR, Christie CH и др. (январь 2017 г.). «Банк данных белков RCSB: интегративный взгляд на информацию о белках, генах и трехмерной структуре». Nucleic Acids Research . 45 (D1): D271–D281. doi :10.1093/nar/gkw1000. PMC 5210513 . PMID 27794042.
- ^ Хермякоб Х., Монтекки-Палацци Л., Левингтон С., Мудали С., Керриен С., Орчард С. и др. (январь 2004 г.). «IntAct: база данных молекулярных взаимодействий с открытым исходным кодом». Исследования нуклеиновых кислот . 32 (Проблема с базой данных): D452-5. дои : 10.1093/nar/gkh052. ПМК 308786 . ПМИД 14681455.
- ^ ab Ellenberg J, Swedlow JR, Barlow M, Cook CE, Sarkans U, Patwardhan A и др. (ноябрь 2018 г.). «Призыв к публичным архивам биологических данных изображений». Nature Methods . 15 (11): 849–854. doi :10.1038/s41592-018-0195-8. PMC 6884425 . PMID 30377375.
- ^ Tendler BC, Hanayik T, Ansorge O, Bangerter-Christensen S, Berns GS, Bertelsen MF и др. (март 2022 г.). «Цифровой банк мозга, платформа открытого доступа для наборов данных посмертной визуализации». eLife . 11 : e73153. doi : 10.7554/eLife.73153 . PMC 9042233 . PMID 35297760.
- ^ Iudin A, Korir PK, Salavert-Torres J, Kleywegt GJ, Patwardhan A (май 2016 г.). «EMPIAR: публичный архив необработанных данных изображений электронной микроскопии». Nature Methods . 13 (5): 387–388. doi :10.1038/nmeth.3806. PMID 27067018. S2CID 38996040.
- ^ Crickmore, N.; Berry, C.; Panneerselvam, S.; Mishra, R.; Connor, TR; Bonning, BC (ноябрь 2021 г.). «Основанная на структуре номенклатура пестицидных белков Bacillus thuringiensis и других бактерий». Журнал патологии беспозвоночных . 186 (D1): 107438. doi : 10.1016/j.jip.2020.107438 . PMID 32652083.
- ^ Panneerselvam S; Mishra R; Berry C; Crickmore N; Bonning BC (2022). «База данных BPPRC: веб-инструмент для доступа и анализа бактериальных пестицидных белков». База данных (Оксфорд) . 186 (D1): 107438. doi : 10.1093 /database/baac022 . PMC 9216523. PMID 35396594.
- ^ Hounkpe BW, Chenou F, de Lima F, De Paula EV (январь 2021 г.). «База данных HRT Atlas v1.0: переопределение генов домашнего хозяйства человека и мыши и референтных транскриптов кандидатов путем добычи массивных наборов данных РНК-секвенирования». Nucleic Acids Research . 49 (D1): D947–D955. doi : 10.1093/nar/gkaa609 . PMC 7778946. PMID 32663312 .
- ^ (IHEC) портал данных
- ^ CEEHRC
- ^ Чертеж
- ^ ЭГА
- ^ ГЛУБОКИЙ
- ^ КРЕСТ
- ^ «Глобальный обмен эпигеномами». Nature Methods . 15 (3): 151. 2018. doi : 10.1038/nmeth.4630 . ISSN 1548-7105.
- ^ Valverde H, Cantón FR, Aledo JC (ноябрь 2019 г.). «MetOSite: интегрированный ресурс для изучения сульфооксидации остатков метионина». Биоинформатика . 35 (22): 4849–4850. doi :10.1093/bioinformatics/btz462. PMC 6853639. PMID 31197322 .
Внешние ссылки
- Коллекция баз данных по молекулярной биологии исследований нуклеиновых кислот – более 1600 баз данных
- Список категорий статей по базе данных Nucleic Acid Research (NAR)