Европейский институт биоинформатики

Европейский институт биоинформатики ( EMBL-EBI ) является межправительственной организацией (МПО), которая, как часть Европейской молекулярно-биологической лаборатории (EMBL), фокусируется на исследованиях и услугах в области биоинформатики . Он расположен в кампусе Wellcome Genome в Хинкстоне недалеко от Кембриджа и насчитывает более 600 сотрудников, работающих полный рабочий день (FTE). ^[4]

Кроме того, EMBL-EBI проводит обучающие программы, которые обучают ученых основам работы с биологическими данными и продвигают множество биоинформатических инструментов, доступных для их исследований, как основанных на EMBL-EBI, так и не основанных на них.

Биоинформационные услуги

Одной из задач EMBL-EBI является индексация и поддержка биологических данных в наборе баз данных, включая Ensembl (хранение данных о последовательностях всего генома), UniProt (база данных о последовательностях белков и аннотаций) и Protein Data Bank (база данных о третичной структуре белков и нуклеиновых кислот). Предоставляется множество онлайн-сервисов и инструментов, таких как Basic Local Alignment Search Tool (BLAST) или Clustal Omega sequence alignment tool, что позволяет проводить дальнейший анализ данных.

ВЗРЫВ

BLAST ^[5] — это алгоритм для сравнения первичной структуры биомакромолекулы, чаще всего нуклеотидной последовательности ДНК /РНК и аминокислотной последовательности белков, хранящейся в биоинформатических базах данных, с последовательностью запроса. Алгоритм использует оценку доступных последовательностей по запросу с помощью матрицы оценки, такой как BLOSUM 62. Последовательности с наивысшей оценкой представляют ближайших родственников запроса с точки зрения функционального и эволюционного сходства. ^[6]

Поиск в базе данных с помощью BLAST требует, чтобы входные данные были в правильном формате (например, FASTA , GenBank, PIR или EMBL). Пользователи также могут указать конкретные базы данных для поиска, выбрать матрицы оценок и другие параметры до запуска инструмента. Лучшие совпадения в результатах BLAST упорядочиваются в соответствии с их вычисленным значением E (вероятность наличия совпадения с аналогичным или более высоким баллом в базе данных по чистой случайности). ^[7]

Клустал Омега

Clustal Omega ^[8] — это инструмент множественного выравнивания последовательностей (MSA), который позволяет найти оптимальное выравнивание не менее трех и не более 4000 входных последовательностей ДНК и белков. ^[9] Алгоритм Clustal Omega использует две модели скрытых Маркова (HMM) для получения окончательного выравнивания последовательностей. Выходные данные Clustal Omega могут быть визуализированы в виде направляющего дерева (филогенетическое отношение последовательностей с наилучшим сопряжением) или упорядочены по взаимному сходству последовательностей между запросами. ^[10] Главным преимуществом Clustal Omega перед другими инструментами MSA (Muscle, ProbCons ) является его эффективность при сохранении значительной точности результатов.

Ансамбль

^{Ensembl [11],} основанный на EMBL-EBI, представляет собой базу данных, организованную вокруг геномных данных, поддерживаемую проектом Ensembl . Занимаясь непрерывной аннотацией геномов модельных организмов , Ensembl предоставляет исследователям всеобъемлющий ресурс соответствующей биологической информации о каждом конкретном геноме. Аннотация сохраненных референтных геномов является автоматической и основана на последовательностях. Ensembl охватывает общедоступную базу данных геномов, доступ к которой можно получить через веб-браузер. С сохраненными данными можно взаимодействовать с помощью графического пользовательского интерфейса, который поддерживает отображение данных на нескольких уровнях разрешения от кариотипа через отдельные гены до нуклеотидной последовательности. ^[12]

Первоначально сосредоточенный на позвоночных животных как на своей основной области интересов, с 2009 года Ensembl предоставляет аннотированные данные, касающиеся геномов растений, грибов, беспозвоночных, бактерий и других видов, в родственном проекте Ensembl Genomes . По состоянию на 2020 год ^{[обновлять]}различные базы данных проекта Ensembl в общей сложности содержат более 50 000 референтных геномов. ^[13]

ПДБ

Protein Data Bank (PDB) ^[14] — это база данных трехмерных структур биологических макромолекул, таких как белки и нуклеиновые кислоты. Данные обычно получаются с помощью рентгеновской кристаллографии или ядерной магнитно-резонансной спектроскопии (ЯМР-спектроскопии) и вручную представляются структурными биологами по всему миру через организации-члены PDB — PDBe , RCSB, PDBj и BMRB. Доступ к базе данных можно получить через веб-страницы ее членов, включая PDBe (размещенную в EMBL-EBI). Как член консорциума Worldwide Protein Data Bank (wwPDB), PDBe помогает в совместной миссии архивирования и обслуживания данных о макромолекулярных структурах. ^[15]

UniProt

UniProt — это онлайн-репозиторий данных о последовательностях белков и аннотациях, распределенный в базах данных UniProt Knowledgebase (UniProt KB), UniProt Reference Clusters (UniRef) и UniProt Archive (UniParc). Первоначально задуманные как отдельные предприятия EMBL-EBI, Swiss Institute of Bioinformatics (SIB) (совместно поддерживающие Swiss-Prot и TrEMBL) и Protein Information Resource (PIR) (размещающие Protein Sequence Database), увеличение генерации глобальных данных о белках привело к их сотрудничеству в создании UniProt в 2002 году. ^[16]

Записи белков, хранящиеся в UniProt, каталогизируются по уникальному идентификатору UniProt. Данные аннотаций, собранные для каждой записи, организованы в логические разделы (например, функция белка, структура, экспрессия, последовательность или соответствующие публикации), что позволяет скоординировать обзор интересующего белка. Также предоставляются ссылки на внешние базы данных и исходные источники данных. В дополнение к стандартному поиску по имени/идентификатору белка, веб-страница UniProt содержит инструменты для поиска BLAST, выравнивания последовательностей или поиска белков, содержащих определенные пептиды. ^[17]

AlphaFold БД

База данных структур белков AlphaFold (AlphaFold DB) — это совместный проект с Google DeepMind, направленный на то, чтобы сделать предсказанные структуры белков из системы искусственного интеллекта AlphaFold доступными для научного сообщества. ^[18] Первый выпуск базы данных состоялся в 2021 году; по состоянию на 2024 год ^{[обновлять]}AlphaFold DB обеспечивает доступ к более чем 214 миллионам структур белков. ^[19]

Другие биоинформатические организации

Национальный центр биотехнологической информации (NCBI), Национальная медицинская библиотека США
Национальный институт генетики ( Банк данных ДНК Японии )
Швейцарский институт биоинформатики (SIB: Expasy )
Австралийский ресурс по биоинформатике
BIG Data Center (Национальный центр геномных данных), Пекинский институт геномики , Китайская академия наук

Смотрите также

Ссылки

^ "Background | European Bioinformatics Institute". Ebi.ac.uk. 16 мая 2018 г. Получено 29 октября 2019 г.
^ ab "Leadership". www.ebi.ac.uk . Получено 21 августа 2024 г. .
^ "EMBL-EBI Highlights 2023" (PDF) (Пресс-релиз). EMBL-EBI. 8 апреля 2024 г. стр. 4.
^ "Научный отчет" (PDF) . www.embl.de . 2017 . Получено 29 октября 2019 .
^ "NCBI BLAST в EMBL-EBI". www.ebi.ac.uk . Получено 3 ноября 2021 г. .
^ Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ (октябрь 1990 г.). "Базовый инструмент поиска локального выравнивания". Журнал молекулярной биологии . 215 (3): 403–410. doi :10.1016/S0022-2836(05)80360-2. PMID 2231712. S2CID 14441902.
^ Уилер Д., Бхагват М. (2007). BLAST QuickStart. Методы в молекулярной биологии. Т. 395. Humana Press. С. 149–176. PMC 4780883. PMID 17993672 .
^ "Clustal Omega at EMBL-EBI". ebi.ac.uk . Получено 3 ноября 2021 г. .
^ "Clustal Omega Documentation at EMBL-EBI". ebi.ac.uk . Получено 3 ноября 2021 г. .
^ Sievers F, Higgins DG (январь 2018 г.). «Clustal Omega для точного выравнивания многих белковых последовательностей». Protein Science . 27 (1): 135–145. doi :10.1002/pro.3290. PMC 5734385 . PMID 28884485.
^ "Ensembl homepage". ensembl.org . Получено 3 ноября 2021 г. .
^ Howe KL, Achuthan P, Allen J, Allen J, Alvarez-Jarreta J, Amode MR и др. (январь 2021 г.). "Ensembl 2021". Nucleic Acids Research . 49 (D1): D884–D891. doi : 10.1093/nar/gkaa942. PMC 7778975. PMID 33137190.
^ "О проекте Ensembl". ensembl.org . Получено 3 ноября 2021 г. .
^ Берли, Стивен К.; и др. (январь 2019 г.). «Банк данных белков: единый глобальный архив данных о трехмерной макромолекулярной структуре». Nucleic Acids Research . 47 (D1): D520–D528. doi :10.1093/nar/gky949. PMC 6324056. PMID 30357364 .
^ "О PDBe". ebi.ac.uk . Получено 3 ноября 2021 г. .
^ "О UniProt". uniprot.org . Получено 3 ноября 2021 г. .
^ Бейтман, Алекс и др. (январь 2021 г.). «UniProt: универсальная база знаний о белках в 2021 г.». Nucleic Acids Research . 49 (D1): D480–D489. doi :10.1093/nar/gkaa1100. PMC 7778908. PMID 33237286 .
^ "База данных структур белков AlphaFold". alphafold.ebi.ac.uk . Получено 22 августа 2024 г. .
^ Варади, Михай; Бертони, Дамиан; Магана, Полина; Парамвал, Урмила; Пидручная, Иванна; Радхакришнан, Маларвижи; Ценков Максим; Наир, Шринат; Мирдита, Милот; Йо, Джинги; Ковалевский Олег; Туньясувунакул, Кэтрин; Лейдон, Агата; Жидек, Августин; Томлинсон, Хэмиш; Харихаран, Дхаванти; Абрахамсон, Джош; Грин, Тим; Джампер, Джон; Бирни, Юэн; Штайнеггер, Мартин; Хассабис, Демис; Веланкар, Самир (5 января 2024 г.). «База данных о структуре белков AlphaFold в 2024 году: обеспечивает охват структур более 214 миллионов белковых последовательностей». Исследования нуклеиновых кислот . 52 (Д1): Д368–Д375. дои : 10.1093/nar/gkad1011. ПМЦ 10767828 .