Европейский институт биоинформатики ( EMBL-EBI ) является межправительственной организацией (МПО), которая, как часть Европейской молекулярно-биологической лаборатории (EMBL), фокусируется на исследованиях и услугах в области биоинформатики . Он расположен в кампусе Wellcome Genome в Хинкстоне недалеко от Кембриджа и насчитывает более 600 сотрудников, работающих полный рабочий день (FTE). [4]
Кроме того, EMBL-EBI проводит обучающие программы, которые обучают ученых основам работы с биологическими данными и продвигают множество биоинформатических инструментов, доступных для их исследований, как основанных на EMBL-EBI, так и не основанных на них.
Одной из задач EMBL-EBI является индексация и поддержка биологических данных в наборе баз данных, включая Ensembl (хранение данных о последовательностях всего генома), UniProt (база данных о последовательностях белков и аннотаций) и Protein Data Bank (база данных о третичной структуре белков и нуклеиновых кислот). Предоставляется множество онлайн-сервисов и инструментов, таких как Basic Local Alignment Search Tool (BLAST) или Clustal Omega sequence alignment tool, что позволяет проводить дальнейший анализ данных.
BLAST [5] — это алгоритм для сравнения первичной структуры биомакромолекулы, чаще всего нуклеотидной последовательности ДНК /РНК и аминокислотной последовательности белков, хранящейся в биоинформатических базах данных, с последовательностью запроса. Алгоритм использует оценку доступных последовательностей по запросу с помощью матрицы оценки, такой как BLOSUM 62. Последовательности с наивысшей оценкой представляют ближайших родственников запроса с точки зрения функционального и эволюционного сходства. [6]
Поиск в базе данных с помощью BLAST требует, чтобы входные данные были в правильном формате (например, FASTA , GenBank, PIR или EMBL). Пользователи также могут указать конкретные базы данных для поиска, выбрать матрицы оценок и другие параметры до запуска инструмента. Лучшие совпадения в результатах BLAST упорядочиваются в соответствии с их вычисленным значением E (вероятность наличия совпадения с аналогичным или более высоким баллом в базе данных по чистой случайности). [7]
Clustal Omega [8] — это инструмент множественного выравнивания последовательностей (MSA), который позволяет найти оптимальное выравнивание не менее трех и не более 4000 входных последовательностей ДНК и белков. [9] Алгоритм Clustal Omega использует две модели скрытых Маркова (HMM) для получения окончательного выравнивания последовательностей. Выходные данные Clustal Omega могут быть визуализированы в виде направляющего дерева (филогенетическое отношение последовательностей с наилучшим сопряжением) или упорядочены по взаимному сходству последовательностей между запросами. [10] Главным преимуществом Clustal Omega перед другими инструментами MSA (Muscle, ProbCons ) является его эффективность при сохранении значительной точности результатов.
Ensembl [11], основанный на EMBL-EBI, представляет собой базу данных, организованную вокруг геномных данных, поддерживаемую проектом Ensembl . Занимаясь непрерывной аннотацией геномов модельных организмов , Ensembl предоставляет исследователям всеобъемлющий ресурс соответствующей биологической информации о каждом конкретном геноме. Аннотация сохраненных референтных геномов является автоматической и основана на последовательностях. Ensembl охватывает общедоступную базу данных геномов, доступ к которой можно получить через веб-браузер. С сохраненными данными можно взаимодействовать с помощью графического пользовательского интерфейса, который поддерживает отображение данных на нескольких уровнях разрешения от кариотипа через отдельные гены до нуклеотидной последовательности. [12]
Первоначально сосредоточенный на позвоночных животных как на своей основной области интересов, с 2009 года Ensembl предоставляет аннотированные данные, касающиеся геномов растений, грибов, беспозвоночных, бактерий и других видов, в родственном проекте Ensembl Genomes . По состоянию на 2020 год [обновлять]различные базы данных проекта Ensembl в общей сложности содержат более 50 000 референтных геномов. [13]
Protein Data Bank (PDB) [14] — это база данных трехмерных структур биологических макромолекул, таких как белки и нуклеиновые кислоты. Данные обычно получаются с помощью рентгеновской кристаллографии или ядерной магнитно-резонансной спектроскопии (ЯМР-спектроскопии) и вручную представляются структурными биологами по всему миру через организации-члены PDB — PDBe , RCSB, PDBj и BMRB. Доступ к базе данных можно получить через веб-страницы ее членов, включая PDBe (размещенную в EMBL-EBI). Как член консорциума Worldwide Protein Data Bank (wwPDB), PDBe помогает в совместной миссии архивирования и обслуживания данных о макромолекулярных структурах. [15]
UniProt — это онлайн-репозиторий данных о последовательностях белков и аннотациях, распределенный в базах данных UniProt Knowledgebase (UniProt KB), UniProt Reference Clusters (UniRef) и UniProt Archive (UniParc). Первоначально задуманные как отдельные предприятия EMBL-EBI, Swiss Institute of Bioinformatics (SIB) (совместно поддерживающие Swiss-Prot и TrEMBL) и Protein Information Resource (PIR) (размещающие Protein Sequence Database), увеличение генерации глобальных данных о белках привело к их сотрудничеству в создании UniProt в 2002 году. [16]
Записи белков, хранящиеся в UniProt, каталогизируются по уникальному идентификатору UniProt. Данные аннотаций, собранные для каждой записи, организованы в логические разделы (например, функция белка, структура, экспрессия, последовательность или соответствующие публикации), что позволяет скоординировать обзор интересующего белка. Также предоставляются ссылки на внешние базы данных и исходные источники данных. В дополнение к стандартному поиску по имени/идентификатору белка, веб-страница UniProt содержит инструменты для поиска BLAST, выравнивания последовательностей или поиска белков, содержащих определенные пептиды. [17]
База данных структур белков AlphaFold (AlphaFold DB) — это совместный проект с Google DeepMind, направленный на то, чтобы сделать предсказанные структуры белков из системы искусственного интеллекта AlphaFold доступными для научного сообщества. [18] Первый выпуск базы данных состоялся в 2021 году; по состоянию на 2024 год [обновлять]AlphaFold DB обеспечивает доступ к более чем 214 миллионам структур белков. [19]