Проект базы данных геномов Ensembl — это научный проект Европейского института биоинформатики , который предоставляет централизованный ресурс для генетиков, молекулярных биологов и других исследователей, изучающих геномы наших собственных видов, а также других позвоночных и модельных организмов . [2] [3] [4] Ensembl — один из нескольких хорошо известных геномных браузеров для поиска геномной информации.
Подобные базы данных и браузеры имеются в NCBI и Калифорнийском университете в Санта-Крус (UCSC) .
Геном человека состоит из трех миллиардов пар оснований , которые кодируют примерно 20 000–25 000 генов . Однако сам по себе геном бесполезен, если не удастся определить расположение и взаимоотношения отдельных генов. Одним из вариантов является ручное аннотирование , при котором группа ученых пытается найти гены, используя экспериментальные данные из научных журналов и общедоступных баз данных. Однако это медленная и кропотливая задача. Альтернатива, известная как автоматическое аннотирование, заключается в использовании возможностей компьютеров для выполнения сложного сопоставления белков с ДНК . [5] [6] Проект Ensembl был запущен в 1999 году в ответ на скорое завершение проекта « Геном человека» с первоначальными целями автоматически аннотировать геном человека, интегрировать эту аннотацию с имеющимися биологическими данными и сделать все эти знания общедоступными. . [2]
В проекте Ensembl данные о последовательностях подаются в систему аннотаций генов (набор программных «конвейеров», написанных на Perl ), которая создает набор предсказанных местоположений генов и сохраняет их в базе данных MySQL для последующего анализа и отображения. Ensembl делает эти данные бесплатными для мирового исследовательского сообщества. Все данные и код, созданные в рамках проекта Ensembl, доступны для загрузки [7] , а также существует общедоступный сервер базы данных, обеспечивающий удаленный доступ. Кроме того, веб-сайт Ensembl обеспечивает компьютерное визуальное отображение большей части данных.
Со временем проект расширился и включил в себя дополнительные виды (включая ключевые модельные организмы , такие как мышь , плодовая мушка и рыбка данио ), а также более широкий спектр геномных данных, включая генетические вариации и регуляторные особенности. С апреля 2009 года дочерний проект Ensembl Genomes расширил сферу действия Ensembl на многоклеточных беспозвоночных , растения , грибы , бактерии и простейших , сосредоточив внимание на предоставлении таксономического и эволюционного контекста генам, в то время как первоначальный проект продолжает фокусироваться на позвоночных. [8] [9]
По состоянию на 2020 год Ensembl поддерживал более 50 000 геномов в базах данных Ensembl и Ensembl Genomes, добавляя некоторые новые инновационные функции, такие как Rapid Release, новый веб-сайт, предназначенный для более быстрого доступа пользователей к данным аннотаций генома, и COVID-19, новый веб-сайт для доступа к эталонному геному SARS-CoV-2 .
Центральным элементом концепции Ensembl является способность автоматически генерировать графические представления сопоставления генов и других геномных данных с эталонным геномом . Они отображаются в виде дорожек данных, отдельные дорожки можно включать и выключать, что позволяет пользователю настроить отображение в соответствии со своими исследовательскими интересами. Интерфейс также позволяет пользователю увеличивать масштаб области или перемещаться по геному в любом направлении.
Другие дисплеи отображают данные с различным уровнем разрешения, от целых кариотипов до текстовых представлений ДНК и аминокислотных последовательностей, или представляют другие типы отображения, такие как деревья схожих генов ( гомологов ) у различных видов. Графика дополняется табличным отображением, и во многих случаях данные можно экспортировать непосредственно со страницы в различные стандартные форматы файлов, такие как FASTA .
Внешние данные также можно добавить на дисплей, загрузив подходящий файл в одном из поддерживаемых форматов, например BAM , BED или PSL.
Графика генерируется с использованием набора пользовательских модулей Perl на основе GD , стандартной библиотеки отображения графики Perl.
В дополнение к своему веб-сайту Ensembl предоставляет REST API и Perl API [10] (интерфейс прикладного программирования), которые моделируют биологические объекты, такие как гены и белки, позволяя писать простые сценарии для получения интересующих данных. Тот же API используется внутри веб-интерфейса для отображения данных. Он разделен на такие разделы, как основной API, API сравнения (для данных сравнительной геномики ), вариационный API (для доступа к SNP, SNV, CNV...) и API функциональной геномики (для доступа к нормативным данным). На веб-сайте Ensembl представлена обширная информация о том, как установить и использовать API.
Это программное обеспечение можно использовать для доступа к общедоступной базе данных MySQL , избегая необходимости загружать огромные наборы данных. Пользователи могут даже выбрать получение данных из MySQL с помощью прямых SQL-запросов, но это требует обширных знаний текущей схемы базы данных.
Большие наборы данных можно получить с помощью инструмента анализа данных BioMart . Он предоставляет веб-интерфейс для загрузки наборов данных с помощью сложных запросов.
Наконец, есть FTP-сервер, который можно использовать для загрузки целых баз данных MySQL, а также некоторых выбранных наборов данных в других форматах.
Аннотированные геномы включают наиболее полностью секвенированные позвоночные и избранные модельные организмы. Все они эукариоты, прокариотов нет. По состоянию на 2022 год зарегистрирован 271 вид, в том числе: [11]
Все данные проекта Ensembl находятся в открытом доступе, а все программное обеспечение имеет открытый исходный код и свободно доступно научному сообществу по лицензии CC BY 4.0. В настоящее время веб-сайт базы данных Ensembl зеркалируется в четырех разных местах по всему миру для улучшения обслуживания.