stringtranslate.com

Проект базы данных генома Ensembl

Проект базы данных геномов Ensembl — это научный проект Европейского института биоинформатики , который предоставляет централизованный ресурс для генетиков, молекулярных биологов и других исследователей, изучающих геномы наших собственных видов, а также других позвоночных и модельных организмов . [2] [3] [4] Ensembl — один из нескольких хорошо известных геномных браузеров для поиска геномной информации.

Подобные базы данных и браузеры имеются в NCBI и Калифорнийском университете в Санта-Крус (UCSC) .

История

Геном человека состоит из трех миллиардов пар оснований , которые кодируют примерно 20 000–25 000 генов . Однако сам по себе геном бесполезен, если не удастся определить расположение и взаимоотношения отдельных генов. Одним из вариантов является ручное аннотирование , при котором группа ученых пытается найти гены, используя экспериментальные данные из научных журналов и общедоступных баз данных. Однако это медленная и кропотливая задача. Альтернатива, известная как автоматическое аннотирование, заключается в использовании возможностей компьютеров для выполнения сложного сопоставления белков с ДНК . [5] [6] Проект Ensembl был запущен в 1999 году в ответ на скорое завершение проекта « Геном человека» с первоначальными целями автоматически аннотировать геном человека, интегрировать эту аннотацию с имеющимися биологическими данными и сделать все эти знания общедоступными. . [2]

В проекте Ensembl данные о последовательностях подаются в систему аннотаций генов (набор программных «конвейеров», написанных на Perl ), которая создает набор предсказанных местоположений генов и сохраняет их в базе данных MySQL для последующего анализа и отображения. Ensembl делает эти данные бесплатными для мирового исследовательского сообщества. Все данные и код, созданные в рамках проекта Ensembl, доступны для загрузки [7] , а также существует общедоступный сервер базы данных, обеспечивающий удаленный доступ. Кроме того, веб-сайт Ensembl обеспечивает компьютерное визуальное отображение большей части данных.

Со временем проект расширился и включил в себя дополнительные виды (включая ключевые модельные организмы , такие как мышь , плодовая мушка и рыбка данио ), а также более широкий спектр геномных данных, включая генетические вариации и регуляторные особенности. С апреля 2009 года дочерний проект Ensembl Genomes расширил сферу действия Ensembl на многоклеточных беспозвоночных , растения , грибы , бактерии и простейших , сосредоточив внимание на предоставлении таксономического и эволюционного контекста генам, в то время как первоначальный проект продолжает фокусироваться на позвоночных. [8] [9]

По состоянию на 2020 год Ensembl поддерживал более 50 000 геномов в базах данных Ensembl и Ensembl Genomes, добавляя некоторые новые инновационные функции, такие как Rapid Release, новый веб-сайт, предназначенный для более быстрого доступа пользователей к данным аннотаций генома, и COVID-19, новый веб-сайт для доступа к эталонному геному SARS-CoV-2 .

Отображение геномных данных

Ген SGCB соответствует геному человека

Центральным элементом концепции Ensembl является способность автоматически генерировать графические представления сопоставления генов и других геномных данных с эталонным геномом . Они отображаются в виде дорожек данных, отдельные дорожки можно включать и выключать, что позволяет пользователю настроить отображение в соответствии со своими исследовательскими интересами. Интерфейс также позволяет пользователю увеличивать масштаб области или перемещаться по геному в любом направлении.

Другие дисплеи отображают данные с различным уровнем разрешения, от целых кариотипов до текстовых представлений ДНК и аминокислотных последовательностей, или представляют другие типы отображения, такие как деревья схожих генов ( гомологов ) у различных видов. Графика дополняется табличным отображением, и во многих случаях данные можно экспортировать непосредственно со страницы в различные стандартные форматы файлов, такие как FASTA .

Внешние данные также можно добавить на дисплей, загрузив подходящий файл в одном из поддерживаемых форматов, например BAM , BED или PSL.

Графика генерируется с использованием набора пользовательских модулей Perl на основе GD , стандартной библиотеки отображения графики Perl.

Альтернативные методы доступа

В дополнение к своему веб-сайту Ensembl предоставляет REST API и Perl API [10] (интерфейс прикладного программирования), которые моделируют биологические объекты, такие как гены и белки, позволяя писать простые сценарии для получения интересующих данных. Тот же API используется внутри веб-интерфейса для отображения данных. Он разделен на такие разделы, как основной API, API сравнения (для данных сравнительной геномики ), вариационный API (для доступа к SNP, SNV, CNV...) и API функциональной геномики (для доступа к нормативным данным). На веб-сайте Ensembl представлена ​​обширная информация о том, как установить и использовать API.

Это программное обеспечение можно использовать для доступа к общедоступной базе данных MySQL , избегая необходимости загружать огромные наборы данных. Пользователи могут даже выбрать получение данных из MySQL с помощью прямых SQL-запросов, но это требует обширных знаний текущей схемы базы данных.

Большие наборы данных можно получить с помощью инструмента анализа данных BioMart . Он предоставляет веб-интерфейс для загрузки наборов данных с помощью сложных запросов.

Наконец, есть FTP-сервер, который можно использовать для загрузки целых баз данных MySQL, а также некоторых выбранных наборов данных в других форматах.

Текущие виды

Аннотированные геномы включают наиболее полностью секвенированные позвоночные и избранные модельные организмы. Все они эукариоты, прокариотов нет. По состоянию на 2022 год зарегистрирован 271 вид, в том числе: [11]

Открытый исходный код/зеркала

Все данные проекта Ensembl находятся в открытом доступе, а все программное обеспечение имеет открытый исходный код и свободно доступно научному сообществу по лицензии CC BY 4.0. В настоящее время веб-сайт базы данных Ensembl зеркалируется в четырех разных местах по всему миру для улучшения обслуживания.

Смотрите также

Рекомендации

  1. ^ Йейтс А.Д.; и другие. (январь 2020 г.). «Ансамбль 2020». Нуклеиновые кислоты Рез . 48 (Д1): Д682–Д688. дои : 10.1093/nar/gkz966. ПМК  7145704 . ПМИД  31691826.
  2. ^ Аб Хаббард, Т. (1 января 2002 г.). «Проект базы данных генома Ensembl». Исследования нуклеиновых кислот . 30 (1): 38–41. дои : 10.1093/нар/30.1.38. ПМК 99161 . ПМИД  11752248. 
  3. ^ Фличек П., Амод М.Р., Баррелл Д. и др. (ноябрь 2010 г.). «Ансамбль 2011». Нуклеиновые кислоты Рез . 39 (Проблема с базой данных): D800–D806. дои : 10.1093/nar/gkq1064. ПМК 3013672 . ПМИД  21045057. 
  4. ^ Фличек П., Акен Б.Л., Баллестер Б. и др. (январь 2010 г.). «Ансамблю 10 лет». Нуклеиновые кислоты Рез . 38 (Проблема с базой данных): D557–62. дои : 10.1093/nar/gkp972. ПМК 2808936 . ПМИД  19906699. 
  5. Дэвис, Чарльз Патрик (29 марта 2021 г.). «Медицинское определение аннотации генома». Архивировано из оригинала 14 июня 2021 года . Проверено 7 августа 2022 г.
  6. ^ Карвен, Вэл; Эйрас, Эдуардо; Эндрюс, Т. Дэниел; Кларк, Лаура; Монгин, Эммануэль; Сирл, Стивен М.Дж.; Клэмп, Мишель (май 2004 г.). «Система автоматической аннотации генов Ensembl». Геномные исследования . 14 (5): 942–950. дои : 10.1101/гр.1858004 . ISSN  1088-9051. ПМК 479124 . ПМИД  15123590. 
  7. ^ Руффье, Магали; Кяхари, Андреас; Коморовская, Моника; Кинан, Стивен; Лэрд, Мэтью; Лонгден, Ян; Проктор, Гленн; Сирл, Стив; Стейнс, Дэниел; Тейлор, Кирон; Вулло, Алессандро; Йейтс, Эндрю; Зербино, Дэниел; Фличек, Пол (январь 2017 г.). «Основные программные ресурсы Ensembl: хранение и программный доступ к последовательностям ДНК и аннотациям генома». База данных . 2017 (1): bax020. doi : 10.1093/база данных/bax020. ПМЦ 5467575 . ПМИД  28365736. 
  8. ^ Хаббард, TJP; Акен, БЛ; Эйлинг, С.; Баллестер, Б.; Бил, К.; Брагин Э.; Брент, С.; Чен, Ю.; Клэпхэм, П.; Кларк, Л.; Коутс, Г. (январь 2009 г.). «Ансамбль 2009». Исследования нуклеиновых кислот . 37 (Проблема с базой данных): D690–697. дои : 10.1093/nar/gkn828. ISSN  1362-4962. ПМЦ 2686571 . ПМИД  19033362. 
  9. ^ Хоу, Кевин Л.; Контрерас-Морейра, Бруно; Де Сильва, Нишади; Маслен, Гарет; Аканни, Васиу; Аллен, Джеймс; Альварес-Харрета, Хорхе; Барба, Матье; Болсер, Дэн М.; Кэмбелл, Лахсен; Карбахо, Мануэль (8 января 2020 г.). «Ensembl Genomes 2020 позволит проводить геномные исследования беспозвоночных». Исследования нуклеиновых кислот . 48 (Д1): Д689–Д695. дои : 10.1093/nar/gkz890. ISSN  1362-4962. ПМК 6943047 . ПМИД  31598706. 
  10. ^ Стабенау А., МакВикер Г., Мелсопп С., Проктор Г., Клэмп М., Бирни Э. (февраль 2004 г.). «Библиотеки основного программного обеспечения Ensembl». Геномные исследования . 14 (5): 929–933. дои : 10.1101/гр.1857204. ПМК 479122 . ПМИД  15123588. 
  11. ^ «Список видов». uswest.ensembl.org . Проверено 5 августа 2022 г.

Внешние ссылки