stringtranslate.com

Проект аннотации генома позвоночных

База данных аннотаций генома позвоночных ( VEGA ) — это биологическая база данных , призванная помочь исследователям найти определенные области генома и аннотировать гены или области геномов позвоночных. [1] Браузер VEGA основан на веб-коде и инфраструктуре Ensembl и обеспечивает общедоступный доступ научного сообщества к известным генам позвоночных. [2] [3] Веб-сайт VEGA часто обновляется, чтобы поддерживать самую свежую информацию о геномах позвоночных и пытается представить последовательно высококачественные аннотации всех опубликованных геномов или областей генома позвоночных. [4] VEGA была разработана Wellcome Trust Sanger Institute и находится в тесном сотрудничестве с другими базами данных аннотаций, такими как ZFIN (Информационная сеть Zebrafish), Havana Group и GenBank . [1] [5] Ручная аннотация в настоящее время более точна при идентификации вариантов сплайсинга, псевдогенов , особенностей полиаденилирования , некодирующих областей и сложных структур генов, чем автоматизированные методы. [5]

История

База данных аннотаций генома позвоночных (VEGA) была впервые обнародована в 2004 году Институтом Wellcome Trust Sanger. Он был разработан для просмотра ручных аннотаций геномных последовательностей человека, мыши и рыбки данио и является центральным кэшем для центров секвенирования генома, где можно хранить свои аннотации хромосом человека. [6] Ручное аннотирование геномных данных чрезвычайно ценно для создания точного эталонного набора генов, но оно дорого по сравнению с автоматическими методами и поэтому ограничивается модельными организмами. Инструменты аннотирования, разработанные в Wellcome Trust Sanger Institute (WTSI) [7], в настоящее время используются для заполнения этого пробела, поскольку их можно использовать удаленно и, таким образом, открывают жизнеспособное сотрудничество сообщества в области аннотаций. [8] Проектами ГАВАНА и ВЕГА руководила доктор Дженнифер Харроу из Института Веллком Сэнгер. ВЕГА находится в архиве с февраля 2017 года, а команда HAVANA переехала в EMBL-EBI в июне 2017 года.

Человеческий геном

База данных Vega является центральным хранилищем для большинства центров секвенирования генома, в котором можно хранить свои аннотации хромосом человека. [6] С момента первой публикации VEGA количество аннотированных локусов генов человека увеличилось более чем вдвое и превысило 49 000 (выпуск в сентябре 2012 г.), из которых, по прогнозам, более 20 000 будут кодировать белки. [6] [9] Гаванская группа в рамках сотрудничества по консенсусному кодированию последовательностей (CCDS) и полногеномного расширения проекта ENCODE полностью вручную аннотировала геном человека, который доступен для справки, сравнительного анализа и поиска последовательностей на База данных ВЕГА. [10] [11] Последний выпуск VEGA вышел в феврале 2017 года (выпуск 68), и теперь сайт VEGA находится в архиве и больше не будет обновляться.

Другие позвоночные

База данных VEGA объединяет информацию из баз данных геномов отдельных позвоночных и объединяет их, чтобы облегчить доступ и сравнительный анализ для исследователей. Группа анализа и аннотации человека и позвоночных (Гавана) из Wellcome Trust Sanger Institute (WTSI) вручную аннотирует геномы человека, мыши и рыбки данио, используя инструмент аннотации генома Otterlace/ZMap. [12] Система ручных аннотаций Otterlace включает в себя реляционную базу данных, которая хранит данные ручных аннотаций и поддерживает графический интерфейс Zmap и основана на схеме Ensembl. [8]

данио

Геном рыбки данио, который полностью секвенируется и аннотируется вручную. [13] Геном рыбки данио в настоящее время содержит 18 454 аннотированных гена VEGA, из которых 16 588 являются предполагаемыми генами, кодирующими белки (выпуск на сентябрь 2012 г.). [14]

Мышь

Геном мыши в настоящее время содержит 23 322 аннотированных гена VEGA, из которых 14 805 являются предполагаемыми генами, кодирующими белки (июнь 2012 г., выпуск). [15] Локусы, выбранные для ручной аннотации, разбросаны по всему геному, но некоторым областям уделялось больше внимания, чем другим: хромосомам 2, 4, 11 и X, которые были полностью аннотированы. Аннотация, показанная в этом выпуске Vega, взята из замороженных данных, сделанных 19 марта 2012 года, а структуры генов представлены в объединенном генетическом наборе мыши, показанном в выпуске Ensembl 67. Vega также показывает искусственные локусы, созданные программами Knockout для мышей. [15]

Свинья

В настоящее время в геноме свиньи аннотировано 2842 гена VEGA, из которых 2264 являются предполагаемыми генами, кодирующими белки (выпуск на сентябрь 2012 г.). [16] Главный комплекс гистосовместимости свиньи (MHC), также известный как свиной лейкоцитарный антигенный комплекс (SLA), охватывает область размером 2,4 Мб субметацентрической хромосомы 7 (SSC7p1.1-q1.1). Участвуя в контроле иммунного ответа и восприимчивости к ряду заболеваний, MHC свиней играет уникальную роль в гистосовместимости. [16] Хромосомы X-WTSI и Y-WTSI в настоящее время аннотируются Гаваной. [16]

Собака, шимпанзе, валлаби и горилла

Геном собаки в настоящее время содержит 45 аннотированных генов VEGA, из которых 29 являются предполагаемыми генами, кодирующими белки (февраль 2005 г., выпуск). [17] Геном шимпанзе в настоящее время содержит 124 аннотированных гена VEGA, из которых 52 являются предполагаемыми генами, кодирующими белки (январь 2012 г., выпуск). [18] Геном Валлаби в настоящее время содержит 193 аннотированных гена VEGA, из которых 76 являются предполагаемыми генами, кодирующими белки (март 2009 г., выпуск). [19] В настоящее время геном гориллы содержит 324 аннотированных гена VEGA, из которых 176 являются предполагаемыми генами, кодирующими белки (март 2009 г., выпуск). [20]

Сравнительный анализ

Помимо полных геномов, в отличие от других браузеров, VEGA также отображает небольшие готовые интересующие области из геномов других позвоночных, гаплотипов человека и линий мышей. В настоящее время он включает готовую последовательность и аннотацию главного комплекса гистосовместимости (MHC) из различных гаплотипов человека, а также собаки и свиньи [последний из которых в настоящее время доступен только в очень ограниченной форме в Ensembl Pre!. [21] Кроме того, существует аннотация мышиного штамма NOD (диабет без ожирения) областей-кандидатов IDD (инсулинзависимый диабет) и еще двух регионов свиньи. [6]

Vega содержит сравнительный попарный анализ между конкретными геномными областями либо разных видов, либо разных гаплотипов/штаммов. В этом отличие от Ensembl, где выполняется множество сравнений всех геномов и всех геномов. [22] Анализ в Vega включает в себя:

1. Идентификация геномных выравниваний с помощью LastZ. 2. Прогнозирование пар ортологов с использованием конвейера генного дерева Ensembl. Обратите внимание: хотя конвейер генерирует филогенетические генные деревья, ограниченный объем сравнительного анализа Vega означает, что они обязательно будут неполными, и, следовательно, на веб-сайте показаны только ортологи. 3. Ручная идентификация аллелей в различных гаплотипах человека или линиях мышей.

Существует пять наборов анализов: [22]

1. Область MHC сравнивалась между гаплотипами собаки, свиньи (две сборки), гориллы, шимпанзе, валлаби, мыши и восьми человеческих гаплотипов:

2. Сравнение регионов LRC свиньи, гориллы и человека (девять гаплотипов):

3. В этих сравнениях использовались следующие регионы эталонной сборки CL57BL/6:

4. Сравнение трех конкретных регионов:

5. Попарные сравнения трех пар полноразмерных хромосом мыши и человека:

Рекомендации

  1. ^ ab "Браузер Vega Genome". Добро пожаловать в Институт Сэнгера . Проверено 30 октября 2012 г.
  2. ^ Сирл, SMJ; Гилберт, Дж; Айер, В; Клэмп, М (1 мая 2004 г.). «Система аннотаций Выдры». Геномные исследования . 14 (5): 963–970. дои : 10.1101/гр.1864804. ПМК 479127 . ПМИД  15123593. 
  3. ^ Хаббард, Т.; Баркер, Д; Бирни, Э; Кэмерон, Дж; Чен, Ю; Кларк, Л; Кокс, Т; Кафф, Дж; Карвен, В. (1 января 2002 г.). «Проект базы данных генома Ensembl». Исследования нуклеиновых кислот . 30 (1): 38–41. дои : 10.1093/нар/30.1.38. ПМК 99161 . ПМИД  11752248. 
  4. ^ Лавленд, Дж. (1 января 2005 г.). «VEGA, необычный геномный браузер». Брифинги по биоинформатике . 6 (2): 189–193. дои : 10.1093/нагрудник/6.2.189 . ПМИД  15975227.
  5. ^ аб Ашерст, JL; Чен, СК; Гилберт, Дж. Г.; Йекош, К; Кинан, С; Мейдл, П; Сирл, С.М.; Сталкер, Дж; Стори, Р. (17 декабря 2004 г.). «База данных аннотаций генома позвоночных (Вега)». Исследования нуклеиновых кислот . 33 (Проблема с базой данных): D459–D465. дои : 10.1093/nar/gki135. ПМК 540089 . ПМИД  15608237. 
  6. ^ abcd Уилминг, LG; Гилберт, JGR; Хау, К.; Треванион, С.; Хаббард, Т.; Харроу, Дж.Л. (23 декабря 2007 г.). «База данных аннотаций генома позвоночных (Vega)». Исследования нуклеиновых кислот . 36 (База данных): D753–D760. дои : 10.1093/nar/gkm987. ПМК 2238886 . ПМИД  18003653. 
  7. ^ "Институт Wellcome Trust Sanger" .
  8. ^ аб Лавленд, JE; Гилберт, JGR; Гриффитс, Э.; Харроу, Дж.Л. (20 марта 2012 г.). «Аннотация генов сообщества на практике». База данных . 2012 : bas009. doi : 10.1093/база данных/bas009. ПМК 3308165 . ПМИД  22434843. 
  9. ^ «Геном человека».
  10. ^ Бирни, Юэн; и другие. (14 июня 2007 г.). «Идентификация и анализ функциональных элементов в 1% генома человека в рамках пилотного проекта ENCODE». Природа . 447 (7146): 799–816. Бибкод : 2007Natur.447..799B. дои : 10.1038/nature05874. ПМК 2212820 . ПМИД  17571346. 
  11. ^ Ашерст, Дженнифер Л.; Коллинз, Джон Э. (1 сентября 2003 г.). «Геновая аннотация: предсказание и тестирование». Ежегодный обзор геномики и генетики человека . 4 (1): 69–88. дои : 10.1146/annurev.genom.4.070802.110300 . ПМИД  14527297.
  12. ^ "Гаванский проект".
  13. Спрэг, Дж. (1 января 2006 г.). «Информационная сеть рыб данио: база данных модельных организмов рыб данио». Исследования нуклеиновых кислот . 34 (90001): Д581–Д585. дои : 10.1093/nar/gkj086. ПМЦ 1347449 . ПМИД  16381936. 
  14. ^ "Геном данио".
  15. ^ ab «Геном мыши».
  16. ^ abc "Геном свиньи".
  17. ^ «Геном собаки».
  18. ^ "Геном шимпанзе".
  19. ^ "Геном Валлаби".
  20. ^ "Геном гориллы".
  21. ^ "Пре! Ансамбль".
  22. ^ ab «Сравнительный анализ».

Внешние ссылки