stringtranslate.com

Логотип последовательности

Логотип последовательности, показывающий наиболее консервативные основания вокруг инициирующего кодона из всех человеческих мРНК ( консенсусная последовательность Козака ). Обратите внимание, что инициирующий кодон нарисован не в масштабе, иначе каждая буква AUG имела бы высоту 2 бита.

В биоинформатике логотип последовательности — это графическое представление сохранения последовательности нуклеотидов (в цепи ДНК / РНК ) или аминокислотбелковых последовательностях ). [1] Логотип последовательности создается из коллекции выровненных последовательностей и отображает консенсусную последовательность и разнообразие последовательностей. Логотипы последовательности часто используются для отображения характеристик последовательности, таких как сайты связывания белков в ДНК или функциональные единицы в белках.

Обзор

Последовательный логотип состоит из стопки букв в каждой позиции. Относительные размеры букв указывают на их частоту в последовательностях. Общая высота букв отображает информационное содержание позиции в битах.

Создание логотипа

Для создания логотипов последовательностей, связанные последовательности ДНК, РНК или белков, или последовательности ДНК, которые имеют общие консервативные сайты связывания, выравниваются таким образом, что наиболее консервативные части создают хорошие выравнивания. Затем можно создать логотип последовательности из консервативного множественного выравнивания последовательностей . Логотип последовательности покажет, насколько хорошо остатки консервативны в каждой позиции: чем больше количество остатков, тем выше будут буквы, потому что тем лучше консервация в этой позиции. Различные остатки в одной и той же позиции масштабируются в соответствии с их частотой. Высота всего стека остатков — это информация, измеряемая в битах . Логотипы последовательностей можно использовать для представления консервативных сайтов связывания ДНК , где связываются факторы транскрипции .

Информативность (ось Y) положения определяется по формуле: [2]

для аминокислот,
для нуклеиновых кислот,

где - неопределенность (иногда называемая энтропией Шеннона ) положения

Здесь — относительная частота основания или аминокислоты в позиции , а — поправка на малую выборку для выравнивания букв. [2] [3] Высота буквы в столбце определяется как

Приближение для коррекции малой выборки, , определяется по формуле:

где — 4 для нуклеотидов, 20 для аминокислот, а — количество последовательностей в выравнивании.

Логотип консенсуса

Консенсусный логотип — это упрощенная вариация последовательности логотипа, которая может быть встроена в текстовый формат. Как и последовательность логотипа, консенсусный логотип создается из коллекции выровненных последовательностей белка или ДНК/РНК и передает информацию о сохранении каждой позиции мотива последовательности или выравнивании последовательности [1] [4] . Однако консенсусный логотип отображает только информацию о сохранении, а не явно информацию о частоте каждого нуклеотида или аминокислоты в каждой позиции. Вместо стопки из нескольких символов, обозначающей относительную частоту каждого символа, консенсусный логотип отображает степень сохранения каждой позиции с использованием высоты консенсусного символа в этой позиции.

Логотип последовательности для мотива связывания LexA нескольких грамположительных видов.
Консенсусный логотип для мотива связывания LexA нескольких грамположительных видов.

Преимущества и недостатки

Главное и очевидное преимущество логотипов консенсуса над логотипами последовательностей заключается в их возможности встраиваться в виде текста в любой Rich Text Format, поддерживающий редактор/просмотрщик, и, следовательно, в научные рукописи. Как описано выше, логотип консенсуса представляет собой нечто среднее между логотипами последовательностей и консенсусными последовательностями . В результате, по сравнению с логотипом последовательности, логотип консенсуса опускает информацию (относительный вклад каждого символа в сохранение этой позиции в мотиве/выравнивании). Следовательно, логотип последовательности следует использовать предпочтительно, когда это возможно. При этом необходимость включать графические фигуры для отображения логотипов последовательностей увековечила использование консенсусных последовательностей в научных рукописях, даже несмотря на то, что они не передают информацию как о сохранении, так и о частоте. [5] Таким образом, логотипы консенсуса представляют собой улучшение по сравнению с консенсусными последовательностями, когда информация о мотиве/выравнивании должна быть ограничена текстом.

Расширения

Скрытые марковские модели (HMM) учитывают не только информационное содержание выровненных позиций в выравнивании, но также вставок и удалений. В логотипе последовательности HMM, используемом Pfam , добавлены три строки для указания частот занятости (присутствия) и вставки, а также ожидаемой длины вставки. [6]

Последовательный логотип для TALE-like . Обратите внимание на уменьшенную занятость (синий) в позиции один и случайную вставку в позиции 19 (красный).

Смотрите также

Ссылки

  1. ^ ab Schneider TD; Stephens RM (1990). «Логотипы последовательностей: новый способ отображения консенсусных последовательностей». Nucleic Acids Res . 18 (20): 6097–6100. doi :10.1093/nar/18.20.6097. PMC  332411. PMID  2172928 .
  2. ^ ab Schneider TD; Stormo GD (1986). "Информационное содержание участков связывания в последовательностях нуклеотидов" (PDF) . Журнал молекулярной биологии . 188 (3): 415–431. doi :10.1016/0022-2836(86)90165-8. PMID  3525846.
  3. ^ Башарин ГП (1959). «О статистической оценке энтропии последовательности независимых случайных величин». Теория вероятностей и ее приложения . 4 (3): 333–336. doi :10.1137/1104033.
  4. ^ Anzaldi LJ; Muñoz-Fernández D; Erill I. (2012). "BioWord: набор инструментов для манипуляции последовательностями для Microsoft Word". BMC Bioinformatics . 13 (124): 124. doi : 10.1186/1471-2105-13-124 . PMC 3546851. PMID  22676326 . 
  5. ^ Schneider TD (2002). «Консенсусная последовательность Zen». Appl Bioinform . 1 (3): 111–119. PMC 1852464. PMID  15130839 . 
  6. ^ Уилер, Трэвис Дж.; Клементс, Джоди; Финн, Роберт Д. (13 января 2014 г.). «Skylign: инструмент для создания информативных интерактивных логотипов, представляющих выравнивания последовательностей и скрытые модели Маркова». BMC Bioinformatics . 15 (1): 7. doi : 10.1186/1471-2105-15-7 . PMC 3893531 . PMID  24410852. 

Внешние ссылки