В биоинформатике логотип последовательности — это графическое представление сохранения последовательности нуклеотидов (в цепи ДНК / РНК ) или аминокислот (в белковых последовательностях ). [1] Логотип последовательности создается из коллекции выровненных последовательностей и отображает консенсусную последовательность и разнообразие последовательностей. Логотипы последовательности часто используются для отображения характеристик последовательности, таких как сайты связывания белков в ДНК или функциональные единицы в белках.
Последовательный логотип состоит из стопки букв в каждой позиции. Относительные размеры букв указывают на их частоту в последовательностях. Общая высота букв отображает информационное содержание позиции в битах.
Для создания логотипов последовательностей, связанные последовательности ДНК, РНК или белков, или последовательности ДНК, которые имеют общие консервативные сайты связывания, выравниваются таким образом, что наиболее консервативные части создают хорошие выравнивания. Затем можно создать логотип последовательности из консервативного множественного выравнивания последовательностей . Логотип последовательности покажет, насколько хорошо остатки консервативны в каждой позиции: чем больше количество остатков, тем выше будут буквы, потому что тем лучше консервация в этой позиции. Различные остатки в одной и той же позиции масштабируются в соответствии с их частотой. Высота всего стека остатков — это информация, измеряемая в битах . Логотипы последовательностей можно использовать для представления консервативных сайтов связывания ДНК , где связываются факторы транскрипции .
Информативность (ось Y) положения определяется по формуле: [2]
где - неопределенность (иногда называемая энтропией Шеннона ) положения
Здесь — относительная частота основания или аминокислоты в позиции , а — поправка на малую выборку для выравнивания букв. [2] [3] Высота буквы в столбце определяется как
Приближение для коррекции малой выборки, , определяется по формуле:
где — 4 для нуклеотидов, 20 для аминокислот, а — количество последовательностей в выравнивании.
Консенсусный логотип — это упрощенная вариация последовательности логотипа, которая может быть встроена в текстовый формат. Как и последовательность логотипа, консенсусный логотип создается из коллекции выровненных последовательностей белка или ДНК/РНК и передает информацию о сохранении каждой позиции мотива последовательности или выравнивании последовательности [1] [4] . Однако консенсусный логотип отображает только информацию о сохранении, а не явно информацию о частоте каждого нуклеотида или аминокислоты в каждой позиции. Вместо стопки из нескольких символов, обозначающей относительную частоту каждого символа, консенсусный логотип отображает степень сохранения каждой позиции с использованием высоты консенсусного символа в этой позиции.
Главное и очевидное преимущество логотипов консенсуса над логотипами последовательностей заключается в их возможности встраиваться в виде текста в любой Rich Text Format, поддерживающий редактор/просмотрщик, и, следовательно, в научные рукописи. Как описано выше, логотип консенсуса представляет собой нечто среднее между логотипами последовательностей и консенсусными последовательностями . В результате, по сравнению с логотипом последовательности, логотип консенсуса опускает информацию (относительный вклад каждого символа в сохранение этой позиции в мотиве/выравнивании). Следовательно, логотип последовательности следует использовать предпочтительно, когда это возможно. При этом необходимость включать графические фигуры для отображения логотипов последовательностей увековечила использование консенсусных последовательностей в научных рукописях, даже несмотря на то, что они не передают информацию как о сохранении, так и о частоте. [5] Таким образом, логотипы консенсуса представляют собой улучшение по сравнению с консенсусными последовательностями, когда информация о мотиве/выравнивании должна быть ограничена текстом.
Скрытые марковские модели (HMM) учитывают не только информационное содержание выровненных позиций в выравнивании, но также вставок и удалений. В логотипе последовательности HMM, используемом Pfam , добавлены три строки для указания частот занятости (присутствия) и вставки, а также ожидаемой длины вставки. [6]