Один из способов визуализировать сходство между двумя последовательностями белков или нуклеиновых кислот — использовать матрицу сходства, известную как точечный график. Они были представлены Гиббсом и Макинтайром в 1970 году [1] и представляют собой двумерные матрицы, в которых последовательности сравниваемых белков располагаются вдоль вертикальной и горизонтальной осей. Для простого визуального представления сходства между двумя последовательностями отдельные ячейки в матрице могут быть закрашены черным, если остатки идентичны, так что совпадающие сегменты последовательности отображаются в виде диагональных линий по матрице.
Интерпретация
Некоторое представление о сходстве двух последовательностей можно получить из количества и длины совпадающих сегментов, показанных в матрице. Идентичные белки, очевидно, будут иметь диагональную линию в центре матрицы. Вставки и делеции между последовательностями приводят к нарушениям этой диагонали. Области локального сходства или повторяющиеся последовательности приводят к появлению дополнительных диагональных совпадений в дополнение к центральной диагонали. Один из способов уменьшить этот шум — заштриховать только серии или « кортежи » остатков, например, кортеж из 3 соответствует трем остаткам подряд. Это эффективно, поскольку вероятность случайного совпадения трех остатков подряд намного ниже, чем вероятность совпадения одного остатка.
Точечные графики сравнивают две последовательности, организуя одну последовательность по оси X, а другую по оси Y графика. Когда остатки обеих последовательностей совпадают в одном и том же месте на графике, в соответствующей позиции рисуется точка. Обратите внимание, что последовательности можно записывать назад или вперед, однако последовательности на обеих осях должны быть записаны в одном и том же направлении. Также обратите внимание, что направление последовательностей по осям будет определять направление линии на точечном графике. После нанесения точек они объединятся в линии. Близость последовательностей по сходству будет определять, насколько близка диагональная линия к графику, показывающему кривую, демонстрирующую прямую связь . На эту взаимосвязь влияют определенные особенности последовательности, такие как сдвиги кадров, прямые повторы и инвертированные повторы. Сдвиги кадров включают вставки, делеции и мутации. Наличие одного из этих признаков или наличие нескольких признаков приведет к построению нескольких линий в различных возможных конфигурациях, в зависимости от признаков, присутствующих в последовательностях. Особенностью, которая приведет к совершенно другому результату на точечной диаграмме, является наличие областей/регионов низкой сложности. Области низкой сложности — это участки последовательности, содержащие всего несколько аминокислот, что, в свою очередь, вызывает избыточность внутри этой небольшой или ограниченной области. Эти области обычно располагаются вокруг диагонали и могут иметь или не иметь квадрат в середине точечного графика.
Программное обеспечение для создания точечных графиков
АНАКОН – Контактный анализ точечных графиков.
D-Genies [2] – специализируется на интерактивных точечных диаграммах больших геномов.
Dotlet – предоставляет программу, позволяющую построить точечную диаграмму с вашими собственными последовательностями.
dotmatcher [3] — веб-инструмент для создания точечных графиков (входит в состав пакета EMBOSS).
Dotplot. Архивировано 3 октября 2016 г. на Wayback Machine — простой (образовательный) инструмент HTML5 для создания точечных графиков на основе последовательностей РНК.
dotplot — пакет R для быстрого создания точечных графиков в виде традиционной графики или графики ggplot.
Dotter [4] – отдельная программа для создания точечных графиков.
JDotter [5] – Java-версия Dotter.
Flexidot [6] — настраиваемый набор точечных графиков с учетом неоднозначности для эстетики, пакетного анализа и печати (реализован на Python).
Genomdiff – Java-программа точечной диаграммы с открытым исходным кодом для вирусов.
LAST для «разделенного выравнивания» всего генома. [8]
lastz [9] и laj — программы для подготовки и визуализации геномных выравниваний.
yass [10] — веб-инструмент для создания (как прямого, так и обратного дополнения) точечных диаграмм на основе геномного выравнивания.
re-DOT-able – настольное приложение Java, которое позволяет сравнивать два набора последовательностей ДНК/РНК посредством создания интерактивной точечной диаграммы.
seqinr — пакет R для создания точечных графиков.
SynMap – простой в использовании веб-инструмент для создания точечных диаграмм для многих видов с доступом к обширной базе данных геномов. Предлагается платформой сравнительной геномики CoGe.
UGENE Dot Plot Viewer – визуализатор точечных диаграмм с открытым исходным кодом.
Общее введение в точечные диаграммы с примерами алгоритмов и программным инструментом для создания точечных диаграмм малого и среднего размера.
В дополнение к инструментам, перечисленным выше, сервер NCBI Blast по адресу https://blast.ncbi.nlm.nih.gov/Blast.cgi включает в свои выходные данные точечные графики.
^ Гиббс, Адриан Дж.; Макинтайр, Джордж А. (1970). «Диаграмма, метод сравнения последовательностей. Ее использование с аминокислотными и нуклеотидными последовательностями». Евро. Дж. Биохим . 16 (1): 1–11. дои : 10.1111/j.1432-1033.1970.tb01046.x . ПМИД 5456129.
^ Клопп, Кристоф; Кабанетты, Флореаль (23 февраля 2018 г.). «D-GENIES: точечные построения больших геномов интерактивным, эффективным и простым способом». ПерДж . 6 : е4958. doi : 10.7287/peerj.preprints.26567v1 . ПМК 5991294 . ПМИД 29888139.
^ Райс, П.; Лонгден, И.; Блисби, А. (июнь 2000 г.). «EMBOSS: Европейский пакет открытого программного обеспечения для молекулярной биологии». Тенденции в генетике . 16 (6): 276–277. дои : 10.1016/s0168-9525(00)02024-2. ISSN 0168-9525. ПМИД 10827456.
^ Зоннхаммер, Эль; Дурбин, Р. (29 декабря 1995 г.). «Матричная программа с динамическим пороговым контролем, подходящая для анализа геномной ДНК и последовательностей белков». Джин . 167 (1–2): GC1–10. дои : 10.1016/0378-1119(95)00714-8. ISSN 0378-1119. ПМИД 8566757.
^ Броди, Райан; Ропер, Рэйчел Л.; Аптон, Крис (22 января 2004 г.). «JDotter: интерфейс Java для нескольких точечных диаграмм, созданных с помощью dotter». Биоинформатика . 20 (2): 279–281. doi : 10.1093/биоинформатика/btg406 . ISSN 1367-4803. ПМИД 14734323.
^ Зейбт, Кэтрин М.; Шмидт, Томас; Хейткам, Тони (15 октября 2018 г.). «FlexiDot: легко настраиваемые точечные диаграммы с учетом неоднозначности для визуального анализа последовательностей». Биоинформатика . 34 (20): 3575–3577. doi : 10.1093/биоинформатика/bty395 . ПМИД 29762645.
^ Крумсик, Ян; Арнольд, Роланд; Раттей, Томас (15 апреля 2007 г.). «Гепард: быстрый и чувствительный инструмент для создания точечных диаграмм в масштабе генома». Биоинформатика . 23 (8): 1026–1028. doi : 10.1093/биоинформатика/btm039 . ISSN 1367-4803. ПМИД 17309896.
^ Фрит MC. и Кавагути Р. (2015). «Расщепление геномов позволяет более точно найти ортологии». Геном Биол . 16 (1): 106. дои : 10.1186/s13059-015-0670-9 . ПМЦ 4464727 . ПМИД 25994148.
^ Харрис, RS (2007). Улучшено попарное выравнивание геномной ДНК. Кандидат наук. Тезис . Пенсильвания: Университет штата Пенсильвания.
^ Ной Л., Кучеров. Г. (2005). «YASS: повышение чувствительности поиска сходства ДНК». Исследования нуклеиновых кислот . 33 (2): W540–W543. дои : 10.1093/nar/gki478. ПМК 1160238 . ПМИД 15980530.