В биоинформатике точечный график — это графический метод сравнения двух биологических последовательностей и выявления областей близкого сходства после выравнивания последовательностей . Это тип графика повторяемости .
Одним из способов визуализации сходства между двумя последовательностями белков или нуклеиновых кислот является использование матрицы сходства, известной как точечный график. Они были введены Гиббсом и Макинтайром в 1970 году [1] и представляют собой двумерные матрицы, в которых последовательности сравниваемых белков располагаются вдоль вертикальной и горизонтальной осей. Для простого визуального представления сходства между двумя последовательностями отдельные ячейки в матрице могут быть закрашены черным цветом, если остатки идентичны, так что соответствующие сегменты последовательности отображаются в виде диагональных линий по всей матрице.
Некоторое представление о сходстве двух последовательностей можно почерпнуть из количества и длины совпадающих сегментов, показанных в матрице. Идентичные белки, очевидно, будут иметь диагональную линию в центре матрицы. Вставки и делеции между последовательностями приводят к нарушениям в этой диагонали. Области локального сходства или повторяющиеся последовательности приводят к дальнейшим диагональным совпадениям в дополнение к центральной диагонали. Один из способов уменьшения этого шума — заштриховывать только прогоны или « кортежи » остатков , например, кортеж из 3 соответствует трем остаткам в ряду. Это эффективно, поскольку вероятность совпадения трех остатков в ряду по случайности намного ниже, чем совпадений по одному остатку.
Точечные диаграммы сравнивают две последовательности, организуя одну последовательность на оси x, а другую на оси y графика. Когда остатки обеих последовательностей совпадают в одном и том же месте на графике, в соответствующей позиции рисуется точка. Обратите внимание, что последовательности могут быть записаны в обратном или прямом направлении, однако последовательности на обеих осях должны быть записаны в одном направлении. Также обратите внимание, что направление последовательностей на осях определит направление линии на точечной диаграмме. После того, как точки нанесены, они объединятся в линии. Близость последовательностей по сходству определит, насколько близка диагональная линия к тому, что представляет собой график, показывающий кривую, демонстрирующую прямую связь . На эту связь влияют определенные особенности последовательности, такие как сдвиги кадров, прямые повторы и инвертированные повторы. Сдвиги кадров включают вставки, делеции и мутации. Наличие одной из этих особенностей или наличие нескольких особенностей приведет к тому, что несколько линий будут нанесены на график в различных возможных конфигурациях в зависимости от особенностей, присутствующих в последовательностях. Особенностью, которая приведет к совершенно иному результату на точечной диаграмме, является наличие области/областей низкой сложности. Области низкой сложности — это области в последовательности, содержащие всего несколько аминокислот, что, в свою очередь, вызывает избыточность в пределах этой небольшой или ограниченной области. Эти области обычно находятся вокруг диагонали и могут иметь или не иметь квадрат в середине точечной диаграммы.