Матрица веса позиции (PWM) , также известная как матрица веса позиции (PSWM) или матрица оценки позиции (PSSM) , является широко используемым представлением мотивов (шаблонов) в биологических последовательностях.
ШИМ часто выводятся из набора выровненных последовательностей, которые считаются функционально связанными и стали важной частью многих программных инструментов для обнаружения вычислительных мотивов.
PWM имеет одну строку для каждого символа алфавита (4 строки для нуклеотидов в последовательностях ДНК или 20 строк для аминокислот в последовательностях белков ) и один столбец для каждой позиции в шаблоне. На первом этапе построения PWM создается базовая матрица частоты положения (PFM) путем подсчета вхождений каждого нуклеотида в каждой позиции. Из PFM теперь может быть создана матрица вероятности положения (PPM) путем деления этого бывшего количества нуклеотидов в каждой позиции на количество последовательностей, тем самым нормализуя значения. Формально, учитывая набор X из N выровненных последовательностей длины l , элементы PPM M вычисляются:
где i (1,..., N ), j (1,..., l ), k — набор символов в алфавите, а I(a=k) — индикаторная функция , где I(a=k) равен 1, если a=k, и 0 в противном случае.
Например, даны следующие последовательности ДНК:
Соответствующий PFM:
Таким образом, результирующий PPM равен: [1]
Как PPM, так и PWM предполагают статистическую независимость между позициями в шаблоне, поскольку вероятности для каждой позиции вычисляются независимо от других позиций. Из определения выше следует, что сумма значений для конкретной позиции (то есть суммирование по всем символам) равна 1. Поэтому каждый столбец можно рассматривать как независимое мультиномиальное распределение . Это позволяет легко вычислить вероятность последовательности, заданной PPM, путем умножения соответствующих вероятностей в каждой позиции. Например, вероятность последовательности S = GAGGTAAAC, заданной выше PPM M, можно вычислить:
Псевдосчеты (или оценщики Лапласа ) часто применяются при вычислении PPM, если они основаны на небольшом наборе данных, чтобы избежать матричных записей, имеющих значение 0. [2] Это эквивалентно умножению каждого столбца PPM на распределение Дирихле и позволяет вычислять вероятность для новых последовательностей (то есть последовательностей, которые не были частью исходного набора данных). В приведенном выше примере без псевдосчетов любая последовательность, которая не имела G в 4-й позиции или T в 5-й позиции, имела бы вероятность 0, независимо от других позиций.
Чаще всего элементы в PWM рассчитываются как логарифмические коэффициенты. То есть элементы PPM преобразуются с использованием фоновой модели таким образом, что:
описывает, как элемент в PWM (слева) , , может быть вычислен. Простейшая фоновая модель предполагает, что каждая буква появляется в наборе данных одинаково часто. То есть, значение для всех символов в алфавите (0,25 для нуклеотидов и 0,05 для аминокислот). Применение этого преобразования к PPM M сверху (без добавления псевдоотсчетов) дает:
Записи в матрице наглядно демонстрируют преимущество добавления псевдосчетчиков, особенно при использовании небольших наборов данных для построения M. Фоновая модель не обязательно должна иметь одинаковые значения для каждого символа: например, при изучении организмов с высоким содержанием GC значения для C и G могут быть увеличены с соответствующим уменьшением значений для A и T.
Когда элементы PWM рассчитываются с использованием логарифмических правдоподобий, оценка последовательности может быть рассчитана путем сложения (а не умножения) соответствующих значений в каждой позиции в PWM. Оценка последовательности дает представление о том, насколько последовательность отличается от случайной последовательности. Оценка равна 0, если последовательность имеет одинаковую вероятность быть функциональным сайтом и быть случайным сайтом. Оценка больше 0, если она с большей вероятностью будет функциональным сайтом, чем случайным сайтом, и меньше 0, если она с большей вероятностью будет случайным сайтом, чем функциональным сайтом. [1] Оценка последовательности также может быть интерпретирована в физической структуре как энергия связи для этой последовательности.
Информационное содержание (ИС) ШИМ иногда представляет интерес, поскольку оно говорит о том, насколько данный ШИМ отличается от равномерного распределения .
Самостоятельная информация о наблюдении определенного символа в определенном месте мотива такова:
Ожидаемая (средняя) собственная информация конкретного элемента в ШИМ тогда равна:
Наконец, ИС ШИМ представляет собой сумму ожидаемой собственной информации каждого элемента:
Часто бывает полезнее рассчитать информационное содержание с фоновыми частотами букв последовательностей, которые вы изучаете, а не предполагать равные вероятности каждой буквы (например, GC-содержание ДНК термофильных бактерий варьируется от 65,3 до 70,8, [3] таким образом, мотив ATAT будет содержать гораздо больше информации, чем мотив CCGG). Уравнение для информационного содержания, таким образом, становится
где — фоновая частота для буквы . Это соответствует расхождению Кульбака–Лейблера или относительной энтропии. Однако было показано, что при использовании PSSM для поиска геномных последовательностей (см. ниже) эта равномерная коррекция может привести к переоценке важности различных оснований в мотиве из-за неравномерного распределения n-меров в реальных геномах, что приводит к значительно большему количеству ложноположительных результатов. [4]
Существуют различные алгоритмы для сканирования на наличие PWM в последовательностях. Одним из примеров является алгоритм MATCH [5] , который был реализован в ModuleMaster. [6] Более сложные алгоритмы для быстрого поиска в базе данных с нуклеотидами, а также аминокислотами PWM/PSSM реализованы в программном обеспечении possumsearch. [7]
Базовый PWM/PSSM не может справиться с вставками и удалениями. PSSM с дополнительными вероятностями для вставки и удаления в каждой позиции можно интерпретировать как скрытую марковскую модель . Это подход, используемый Pfam . [8] [9]