Множественный ЭМ для выявления мотива

Множественная максимизация ожиданий для выявления мотивов (MEME) — это инструмент для обнаружения мотивов в группе связанных последовательностей ДНК или белков . ^[1]

Мотив — это шаблон последовательности, который повторяется в группе связанных последовательностей белков или ДНК и часто связан с некоторой биологической функцией. МЕМ представляет мотивы как матрицы вероятностей букв, зависящие от позиции , которые описывают вероятность каждой возможной буквы в каждой позиции шаблона. Отдельные мотивы МЕМ не содержат пробелов. Шаблоны с пробелами переменной длины разделяются МЕМ на два или более отдельных мотива.

MEME принимает в качестве входных данных группу последовательностей ДНК или белков (обучающий набор) и выводит столько мотивов, сколько запрошено. Он использует методы статистического моделирования для автоматического выбора лучшей ширины, количества вхождений и описания для каждого мотива.

MEME — первый из набора инструментов для анализа мотивов, называемого MEME suite .

Определение

Алгоритм MEME можно понять с двух разных точек зрения. С биологической точки зрения MEME идентифицирует и характеризует общие мотивы в наборе невыровненных последовательностей. С точки зрения компьютерной науки MEME находит набор неперекрывающихся, приблизительно совпадающих подстрок, заданных начальным набором строк. ^{[ необходима цитата ]}

Использовать

MEME можно использовать для поиска схожих биологических функций и структур в разных последовательностях. Необходимо учитывать, что вариации последовательностей могут быть значительными, а мотивы иногда очень малы. Также полезно учитывать, что сайты связывания для белков очень специфичны. Это облегчает сокращение экспериментов в мокрой лаборатории (экономя деньги и время). Действительно, чтобы лучше обнаружить мотивы, значимые с биологической точки зрения, необходимо тщательно выбирать: наилучшую ширину мотивов, количество вхождений в каждой последовательности и состав каждого мотива.

Компоненты алгоритма

Алгоритм использует несколько типов известных функций:

Максимизация ожиданий (EM).
Эвристика на основе ЭМ для выбора начальной точки ЭМ.
Эвристика на основе максимального отношения правдоподобия (LRT) для определения наилучшего количества параметров, не зависящих от модели.
Многократный запуск для поиска по возможной ширине мотива.
Жадный поиск для нахождения нескольких мотивов.

Однако часто не известно, где находится начальная позиция. Существует несколько возможностей: ровно один мотив на последовательность, или один или ноль мотивов на последовательность, или любое количество мотивов на последовательность.

Смотрите также

Ссылки

^ Бейли TL, Элкан C. Неконтролируемое обучение множественным мотивам в биополимерах с использованием ЭМ. Mach. Learn. 1995;21:51–80.

Внешние ссылки

MEME Suite — инструменты анализа последовательностей на основе мотивов
Версия MEME с ускорением на GPU
EXTREME — Онлайн-реализация модели MEME с помощью ЭМ для быстрого обнаружения мотивов в больших данных ChIP-Seq и DNase-Seq Footprinting