Сетевые мотивы — это повторяющиеся и статистически значимые подграфы или шаблоны более крупного графа . Все сети, включая биологические сети , социальные сети, технологические сети (например, компьютерные сети и электрические цепи) и многое другое, могут быть представлены в виде графов, которые включают в себя широкий спектр подграфов.
Сетевые мотивы — это подграфы, которые повторяются в определенной сети или даже среди различных сетей. Каждый из этих подграфов, определяемый определенным шаблоном взаимодействий между вершинами, может отражать структуру, в которой конкретные функции достигаются эффективно. Действительно, мотивы имеют важное значение в значительной степени потому, что они могут отражать функциональные свойства. Недавно [ когда? ] они привлекли большое внимание как полезная концепция для раскрытия структурных принципов проектирования сложных сетей. [1] Хотя сетевые мотивы могут обеспечить глубокое понимание функциональных возможностей сети, их обнаружение является вычислительно сложным.
Пусть G = (V, E) и G′ = (V′, E′) — два графа. Граф G′ является подграфом графа G (записывается как G′ ⊆ G ), если V′ ⊆ V и E′ ⊆ E ∩ (V′ × V′) . Если G′ ⊆ G и G′ содержит все ребра ⟨u, v⟩ ∈ E с u, v ∈ V′ , то G′ является индуцированным подграфом графа G . Мы называем G′ и G изоморфными (записывается как G′ ↔ G ), если существует биекция (взаимно-однозначное соответствие) f:V′ → V с ⟨u, v⟩ ∈ E′ ⇔ ⟨f(u), f(v)⟩ ∈ E для всех u, v ∈ V′ . Отображение f называется изоморфизмом между G и G′ . [2]
Когда G″ ⊂ G и существует изоморфизм между подграфом G″ и графом G′ , это отображение представляет появление G ′ в G . Количество появлений графа G′ в G называется частотой F G G ′ в G . Граф называется рекуррентным (или частым ) в G , когда его частота F G (G′) превышает предопределенный порог или пороговое значение. В этом обзоре мы используем термины шаблон и частый подграф как взаимозаменяемые. Существует ансамбль Ω(G) случайных графов, соответствующих нулевой модели, связанной с G . Мы должны выбрать N случайных графов равномерно из Ω(G) и вычислить частоту для конкретного частого подграфа G′ в G . Если частота G′ в G выше, чем его средняя арифметическая частота в N случайных графах R i , где 1 ≤ i ≤ N , мы называем этот повторяющийся шаблон значимым и, следовательно, рассматриваем G′ как сетевой мотив для G . Для небольшого графа G′ , сети G и набора рандомизированных сетей R(G) ⊆ Ω(R) , где R(G) = N , Z-оценка частоты G′ определяется как
где μ R (G′) и σ R (G′) обозначают среднее и стандартное отклонение частоты в наборе R(G) , соответственно. [3] [4] [5] [6] [7] [8] Чем больше Z(G′) , тем более значимым является подграф G′ как мотив. В качестве альтернативы, другим измерением в статистической проверке гипотез, которое можно рассматривать при обнаружении мотива, является p -значение , заданное как вероятность F R (G′) ≥ F G (G′) (как его нулевая гипотеза), где F R (G′) указывает частоту G' в рандомизированной сети. [6] Подграф со значением p меньше порогового значения (обычно 0,01 или 0,05) будет рассматриваться как значимый шаблон. P -значение для частоты G′ определяется как
где N указывает количество рандомизированных сетей, i определяется по ансамблю рандомизированных сетей, а дельта-функция Кронекера δ(c(i)) равна единице, если выполняется условие c(i) . Концентрация [9] [10] конкретного подграфа G′ размера n в сети G относится к отношению появления подграфа в сети к общим частотам неизоморфных подграфов размера n , которое формулируется как
где индекс i определяется по множеству всех неизоморфных графов размера n. Другое статистическое измерение определено для оценки сетевых мотивов, но оно редко используется в известных алгоритмах. Это измерение введено Пикардом и др. в 2008 году и использовало распределение Пуассона, а не нормальное распределение Гаусса, которое неявно использовалось выше. [11]
Кроме того, были предложены три конкретных концепции частоты подграфа. [12] Как показано на рисунке, первая концепция частоты F 1 рассматривает все совпадения графа в исходной сети. Это определение похоже на то, что мы ввели выше. Вторая концепция F 2 определяется как максимальное количество непересекающихся по ребрам экземпляров данного графа в исходной сети. И, наконец, концепция частоты F 3 подразумевает совпадения с непересекающимися ребрами и узлами. Таким образом, две концепции F 2 и F 3 ограничивают использование элементов графа, и, как можно сделать вывод, частота подграфа снижается за счет наложения ограничений на использование элементов сети. В результате алгоритм обнаружения сетевого мотива пропустит больше подграфов-кандидатов, если мы будем настаивать на концепциях частоты F 2 и F 3 .
Изучение сетевых мотивов было начато Холландом и Лейнхардтом [13] [14] [15] [16], которые ввели концепцию триадной переписи сетей. Они ввели методы для подсчета различных типов конфигураций подграфов и проверки того, отличаются ли статистически подсчеты подграфов от ожидаемых в случайных сетях.
Эта идея была далее обобщена в 2002 году Ури Алоном и его группой [17], когда сетевые мотивы были обнаружены в сети регуляции генов ( транскрипции ) бактерий E. coli , а затем в большом наборе естественных сетей. С тех пор было проведено значительное количество исследований по этой теме. Некоторые из этих исследований сосредоточены на биологических приложениях, в то время как другие сосредоточены на вычислительной теории сетевых мотивов.
Биологические исследования пытаются интерпретировать мотивы, обнаруженные для биологических сетей. Например, в следующей работе [17] сетевые мотивы, обнаруженные в E. coli, были обнаружены в транскрипционных сетях других бактерий [18], а также дрожжей [19] [20] и высших организмов. [21] [22] [23] Отдельный набор сетевых мотивов был идентифицирован в других типах биологических сетей, таких как нейронные сети и сети взаимодействия белков. [5] [24] [25]
Вычислительные исследования были сосредоточены на улучшении существующих инструментов обнаружения мотивов, чтобы помочь биологическим исследованиям и позволить анализировать более крупные сети. На данный момент было предоставлено несколько различных алгоритмов, которые подробно описаны в следующем разделе в хронологическом порядке.
Совсем недавно был выпущен инструмент acc-MOTIF для обнаружения сетевых мотивов. [26]
Для сложной проблемы обнаружения сетевых мотивов (NM) были предложены различные решения. Эти алгоритмы можно классифицировать по различным парадигмам, таким как методы точного подсчета, методы выборки, методы роста шаблонов и т. д. Однако проблема обнаружения мотивов состоит из двух основных шагов: во-первых, подсчета количества появлений подграфа, а затем оценки значимости подграфа. Повторяемость значительна, если она заметно больше ожидаемой. Грубо говоря, ожидаемое количество появлений подграфа может быть определено нулевой моделью, которая определяется ансамблем случайных сетей с некоторыми из тех же свойств, что и исходная сеть.
До 2004 года единственным точным методом подсчета для обнаружения NM был метод грубой силы, предложенный Майло и др . [3] Этот алгоритм оказался успешным для обнаружения небольших мотивов, но использование этого метода для поиска даже мотивов размером 5 или 6 было вычислительно нецелесообразно. Следовательно, требовался новый подход к этой проблеме.
Здесь дается обзор вычислительных аспектов основных алгоритмов и обсуждаются их преимущества и недостатки с алгоритмической точки зрения.
В таблице ниже перечислены алгоритмы обнаружения мотивов, которые будут описаны в этом разделе. Их можно разделить на две общие категории: те, которые основаны на точном подсчете, и те, которые используют вместо этого статистическую выборку и оценки. Поскольку вторая группа не учитывает все вхождения подграфа в основной сети, алгоритмы, принадлежащие этой группе, быстрее, но они могут давать предвзятые и нереалистичные результаты.
На следующем уровне точные алгоритмы подсчета можно классифицировать на сетецентрические и подграфоцентрические методы. Алгоритмы первого класса ищут в заданной сети все подграфы заданного размера, тогда как алгоритмы, попадающие во второй класс, сначала генерируют различные возможные неизоморфные графы заданного размера, а затем исследуют сеть для каждого сгенерированного подграфа отдельно. Каждый подход имеет свои преимущества и недостатки, которые обсуждаются ниже.
Таблица также показывает, может ли алгоритм использоваться для направленных или ненаправленных сетей, а также для индуцированных или неиндуцированных подграфов. Для получения дополнительной информации обратитесь к предоставленным веб-ссылкам или адресам лабораторий.
В 2004 году Каштан и др. опубликовали mfinder — первый инструмент для поиска мотивов. [9] Он реализует два вида алгоритмов поиска мотивов: полный перебор и первый метод выборки.
Их алгоритм обнаружения выборки был основан на выборке ребер по всей сети. Этот алгоритм оценивает концентрации индуцированных подграфов и может быть использован для обнаружения мотивов в направленных или ненаправленных сетях. Процедура выборки алгоритма начинается с произвольного ребра сети, которое приводит к подграфу размера два, а затем расширяет подграф, выбирая случайное ребро, инцидентное текущему подграфу. После этого он продолжает выбирать случайные соседние ребра, пока не будет получен подграф размера n. Наконец, выбранный подграф расширяется, чтобы включить все ребра, которые существуют в сети между этими n узлами. Когда алгоритм использует подход выборки, получение несмещенных выборок является наиболее важной проблемой, которую алгоритм может решить. Однако процедура выборки не берет выборки равномерно, и поэтому Каштан и др. предложили схему взвешивания, которая назначает разные веса разным подграфам в сети. [9] Основной принцип распределения веса заключается в использовании информации о вероятности выборки для каждого подграфа, т. е. вероятные подграфы получат сравнительно меньшие веса по сравнению с маловероятными подграфами; следовательно, алгоритм должен вычислить вероятность выборки каждого подграфа, который был выбран. Этот метод взвешивания помогает mfinder беспристрастно определять концентрации подграфов.
В расширенном виде, чтобы включить резкий контраст с исчерпывающим поиском, вычислительное время алгоритма на удивление асимптотически не зависит от размера сети. Анализ вычислительного времени алгоритма показал, что он берет O(n n ) для каждой выборки подграфа размера n из сети. С другой стороны, в [9] нет анализа времени классификации выборочных подграфов, который требует решения проблемы изоморфизма графов для каждой выборки подграфа. Кроме того, на алгоритм накладываются дополнительные вычислительные усилия из-за вычисления веса подграфа. Но неизбежно сказать, что алгоритм может выбирать один и тот же подграф несколько раз — тратя время без сбора какой-либо информации. [10] В заключение, используя преимущества выборки, алгоритм работает более эффективно, чем алгоритм исчерпывающего поиска; однако он определяет только приблизительно концентрации подграфов. Этот алгоритм может находить мотивы до размера 6 из-за своей основной реализации, и в результате он выдает наиболее значимый мотив, а не все остальные. Также необходимо отметить, что данный инструмент не имеет возможности визуального представления. Алгоритм выборки показан кратко:
Шрайбер и Швёббермейер [12] предложили алгоритм, названный гибким поисковиком шаблонов (FPF), для извлечения частых подграфов входной сети и реализовали его в системе под названием Mavisto . [27] Их алгоритм использует свойство нисходящего замыкания , которое применимо к частотным концепциям F 2 и F 3 . Свойство нисходящего замыкания утверждает, что частота для подграфов монотонно уменьшается с увеличением размера подграфов; однако это свойство не обязательно выполняется для частотной концепции F 1 . FPF основан на дереве шаблонов (см. рисунок), состоящем из узлов, которые представляют различные графы (или шаблоны), где родительский узел каждого узла является подграфом его дочерних узлов; другими словами, соответствующий граф каждого узла дерева шаблонов расширяется путем добавления нового ребра к графу его родительского узла.
Сначала алгоритм FPF перечисляет и сохраняет информацию обо всех совпадениях подграфа, расположенного в корне дерева шаблонов. Затем он по одному строит дочерние узлы предыдущего узла в дереве шаблонов, добавляя одно ребро, поддерживаемое совпадающим ребром в целевом графе, и пытается расширить всю предыдущую информацию о совпадениях на новый подграф (дочерний узел). На следующем этапе он решает, ниже ли частота текущего шаблона предопределенного порога или нет. Если она ниже и если выполняется нисходящее замыкание, FPF может отказаться от этого пути и не проходить дальше в этой части дерева; в результате избегаются ненужные вычисления. Эта процедура продолжается до тех пор, пока не останется ни одного пути для прохождения.
Преимущество алгоритма в том, что он не рассматривает редкие подграфы и пытается завершить процесс перечисления как можно скорее; поэтому он тратит время только на перспективные узлы в дереве шаблонов и отбрасывает все остальные узлы. В качестве дополнительного бонуса понятие дерева шаблонов позволяет реализовать и выполнить FPF параллельно, поскольку можно независимо пройти каждый путь дерева шаблонов. Однако FPF наиболее полезен для частотных концепций F 2 и F 3 , поскольку нисходящее замыкание неприменимо к F 1 . Тем не менее, дерево шаблонов по-прежнему практично для F 1 , если алгоритм работает параллельно. Еще одним преимуществом алгоритма является то, что реализация этого алгоритма не имеет ограничений на размер мотива, что делает его более податливым к улучшениям. Ниже показан псевдокод FPF (Mavisto):
Смещение выборки Каштана и др. [9] дало большой толчок для разработки лучших алгоритмов для проблемы обнаружения NM. Хотя Каштан и др. пытались решить этот недостаток с помощью схемы взвешивания, этот метод налагал нежелательные накладные расходы на время выполнения, а также более сложную реализацию. Этот инструмент является одним из самых полезных, поскольку он поддерживает визуальные опции, а также является эффективным алгоритмом с точки зрения времени. Но он имеет ограничение по размеру мотива, поскольку не позволяет искать мотивы размером 9 или выше из-за способа реализации инструмента.
Вернике [10] представил алгоритм под названием RAND-ESU , который обеспечивает значительное улучшение по сравнению с mfinder . [9] Этот алгоритм, основанный на точном алгоритме перечисления ESU , был реализован в виде приложения под названием FANMOD . [10] RAND-ESU — это алгоритм обнаружения NM, применимый как для направленных, так и для ненаправленных сетей, эффективно использующий несмещенную выборку узлов по всей сети и предотвращающий пересчет подграфов более одного раза. Кроме того, RAND-ESU использует новый аналитический подход под названием DIRECT для определения значимости подграфа вместо использования ансамбля случайных сетей в качестве нулевой модели. Метод DIRECT оценивает концентрацию подграфа без явной генерации случайных сетей. [10] Эмпирически метод DIRECT более эффективен по сравнению со случайным сетевым ансамблем в случае подграфов с очень низкой концентрацией; однако классическая нулевая модель быстрее метода DIRECT для высококонцентрированных подграфов. [3] [10] Далее мы подробно рассмотрим алгоритм ESU , а затем покажем, как этот точный алгоритм можно эффективно модифицировать до RAND-ESU , который оценивает концентрации подграфов.
Алгоритмы ESU и RAND-ESU довольно просты и, следовательно, легко реализуемы. Сначала ESU находит множество всех индуцированных подграфов размера k , пусть S k будет этим множеством. ESU может быть реализована как рекурсивная функция; выполнение этой функции может быть отображено в виде древовидной структуры глубины k , называемой ESU-Tree (см. рисунок). Каждый из узлов ESU-Tree указывает на статус рекурсивной функции, которая влечет за собой два последовательных множества SUB и EXT. SUB относится к узлам в целевой сети, которые являются смежными и устанавливают частичный подграф размера |SUB| ≤ k . Если |SUB| = k , алгоритм нашел индуцированный полный подграф, поэтому S k = SUB ∪ S k . Однако, если |SUB| < k , алгоритм должен расширить SUB для достижения мощности k . Это делается набором EXT, который содержит все узлы, удовлетворяющие двум условиям: во-первых, каждый из узлов в EXT должен быть смежным по крайней мере с одним из узлов в SUB; во-вторых, их числовые метки должны быть больше, чем метка первого элемента в SUB. Первое условие гарантирует, что расширение узлов SUB дает связный граф, а второе условие заставляет листья ESU-Tree (см. рисунок) быть различными; в результате это предотвращает пересчет. Обратите внимание, что набор EXT не является статическим набором, поэтому на каждом шаге он может расширяться некоторыми новыми узлами, которые не нарушают два условия. Следующий шаг ESU включает классификацию подграфов, размещенных в листьях ESU-Tree, в неизоморфные классы графов размера k ; следовательно, ESU определяет частоты и концентрации подграфов. Этот этап был реализован просто с использованием алгоритма Маккея Nauty [28] [29] , который классифицирует каждый подграф, выполняя тест на изоморфизм графов. Таким образом, ESU находит набор всех индуцированных подграфов размера k в целевом графе с помощью рекурсивного алгоритма, а затем определяет их частоту с помощью эффективного инструмента.
Процедура реализации RAND-ESU довольно проста и является одним из главных преимуществ FANMOD . Можно изменить алгоритм ESU , чтобы исследовать только часть листьев ESU-Tree, применив значение вероятности 0 ≤ p d ≤ 1 для каждого уровня ESU-Tree и обязать ESU проходить каждый дочерний узел узла на уровне d-1 с вероятностью p d . Этот новый алгоритм называется RAND-ESU . Очевидно, что когда p d = 1 для всех уровней, RAND-ESU действует как ESU . При p d = 0 алгоритм ничего не находит. Обратите внимание, что эта процедура гарантирует, что шансы посещения каждого листа ESU-Tree одинаковы, что приводит к несмещенной выборке подграфов через сеть. Вероятность посещения каждого листа равна Π d p d , и это одинаково для всех листьев ESU-Tree; поэтому этот метод гарантирует несмещенную выборку подграфов из сети. Тем не менее, определение значения p d для 1 ≤ d ≤ k является еще одной проблемой, которая должна быть определена вручную экспертом для получения точных результатов концентраций подграфов. [8] Хотя нет четкого предписания по этому вопросу, Вернике дает некоторые общие наблюдения, которые могут помочь в определении значений p_d. Подводя итог, можно сказать, что RAND-ESU является очень быстрым алгоритмом для обнаружения NM в случае индуцированных подграфов, поддерживающим метод несмещенной выборки. Хотя основной алгоритм ESU и, следовательно, инструмент FANMOD известны тем, что обнаруживают индуцированные подграфы, существует тривиальная модификация ESU , которая позволяет также находить неиндуцированные подграфы. Ниже показан псевдокод ESU (FANMOD) :
Чен и др. [30] представили новый алгоритм обнаружения NM под названием NeMoFinder , который адаптирует идею в SPIN [31] для извлечения частых деревьев и после этого расширяет их в неизоморфные графы. [8] NeMoFinder использует частые деревья размера n для разбиения входной сети на коллекцию графов размера n , после чего находит частые подграфы размера n путем расширения частых деревьев по ребрам до получения полного графа размера n K n . Алгоритм находит NM в неориентированных сетях и не ограничивается извлечением только индуцированных подграфов. Кроме того, NeMoFinder является точным алгоритмом перечисления и не основан на методе выборки. Как утверждают Чен и др. , NeMoFinder применим для обнаружения относительно больших NM, например, для поиска NM размером до 12 из всей сети PPI S. cerevisiae (дрожжи), как утверждают авторы. [32]
NeMoFinder состоит из трех основных шагов. Во-первых, поиск частых деревьев размера n , затем использование повторяющихся деревьев размера n для разделения всей сети на коллекцию графов размера n , наконец, выполнение операций соединения подграфов для поиска частых подграфов размера n. [30] На первом шаге алгоритм обнаруживает все неизоморфные деревья размера n и отображения из дерева в сеть. На втором шаге диапазоны этих отображений используются для разделения сети на графы размера n. До этого шага нет различия между NeMoFinder и методом точного перечисления. Однако большая часть неизоморфных графов размера n все еще остается. NeMoFinder использует эвристику для перечисления недеревянных графов размера n с помощью полученной информации из предыдущих шагов. Главное преимущество алгоритма заключается в третьем шаге, который генерирует подграфы-кандидаты из ранее перечисленных подграфов. Это создание новых подграфов размера n выполняется путем соединения каждого предыдущего подграфа с производными подграфами от него самого, называемыми подграфами кузенов . Эти новые подграфы содержат одно дополнительное ребро по сравнению с предыдущими подграфами. Однако существуют некоторые проблемы при создании новых подграфов: нет четкого метода для получения кузенов из графа, соединение подграфа с его кузенами приводит к избыточности при создании конкретного подграфа более одного раза, а определение кузенов выполняется с помощью канонического представления матрицы смежности, которая не замкнута при операции соединения. NeMoFinder является эффективным алгоритмом поиска сетевых мотивов для мотивов размером до 12 только для сетей взаимодействия белок-белок, которые представлены в виде неориентированных графов. И он не может работать с направленными сетями, которые так важны в области сложных и биологических сетей. Ниже показан псевдокод NeMoFinder :
Грохов и Келлис [33] предложили точный алгоритм для перечисления появлений подграфов. Алгоритм основан на мотивно-центрическом подходе, что означает, что частота данного подграфа, называемого графом запроса , исчерпывающе определяется путем поиска всех возможных отображений из графа запроса в более крупную сеть. Утверждается [33] , что мотивно-центрический метод по сравнению с сетецентрическими методами имеет некоторые полезные особенности. Прежде всего, он позволяет избежать повышенной сложности перечисления подграфов. Кроме того, используя отображение вместо перечисления, он позволяет улучшить тест на изоморфизм. Чтобы улучшить производительность алгоритма, поскольку это неэффективный алгоритм точного перечисления, авторы ввели быстрый метод, который называется условиями нарушения симметрии . Во время простых тестов на изоморфизм подграфов подграф может быть отображен в один и тот же подграф графа запроса несколько раз. В алгоритме Грохова–Келлиса (GK) нарушение симметрии используется для того, чтобы избежать таких множественных отображений. Здесь мы представляем алгоритм GK и условие нарушения симметрии, которое устраняет избыточные проверки изоморфизма.
Алгоритм GK обнаруживает весь набор отображений заданного графа запроса в сеть за два основных шага. Он начинается с вычисления условий нарушения симметрии графа запроса. Затем, с помощью метода ветвей и границ, алгоритм пытается найти все возможные отображения из графа запроса в сеть, которые удовлетворяют связанным условиям нарушения симметрии. Пример использования условий нарушения симметрии в алгоритме GK показан на рисунке.
Как упоминалось выше, техника нарушения симметрии — это простой механизм, который исключает необходимость тратить время на поиск подграфа более одного раза из-за его симметрий. [33] [34] Обратите внимание, что вычисление условий нарушения симметрии требует нахождения всех автоморфизмов заданного графа запроса. Несмотря на то, что не существует эффективного (или полиномиального по времени) алгоритма для задачи автоморфизма графа, эта задача может быть эффективно решена на практике с помощью инструментов Маккея. [28] [29] Как утверждается, использование условий нарушения симметрии при обнаружении NM приводит к значительной экономии времени выполнения. Более того, из результатов в [33] [34] можно сделать вывод , что использование условий нарушения симметрии приводит к высокой эффективности, особенно для направленных сетей по сравнению с ненаправленными сетями. Условия нарушения симметрии, используемые в алгоритме GK, аналогичны ограничению, которое алгоритм ESU применяет к меткам в наборах EXT и SUB. В заключение, алгоритм GK вычисляет точное число появлений заданного графа запроса в большой сложной сети, а использование условий нарушения симметрии улучшает производительность алгоритма. Кроме того, алгоритм GK является одним из известных алгоритмов, не имеющих ограничений на размер мотива в реализации, и потенциально он может находить мотивы любого размера.
Большинство алгоритмов в области обнаружения NM используются для поиска индуцированных подграфов сети. В 2008 году Нога Алон и др. [35] представили подход для поиска также неиндуцированных подграфов. Их метод работает на неориентированных сетях, таких как PPI. Кроме того, он подсчитывает неиндуцированные деревья и ограниченные по древовидной ширине подграфы. Этот метод применяется для подграфов размером до 10.
Этот алгоритм подсчитывает количество неиндуцированных вхождений дерева T с k = O(logn) вершинами в сеть G с n вершинами следующим образом:
Поскольку доступные сети PPI далеки от полноты и отсутствия ошибок, этот подход подходит для обнаружения NM для таких сетей. Поскольку алгоритм Грохова–Келлиса и этот являются популярными для неиндуцированных подграфов, стоит упомянуть, что алгоритм, представленный Алоном и др., требует меньше времени, чем алгоритм Грохова–Келлиса. [35]
Омиди и др. [36] представили новый алгоритм обнаружения мотивов под названием MODA , который применим для индуцированного и неиндуцированного обнаружения NM в ненаправленных сетях. Он основан на мотив-центрическом подходе, обсуждаемом в разделе алгоритма Грохова–Келлиса. Очень важно различать мотив-центрические алгоритмы, такие как алгоритм MODA и GK, из-за их способности работать как алгоритмы поиска запросов. Эта особенность позволяет таким алгоритмам находить один запрос мотива или небольшое количество запросов мотива (не все возможные подграфы заданного размера) с большими размерами. Поскольку количество возможных неизоморфных подграфов увеличивается экспоненциально с размером подграфа, для мотивов большого размера (даже больше 10) сетецентрические алгоритмы, те, которые ищут все возможные подграфы, сталкиваются с проблемой. Хотя алгоритмы, ориентированные на мотивы, также испытывают трудности с обнаружением всех возможных подграфов большого размера, их способность находить небольшое их количество иногда является важным свойством.
Используя иерархическую структуру, называемую деревом расширения , алгоритм MODA способен извлекать NM заданного размера систематически и аналогично FPF , что позволяет избежать перечисления бесперспективных подграфов; MODA учитывает потенциальные запросы (или кандидаты на подграфы), которые могут привести к частым подграфам. Несмотря на то, что MODA напоминает FPF в использовании древовидной структуры, дерево расширения применимо только для вычисления частотного понятия F 1 . Как мы обсудим далее, преимущество этого алгоритма заключается в том, что он не выполняет тест изоморфизма подграфов для недревовидных графов запросов. Кроме того, он использует метод выборки для ускорения времени выполнения алгоритма.
Вот основная идея: с помощью простого критерия можно обобщить отображение графа размера k в сеть на его суперграфы того же размера. Например, предположим, что есть отображение f(G) графа G с k узлами в сеть, и у нас есть граф того же размера G′ с одним ребром &langu, v⟩ ; f G отобразит G′ в сеть, если в сети есть ребро ⟨f G (u), f G (v)⟩ . В результате мы можем использовать набор отображений графа для определения частот его суперграфов того же порядка просто за время O(1) без проведения проверки изоморфизма подграфов. Алгоритм гениально начинается с минимально связанных графов запросов размера k и находит их отображения в сети с помощью изоморфизма подграфов. После этого, с сохранением размера графа, он расширяет ранее рассмотренные графы запросов ребро за ребром и вычисляет частоту этих расширенных графов, как упомянуто выше. Процесс расширения продолжается до тех пор, пока не будет достигнут полный граф K k (полностью связанный с k(k-1) ⁄ 2 ребром).
Как обсуждалось выше, алгоритм начинается с вычисления частот поддеревьев в сети, а затем расширяет поддеревья по ребрам. Один из способов реализации этой идеи называется деревом расширения T k для каждого k . На рисунке показано дерево расширения для подграфов размера 4. T k организует текущий процесс и предоставляет графы запросов иерархическим образом. Строго говоря, дерево расширения T k представляет собой просто направленный ациклический граф или DAG, в котором его корневой номер k указывает размер графа, существующего в дереве расширения, а каждый из его других узлов содержит матрицу смежности отдельного графа запросов размера k. Узлы на первом уровне T k представляют собой все отдельные деревья размера k и при обходе T k в глубину графы запросов расширяются на одно ребро на каждом уровне. Граф запроса в узле представляет собой подграф графа запроса в дочернем узле узла с разницей в одно ребро. Самый длинный путь в T k состоит из (k 2 -3k+4)/2 ребер и является путем от корня до листового узла, содержащего полный граф. Генерация деревьев расширения может быть выполнена с помощью простой процедуры, которая объясняется в [36] .
MODA проходит T k и, когда он извлекает деревья запросов из первого уровня T k , он вычисляет их наборы отображений и сохраняет эти отображения для следующего шага. Для недеревных запросов из T k алгоритм извлекает отображения, связанные с родительским узлом в T k , и определяет, какие из этих отображений могут поддерживать текущие графы запросов. Процесс будет продолжаться до тех пор, пока алгоритм не получит полный граф запросов. Отображения деревьев запросов извлекаются с помощью алгоритма Грохова–Келлиса. Для вычисления частоты недеревных графов запросов алгоритм использует простую процедуру, которая занимает O(1) шагов. Кроме того, MODA использует метод выборки, при котором выборка каждого узла в сети линейно пропорциональна степени узла, распределение вероятностей в точности похоже на хорошо известную модель предпочтительного присоединения Барабаши-Альберта в области сложных сетей. [37] Этот подход генерирует приближения; однако результаты почти стабильны в различных исполнениях, поскольку подграфы агрегируются вокруг высокосвязанных узлов. [38] Псевдокод MODA показан ниже:
Недавно представленный алгоритм Kavosh [39] нацелен на улучшение использования основной памяти. Kavosh может использоваться для обнаружения NM как в направленных, так и в ненаправленных сетях. Основная идея перечисления похожа на алгоритмы GK и MODA , которые сначала находят все подграфы размера k , в которых участвовал определенный узел, затем удаляют узел, а затем повторяют этот процесс для оставшихся узлов. [39]
Для подсчета подграфов размера k , включающих определенный узел, неявно строятся деревья с максимальной глубиной k, укорененные в этом узле и основанные на отношениях соседства. Дочерние элементы каждого узла включают как входящие, так и исходящие смежные узлы. Для спуска по дереву на каждом уровне выбирается дочерний элемент с ограничением, что конкретный дочерний элемент может быть включен только в том случае, если он не был включен ни на одном из верхних уровней. После спуска на самый низкий возможный уровень дерево снова поднимается, и процесс повторяется с условием, что узлы, посещенные на более ранних путях потомка, теперь считаются непосещенными узлами. Последним ограничением при построении деревьев является то, что все дочерние элементы в определенном дереве должны иметь числовые метки, превышающие метку корня дерева. Ограничения на метки дочерних элементов аналогичны условиям, которые алгоритмы GK и ESU используют для предотвращения пересчета подграфов.
Протокол извлечения подграфов использует композиции целого числа. Для извлечения подграфов размера k необходимо рассмотреть все возможные композиции целого числа k-1 . Композиции k-1 состоят из всех возможных способов выражения k-1 как суммы положительных целых чисел. Суммы, в которых порядок слагаемых отличается, считаются различными. Композиция может быть выражена как k 2 ,k 3 ,...,k m , где k 2 + k 3 + ... + k m = k-1 . Для подсчета подграфов на основе композиции выбираются k i узлов из i -го уровня дерева, которые будут узлами подграфов ( i = 2,3,...,m ). Выбранные k-1 узлов вместе с узлом в корне определяют подграф в сети. После обнаружения подграфа, вовлеченного в качестве соответствия в целевой сети, для того, чтобы иметь возможность оценить размер каждого класса в соответствии с целевой сетью, Кавош использует алгоритм nauty [28] [29] таким же образом, как и FANMOD . Перечислительная часть алгоритма Кавоша показана ниже:
Недавно для этого программного обеспечения был разработан плагин Cytoscape под названием CytoKavosh [40] . Он доступен на веб-странице Cytoscape [1].
В 2010 году Педро Рибейро и Фернандо Силва предложили новую структуру данных для хранения коллекции подграфов, называемую g-trie . [41] Эта структура данных, которая концептуально похожа на префиксное дерево, хранит подграфы в соответствии с их структурами и находит вхождения каждого из этих подграфов в более крупном графе. Одним из заметных аспектов этой структуры данных является то, что при обнаружении сетевого мотива необходимо оценить подграфы в основной сети. Таким образом, нет необходимости находить те в случайной сети, которые не находятся в основной сети. Это может быть одной из трудоемких частей в алгоритмах, в которых выводятся все подграфы в случайных сетях.
G -trie — это многоканальное дерево, которое может хранить коллекцию графов. Каждый узел дерева содержит информацию об одной вершине графа и ее соответствующих ребрах к узлам-предкам. Путь от корня к листу соответствует одному графу. Потомки узла g-trie имеют общий подграф. Построение g -trie хорошо описано в. [41] После построения g-trie происходит подсчет. Основная идея в процессе подсчета — откат по всем возможным подграфам, но в то же время выполнение тестов на изоморфизм. Этот метод отката по сути является тем же методом, который используется другими подходами, ориентированными на мотивы, такими как алгоритмы MODA и GK . Использование общих подструктур в том смысле, что в данный момент времени существует частичное изоморфное соответствие для нескольких различных подграфов-кандидатов.
Среди упомянутых алгоритмов G-Tries является самым быстрым. Однако недостатком этого алгоритма является чрезмерное использование памяти, что может ограничить размер обнаруживаемых мотивов персональным компьютером со средней памятью.
ParaMODA [42] и NemoMap [43] — быстрые алгоритмы, опубликованные в 2017 и 2018 годах соответственно. Они не так масштабируемы, как многие другие. [44]
Таблицы и рисунок ниже показывают результаты запуска упомянутых алгоритмов на различных стандартных сетях. Эти результаты взяты из соответствующих источников, [36] [39] [41], поэтому их следует рассматривать индивидуально.
Много экспериментальных работ было посвящено пониманию сетевых мотивов в сетях регуляции генов . Эти сети контролируют, какие гены экспрессируются в клетке в ответ на биологические сигналы. Сеть определяется таким образом, что гены являются узлами, а направленные ребра представляют собой контроль одного гена фактором транскрипции (регуляторным белком, который связывает ДНК), кодируемым другим геном. Таким образом, сетевые мотивы представляют собой шаблоны генов, регулирующих скорость транскрипции друг друга. При анализе сетей транскрипции видно, что одни и те же сетевые мотивы появляются снова и снова в различных организмах от бактерий до человека. Например, сеть транскрипции E. coli и дрожжей состоит из трех основных семейств мотивов, которые составляют почти всю сеть. Основная гипотеза заключается в том, что сетевой мотив был независимо выбран эволюционными процессами в конвергентной манере, [45] [46], поскольку создание или устранение регуляторных взаимодействий происходит быстро в эволюционной шкале времени относительно скорости изменения генов, [45] [46] [47] Кроме того, эксперименты по динамике, генерируемой сетевыми мотивами в живых клетках, указывают на то, что они имеют характерные динамические функции. Это предполагает, что сетевой мотив служит строительным блоком в регуляторных сетях генов, которые полезны для организма.
Функции, связанные с общими сетевыми мотивами в сетях транскрипции, были исследованы и продемонстрированы несколькими исследовательскими проектами как теоретически, так и экспериментально. Ниже приведены некоторые из наиболее распространенных сетевых мотивов и их связанная функция.
Одним из самых простых и распространенных сетевых мотивов в E. coli является отрицательная авторегуляция, при которой фактор транскрипции (TF) подавляет собственную транскрипцию. Было показано, что этот мотив выполняет две важные функции. Первая функция — ускорение реакции. Было показано, что NAR ускоряет реакцию на сигналы как теоретически [48] , так и экспериментально. Это было впервые показано в синтетической транскрипционной сети [49], а затем в естественном контексте в системе репарации ДНК SOS E. coli. [50] Вторая функция — повышенная стабильность концентрации продукта авторегулируемого гена по отношению к стохастическому шуму, тем самым уменьшая различия в уровнях белка между различными клетками. [51] [52] [53]
Положительная авторегуляция (PAR) происходит, когда фактор транскрипции увеличивает собственную скорость производства. В отличие от мотива NAR этот мотив замедляет время реакции по сравнению с простой регуляцией. [54] В случае сильного PAR мотив может привести к бимодальному распределению уровней белка в популяциях клеток. [55]
Этот мотив обычно встречается во многих генных системах и организмах. Мотив состоит из трех генов и трех регуляторных взаимодействий. Целевой ген C регулируется двумя ТФ A и B, а ТФ B также регулируется ТФ A. Поскольку каждое из регуляторных взаимодействий может быть как положительным, так и отрицательным, возможно, существует восемь типов мотивов FFL. [56] Два из этих восьми типов: когерентный тип 1 FFL (C1-FFL) (где все взаимодействия положительны) и некогерентный тип 1 FFL (I1-FFL) (A активирует C, а также активирует B, который подавляет C) встречаются в транскрипционной сети E. coli и дрожжей гораздо чаще, чем другие шесть типов. [56] [57] В дополнение к структуре схемы следует также учитывать способ, которым сигналы от A и B интегрируются промотором C. В большинстве случаев FFL представляет собой либо вентиль И (для активации C требуются A и B), либо вентиль ИЛИ (для активации C достаточно A или B), но возможны и другие функции входа.
Было показано, что C1-FFL с вентилем AND выполняет функцию элемента «чувствительной к знаку задержки» и детектора устойчивости как теоретически [56] , так и экспериментально [58] с арабинозной системой E. coli . Это означает, что этот мотив может обеспечить фильтрацию импульсов, при которой короткие импульсы сигнала не будут генерировать ответ, но постоянные сигналы будут генерировать ответ после короткой задержки. Выключение выхода при окончании постоянного импульса будет быстрым. Противоположное поведение возникает в случае суммирующего вентиля с быстрым ответом и отложенным выключением, как было продемонстрировано в системе жгутиков E. coli . [59] Эволюция de novo C1-FFL в сетях регуляции генов была продемонстрирована вычислительно в ответ на отбор для фильтрации идеализированного короткого импульса сигнала, но для неидеализированного шума вместо этого была выбрана система динамической прямой регуляции с другой топологией. [60]
I1-FFL является генератором импульсов и ускорителем ответа. Два сигнальных пути I1-FFL действуют в противоположных направлениях, где один путь активирует Z, а другой подавляет его. Когда репрессия завершена, это приводит к импульсоподобной динамике. Также было экспериментально продемонстрировано, что I1-FFL может служить ускорителем ответа способом, который аналогичен мотиву NAR. Разница в том, что I1-FFL может ускорять ответ любого гена, а не обязательно гена фактора транскрипции. [61] Дополнительная функция была назначена сетевому мотиву I1-FFL: было показано и теоретически, и экспериментально, что I1-FFL может генерировать немонотонную входную функцию как в синтетических [62] , так и в нативных системах. [63] Наконец, единицы экспрессии, которые включают некогерентный прямой контроль продукта гена, обеспечивают адаптацию к количеству шаблона ДНК и могут превосходить простые комбинации конститутивных промоторов. [64] Прямая регуляция показала лучшую адаптацию, чем отрицательная обратная связь , и схемы, основанные на интерференции РНК, оказались наиболее устойчивыми к изменению количества ДНК-шаблонов. [64] Эволюция de novo I1-FFL в сетях регуляции генов была продемонстрирована вычислительно в ответ на отбор для генерации импульса, при этом I1-FFL были более эволюционно доступны, но не превосходили альтернативный мотив, в котором репрессор активируется выходом, а не входом. [65]
В некоторых случаях одни и те же регуляторы X и Y регулируют несколько генов Z одной и той же системы. Было показано, что, регулируя силу взаимодействий, этот мотив определяет временной порядок активации генов. Это было экспериментально продемонстрировано в системе жгутиков E. coli . [66]
Этот мотив возникает, когда один регулятор регулирует набор генов без дополнительной регуляции. Это полезно, когда гены кооперативно выполняют определенную функцию и поэтому всегда должны активироваться синхронно. Регулируя силу взаимодействий, он может создать временную программу экспрессии генов, которые он регулирует. [67]
В литературе Multiple-input modules (MIM) возник как обобщение SIM. Однако точные определения SIM и MIM были источником непоследовательности. Существуют попытки предоставить ортогональные определения для канонических мотивов в биологических сетях и алгоритмов для их перечисления, особенно SIM, MIM и Bi-Fan (2x2 MIM). [68]
Этот мотив возникает в случае, когда несколько регуляторов комбинаторно контролируют набор генов с различными регуляторными комбинациями. Этот мотив был обнаружен в E. coli в различных системах, таких как утилизация углерода, анаэробный рост, реакция на стресс и другие. [17] [22] Чтобы лучше понять функцию этого мотива, необходимо получить больше информации о том, как множественные входы интегрируются генами. Каплан и др. [69] составили карту входных функций генов утилизации сахара в E. coli , показав различные формы.
Интересное обобщение сетевых мотивов, мотивы активности являются более часто встречающимися паттернами, которые можно обнаружить, когда узлы и ребра в сети аннотируются количественными характеристиками. Например, когда ребра в метаболических путях аннотируются величиной или временем соответствующего генного выражения, некоторые паттерны являются более часто встречающимися, учитывая базовую сетевую структуру. [70]
Предположение (иногда более иногда менее неявное) в основе сохранения топологической подструктуры заключается в том, что она имеет особое функциональное значение. Это предположение недавно было подвергнуто сомнению. Некоторые авторы утверждали, что мотивы, такие как мотивы би-веера , могут показывать разнообразие в зависимости от контекста сети, и поэтому [71] структура мотива не обязательно определяет функцию. Структура сети, безусловно, не всегда указывает на функцию; эта идея существует уже некоторое время, например, см. оперон Sin. [72]
Большинство анализов функции мотива проводятся с учетом мотива, работающего изолированно. Недавние исследования [73] дают убедительные доказательства того, что сетевой контекст, т. е. связи мотива с остальной частью сети, слишком важен, чтобы делать выводы о функции только из локальной структуры — в цитируемой статье также рассматриваются критические замечания и альтернативные объяснения наблюдаемых данных. Анализ влияния одного модуля мотива на глобальную динамику сети изучается в. [74] Еще одна недавняя работа предполагает, что определенные топологические особенности биологических сетей естественным образом приводят к общему появлению канонических мотивов, тем самым подвергая сомнению, являются ли частоты появления разумным доказательством того, что структуры мотивов выбираются по их функциональному вкладу в работу сетей. [75] [76]
{{cite encyclopedia}}
: |journal=
проигнорировано ( помощь )