Вывод о биологических сетях — это процесс формирования выводов и прогнозов относительно биологических сетей . [1] Используя эти сети для анализа закономерностей в биологических системах, таких как пищевые сети, мы можем визуализировать природу и силу этих взаимодействий между видами, ДНК, белками и многим другим.
Анализ биологических сетей в отношении заболеваний привел к развитию области сетевой медицины . [2] Недавние примеры применения теории сетей в биологии включают приложения для понимания клеточного цикла [3] , а также количественную структуру для процессов развития. [4] Хороший сетевой вывод требует надлежащего планирования и проведения эксперимента, тем самым гарантируя получение качественных данных. Оптимальный экспериментальный дизайн в принципе относится к использованию статистических и/или математических концепций для планирования получения данных. Это должно быть сделано таким образом, чтобы информационное содержание данных было обогащено, и было собрано достаточное количество данных с достаточным количеством технических и биологических повторов, где это необходимо. [ необходима цитата ]
Общий цикл моделирования биологических сетей выглядит следующим образом: [ необходима ссылка ]
Сеть — это набор узлов и набор направленных или ненаправленных ребер между узлами. Существует множество типов биологических сетей, включая транскрипционные, сигнальные и метаболические. Мало таких сетей известно в чем-либо приближающемся к их полной структуре, даже в простейших бактериях . Еще меньше известно о параметрах, управляющих поведением таких сетей с течением времени, о том, как взаимодействуют сети на разных уровнях в клетке, и о том, как предсказать полное описание состояния эукариотической клетки или бактериального организма в заданной точке в будущем. Системная биология , в этом смысле, все еще находится в зачаточном состоянии [ необходима цитата ] .
Сетевая медицина представляет большой интерес для моделирования биологических систем . В этой статье основное внимание уделяется выводу структуры биологической сети с использованием растущих наборов данных высокопроизводительной экспрессии для генов , белков и метаболитов . [10] Вкратце, методы, использующие высокопроизводительные данные для вывода регуляторных сетей, основаны на поиске шаблонов частичной корреляции или условных вероятностей, которые указывают на причинное влияние. [7] [11] Такие шаблоны частичной корреляции, обнаруженные в высокопроизводительных данных, возможно, в сочетании с другими дополнительными данными о генах или белках в предлагаемых сетях или в сочетании с другой информацией об организме, формируют основу, на которой работают такие алгоритмы . Такие алгоритмы могут быть полезны для вывода топологии любой сети, где изменение состояния одного узла может повлиять на состояние других узлов.
Гены являются узлами, а ребра направлены. Ген служит источником прямого регуляторного края для целевого гена, производя молекулу РНК или белка, которая функционирует как транскрипционный активатор или ингибитор целевого гена. Если ген является активатором, то он является источником положительной регуляторной связи; если ингибитором, то он является источником отрицательной регуляторной связи. Вычислительные алгоритмы принимают в качестве первичных входных данных измерения уровней экспрессии мРНК генов, рассматриваемых для включения в сеть, возвращая оценку топологии сети . Такие алгоритмы, как правило, основаны на предположениях линейности, независимости или нормальности, которые должны проверяться в каждом конкретном случае. [12] Кластеризация или некоторая форма статистической классификации обычно используется для выполнения начальной организации значений экспрессии мРНК с высокой пропускной способностью, полученных в ходе экспериментов с микрочипами, в частности, для выбора наборов генов в качестве кандидатов для узлов сети. [13] Тогда возникает вопрос: как результаты кластеризации или классификации могут быть связаны с базовой биологией? Такие результаты могут быть полезны для классификации паттернов — например, для классификации подтипов рака или для прогнозирования дифференциальных ответов на лекарство (фармакогеномика). Но чтобы понять взаимосвязи между генами, то есть более точно определить влияние каждого гена на другие, ученый обычно пытается реконструировать транскрипционную регуляторную сеть.
Сеть коэкспрессии генов представляет собой неориентированный граф , в котором каждый узел соответствует гену , а пара узлов соединяется ребром, если между ними существует значимая связь коэкспрессии .
Сигнальные сети передачи используют белки для узлов и направленных ребер для представления взаимодействия, в котором биохимическая конформация потомка изменяется под действием родителя (например, опосредованно фосфорилированием , убиквитинированием, метилированием и т. д.). Первичным входом в алгоритм вывода будут данные из набора экспериментов, измеряющих активацию/инактивацию белка (например, фосфорилирование/дефосфорилирование) по набору белков. Вывод для таких сигнальных сетей осложняется тем фактом, что общие концентрации сигнальных белков будут колебаться с течением времени из-за транскрипционной и трансляционной регуляции. Такие вариации могут привести к статистическому смешению . Соответственно, для анализа таких наборов данных должны применяться более сложные статистические методы. [14] (очень важно в биологии рака)
Сети метаболитов используют узлы для представления химических реакций и направленные ребра для метаболических путей и регуляторных взаимодействий, которые направляют эти реакции. Первичным вводом в алгоритм будут данные из набора экспериментов по измерению уровней метаболитов.
Одна из наиболее интенсивно изучаемых сетей в биологии , сети белок-белкового взаимодействия (PIN) визуализируют физические отношения между белками внутри клетки. В PIN белки являются узлами, а их взаимодействия — ненаправленными ребрами. PIN можно обнаружить различными методами, включая: Двугибридный скрининг , in vitro : коиммунопреципитация , [15] синий нативный гель-электрофорез, [16] и другие. [17]
Нейронная сеть составлена для представления нейронов с каждым узлом и синапсами для ребер, которые обычно взвешены и направлены. веса ребер обычно регулируются активацией связанных узлов. Сеть обычно организована во входные слои, скрытые слои и выходные слои.
Пищевая сеть — это взаимосвязанный направленный граф того, что ест что в экосистеме. Члены экосистемы являются узлами, и если член ест другого члена, то между этими двумя узлами возникает направленное ребро.
Эти сети определяются набором парных взаимодействий между и внутри вида, который используется для понимания структуры и функции более крупных экологических сетей . [18] Используя сетевой анализ, мы можем обнаружить и понять, как эти взаимодействия связываются вместе в сети системы. Он также позволяет нам количественно оценить ассоциации между особями, что позволяет делать выводы о сети в целом на уровне вида и/или популяции. [19]
Сети ДНК-ДНК хроматина используются для выяснения активации или подавления генов через относительное расположение нитей хроматина . Эти взаимодействия можно понять, проанализировав общности среди различных локусов , фиксированное положение на хромосоме , где находится определенный ген или генетический маркер . Сетевой анализ может оказать жизненно важную поддержку в понимании взаимоотношений между различными областями генома.
Сеть регуляции генов [20] представляет собой набор молекулярных регуляторов, которые взаимодействуют друг с другом и с другими веществами в клетке. Регулятором может быть ДНК , РНК , белок и их комплексы. Сети регуляции генов можно моделировать различными способами, включая: Связанные обыкновенные дифференциальные уравнения, Булевы сети, Непрерывные сети и Стохастические генные сети.
Исходные данные, используемые для вывода, могут оказать огромное влияние на точность окончательного вывода. Сетевые данные по своей природе зашумлены и неполны, иногда из-за свидетельств из нескольких источников, которые не перекрываются или противоречат друг другу. Данные могут быть получены разными способами, включая ручное курирование научной литературы, помещенной в базы данных, высокопроизводительные наборы данных, вычислительные прогнозы и интеллектуальный анализ текста старых научных статей, написанных до цифровой эры.
Диаметр сети — это максимальное число шагов, разделяющих любые два узла, и может использоваться для определения степени связности графа в топологическом анализе и кластерном анализе.
Коэффициент транзитивности или кластеризации сети является мерой тенденции узлов к кластеризации. Высокая транзитивность означает, что сеть содержит сообщества или группы узлов, которые плотно связаны внутри. В биологических сетях нахождение этих сообществ очень важно, поскольку они могут отражать функциональные модули и белковые комплексы [21]. Неопределенность относительно связности может исказить результаты и должна учитываться при вычислении транзитивности и других топологических дескрипторов для выведенных сетей. [9]
Сетевая уверенность — это способ измерить, насколько можно быть уверенным в том, что сеть представляет реальное биологическое взаимодействие. Мы можем сделать это с помощью контекстной биологической информации, подсчитав количество случаев, когда взаимодействие упоминается в литературе, или сгруппировать различные стратегии в одну оценку. Метод MIscore для оценки надежности данных о белок-белковом взаимодействии основан на использовании стандартов. [22] MIscore дает оценку веса уверенности по всем доступным доказательствам для взаимодействующей пары белков. Метод позволяет взвешивать доказательства, предоставленные разными источниками, при условии, что данные представлены в соответствии со стандартами, созданными консорциумом IMEx. Весами являются количество публикаций, метод обнаружения, тип доказательства взаимодействия.
Близость, также известная как центральность близости, является мерой центральности в сети и рассчитывается как обратная величина суммы длины кратчайших путей между узлом и всеми другими узлами в графе. Эта мера может использоваться для выводов во всех типах графов и методах анализа.
Betweeness, или middleness centrality, является мерой центральности в графе, основанной на кратчайших путях. Betweenness для каждого узла — это количество этих кратчайших путей, которые проходят через узел.
Для наших целей сетевой анализ тесно связан с теорией графов . Измеряя атрибуты в предыдущем разделе, мы можем использовать множество различных методов для создания точных выводов на основе биологических данных.
Анализ топологии анализирует топологию сети для выявления соответствующих участников и подструктур, которые могут иметь биологическое значение. Термин охватывает целый класс методов, таких как поиск сетевых мотивов , анализ центральности, топологическая кластеризация и кратчайшие пути. Это всего лишь несколько примеров, каждый из этих методов использует общую идею фокусировки на топологии сети для вынесения выводов.
Мотив определяется как частый и уникальный подграф. Подсчитывая все возможные случаи, перечисляя все шаблоны и проверяя изоморфизмы, мы можем получить важную информацию о сети. Предполагается, что они являются основными строительными блоками сложных биологических сетей. Вычислительные исследования были сосредоточены на улучшении существующих инструментов обнаружения мотивов для содействия биологическим исследованиям и обеспечения возможности анализа более крупных сетей. На данный момент было предоставлено несколько различных алгоритмов, которые подробно описаны в следующем разделе.
Центральность дает оценку того, насколько важен узел или ребро для связности или информационного потока сети. Это полезный параметр в сигнальных сетях, и он часто используется при попытке найти цели для лекарств. [23] Он чаще всего используется в PIN для определения важных белков и их функций. Центральность может быть измерена разными способами в зависимости от графика и вопроса, на который необходимо ответить, они включают степень узлов или количество связанных ребер к узлу, глобальные меры центральности или с помощью случайных блужданий, которые используются алгоритмом Google PageRank для назначения веса каждой веб-странице. [24] Меры центральности могут быть затронуты ошибками из-за шума при измерении и другими причинами. [25] Поэтому топологические дескрипторы должны быть определены как случайная величина с соответствующим распределением вероятностей, кодирующим неопределенность их значения. [9]
Топологическая кластеризация или топологический анализ данных (TDA) обеспечивает общую структуру для анализа многомерных, неполных и шумных данных таким образом, чтобы уменьшить размерность и обеспечить устойчивость к шуму. Идея заключается в том, что форма наборов данных содержит релевантную информацию. Когда эта информация является группой гомологии , существует математическая интерпретация, которая предполагает, что признаки, которые сохраняются для широкого диапазона параметров, являются «истинными» признаками, а признаки, сохраняющиеся только для узкого диапазона параметров, являются шумом, хотя теоретическое обоснование этого неясно. [26] Этот метод использовался для анализа прогрессирования заболеваний, [27] [28] вирусной эволюции, [29] распространения инфекций в сетях, [30] классификации бактерий с использованием молекулярной спектроскопии, [31] и многого другого в биологии и за ее пределами.
Задача о кратчайшем пути — это распространенная задача в теории графов, которая пытается найти путь между двумя вершинами (или узлами) в графе таким образом, чтобы сумма весов его составляющих ребер была минимизирована. Этот метод можно использовать для определения диаметра сети или избыточности в сети. Для этого существует множество алгоритмов, включая алгоритм Дейкстры , алгоритм Беллмана–Форда и алгоритм Флойда–Уоршелла , и это лишь некоторые из них.
Кластерный анализ группирует объекты (узлы) таким образом, что объекты в одном кластере более похожи друг на друга, чем на объекты в других кластерах. Это может быть использовано для распознавания образов , анализа изображений , поиска информации , статистического анализа данных и многого другого. Он имеет приложения в экологии растений и животных , анализе последовательностей, анализе антимикробной активности и многих других областях. Алгоритмы кластерного анализа также существуют во многих формах, таких как иерархическая кластеризация , кластеризация k-средних , кластеризация на основе распределения, кластеризация на основе плотности и кластеризация на основе сетки.
Базы данных аннотаций генов обычно используются для оценки функциональных свойств экспериментально полученных наборов генов. Анализ обогащения аннотаций (AEA) используется для преодоления смещений от перекрывающихся статистических методов, используемых для оценки этих ассоциаций. [32] Он делает это, используя аннотации генов/белков, чтобы сделать вывод о том, какие аннотации перепредставлены в списке генов/белков, взятых из сети.