Биологическая сеть — это метод представления систем в виде сложных наборов бинарных взаимодействий или отношений между различными биологическими сущностями. [1] В общем случае сети или графы используются для фиксации отношений между сущностями или объектами. [1] Типичное графическое представление состоит из набора узлов, соединенных ребрами .
Еще в 1736 году Леонард Эйлер проанализировал реальную проблему, известную как « Семь мостов Кёнигсберга» , которая заложила основу теории графов . С 1930-х по 1950-е годы развивалось изучение случайных графов . В середине 1990-х годов было обнаружено, что многие различные типы «реальных» сетей имеют структурные свойства, существенно отличающиеся от случайных сетей. [2] В конце 2000-х годов безмасштабные сети и сети малого мира начали формировать возникновение системной биологии, сетевой биологии и сетевой медицины. [1] В 2014 году методы теории графов были использованы Франком Эммертом-Штрайбом для анализа биологических сетей.
В 1980-х годах исследователи начали рассматривать ДНК или геномы как динамическое хранилище языковой системы с точными вычислимыми конечными состояниями , представленными в виде конечного автомата . [3] Недавние исследования сложных систем также предположили некоторую далеко идущую общность в организации информации в задачах из биологии, информатики и физики .
Сети белок-белковых взаимодействий (PIN) представляют собой физические отношения между белками, присутствующими в клетке, где белки являются узлами , а их взаимодействия - ненаправленными ребрами . [4] Из-за их ненаправленной природы трудно идентифицировать все белки, участвующие во взаимодействии. Белок-белковые взаимодействия (PPI) имеют важное значение для клеточных процессов, а также являются наиболее интенсивно анализируемыми сетями в биологии. PPI могут быть обнаружены различными экспериментальными методами, среди которых дрожжевая двухгибридная система является широко используемым методом для изучения бинарных взаимодействий. [5] Недавно высокопроизводительные исследования с использованием масс-спектрометрии выявили большие наборы белковых взаимодействий. [6]
Многие международные усилия привели к созданию баз данных, в которых каталогизируются экспериментально определенные белок-белковые взаимодействия. Некоторые из них — Human Protein Reference Database , Database of Interacting Proteins , Molecular Interaction Database (MINT), [7] IntAct, [8] и BioGRID . [9] В то же время было предложено несколько вычислительных подходов для прогнозирования взаимодействий. [10] FunCoup и STRING являются примерами таких баз данных, в которых белок-белковые взаимодействия, выведенные из множества доказательств, собираются и предоставляются для публичного использования.
Недавние исследования показали сохранение молекулярных сетей на протяжении глубоких эволюционных времен. [11] Более того, было обнаружено, что белки с высокой степенью связанности с большей вероятностью будут необходимы для выживания, чем белки с меньшей степенью. [12] Это наблюдение предполагает, что общий состав сети (а не просто взаимодействия между парами белков) имеет жизненно важное значение для общего функционирования организма.
Геном кодирует тысячи генов, продукты которых ( мРНК , белки) имеют решающее значение для различных процессов жизни, таких как дифференциация клеток, выживание клеток и метаболизм. Гены производят такие продукты посредством процесса, называемого транскрипцией, который регулируется классом белков, называемых факторами транскрипции . Например, геном человека кодирует почти 1500 ДНК-связывающих факторов транскрипции, которые регулируют экспрессию более 20 000 человеческих генов. [13] Полный набор продуктов генов и взаимодействия между ними составляют сети регуляции генов (GRN). GRN регулируют уровни продуктов генов внутри клетки и, в свою очередь, клеточные процессы.
GRN представлены генами и транскрипционными факторами как узлами, а отношения между ними как ребрами. Эти ребра направлены, представляя регуляторные отношения между двумя концами ребра. Например, направленное ребро от гена A к гену B указывает на то, что A регулирует экспрессию B. Таким образом, эти направленные ребра могут представлять не только продвижение регуляции гена, но и ее ингибирование.
GRN обычно конструируются с использованием знаний о регуляции генов, доступных в таких базах данных, как Reactome и KEGG . Высокопроизводительные измерительные технологии, такие как микрочипы , РНК-Seq , ChIP-chip и ChIP-seq , позволили накопить крупномасштабные транскриптомные данные, которые могут помочь в понимании сложных моделей регуляции генов. [14] [15]
Сети коэкспрессии генов можно воспринимать как сети ассоциаций между переменными, которые измеряют распространенность транскриптов. Эти сети использовались для проведения системного биологического анализа данных ДНК-микрочипов, данных РНК-секвенирования, данных микроРНК и т. д. Анализ сетей коэкспрессии взвешенных генов широко используется для идентификации модулей коэкспрессии и генов внутримодульных концентраторов. [16] Модули коэкспрессии могут соответствовать типам клеток или путям, в то время как высокосвязанные внутримодульные концентраторы могут интерпретироваться как представители их соответствующих модулей.
Клетки расщепляют пищу и питательные вещества на небольшие молекулы, необходимые для клеточной обработки, посредством серии биохимических реакций. Эти биохимические реакции катализируются ферментами . Полный набор всех этих биохимических реакций во всех путях представляет собой метаболическую сеть . В метаболической сети небольшие молекулы играют роль узлов, и они могут быть либо углеводами, липидами, либо аминокислотами. Реакции, которые преобразуют эти небольшие молекулы из одной формы в другую, представлены в виде ребер. Можно использовать сетевой анализ, чтобы сделать вывод о том, как отбор действует на метаболические пути. [17]
Сигналы передаются внутри клеток или между клетками и, таким образом, образуют сложные сигнальные сети, которые играют ключевую роль в структуре ткани. Например, путь MAPK/ERK передается с поверхности клетки в ядро клетки посредством серии белок-белковых взаимодействий, реакций фосфорилирования и других событий. [18] Сигнальные сети обычно объединяют сети белок-белковых взаимодействий , сети регуляции генов и метаболические сети . [19] [20] Технологии секвенирования отдельных клеток позволяют извлекать межклеточную сигнализацию, примером является NicheNet, которая позволяет моделировать межклеточную коммуникацию путем связывания лигандов с целевыми генами. [21]
Сложные взаимодействия в мозге делают его идеальным кандидатом для применения теории сетей. Нейроны в мозге глубоко связаны друг с другом, и это приводит к тому, что сложные сети присутствуют в структурных и функциональных аспектах мозга. [22] Например, свойства сетей малого мира были продемонстрированы в связях между корковыми областями мозга приматов [23] или во время глотания у людей. [24] Это говорит о том, что корковые области мозга не взаимодействуют друг с другом напрямую, но большинство областей могут быть достигнуты из всех других посредством всего лишь нескольких взаимодействий.
Все организмы связаны через взаимодействие при питании. Если вид ест или съедается другим видом, они связаны в сложной пищевой сети взаимодействий хищника и добычи. Устойчивость этих взаимодействий была давним вопросом в экологии. [25] То есть, если определенные особи удаляются, что происходит с сетью (т. е. она разрушается или адаптируется)? Сетевой анализ можно использовать для исследования стабильности пищевой сети и определения того, приводят ли определенные свойства сети к более стабильным сетям. Более того, сетевой анализ можно использовать для определения того, как выборочное удаление видов повлияет на пищевую сеть в целом. [26] Это особенно важно, учитывая потенциальную потерю видов из-за глобального изменения климата.
В биологии парные взаимодействия исторически были в центре внимания интенсивного изучения. С недавними достижениями в области сетевой науки стало возможным масштабировать парные взаимодействия, чтобы включить особей многих видов, вовлеченных во многие наборы взаимодействий, чтобы понять структуру и функцию более крупных экологических сетей . [27] Использование сетевого анализа может позволить как открыть, так и понять, как эти сложные взаимодействия связываются вместе в сети системы, свойство, которое ранее игнорировалось. Этот мощный инструмент позволяет изучать различные типы взаимодействий (от конкурентных до кооперативных ), используя одну и ту же общую структуру. [28] Например, взаимодействия растений и опылителей являются взаимовыгодными и часто включают множество различных видов опылителей, а также множество различных видов растений. Эти взаимодействия имеют решающее значение для воспроизводства растений и, таким образом, накопления ресурсов в основании пищевой цепи для первичных потребителей, однако эти сети взаимодействия находятся под угрозой из-за антропогенных изменений. Использование сетевого анализа может пролить свет на то, как работают сети опыления , и может, в свою очередь, информировать об усилиях по сохранению. [29] В сетях опыления вложенность (т. е. специалисты взаимодействуют с подмножеством видов, с которыми взаимодействуют универсалы), избыточность (т. е. большинство растений опыляются многими опылителями) и модульность играют большую роль в стабильности сети. [29] [30] Эти свойства сети могут фактически работать, чтобы замедлить распространение эффектов возмущения по системе и потенциально в некоторой степени защитить сеть опыления от антропогенных изменений. [30] В более общем плане, структура взаимодействий видов в экологической сети может рассказать нам кое-что о разнообразии, богатстве и надежности сети. [31] Исследователи могут даже сравнивать современные конструкции сетей взаимодействия видов с историческими реконструкциями древних сетей, чтобы определить, как сети менялись с течением времени. [32] Многие исследования этих сложных сетей взаимодействия видов в значительной степени сосредоточены на понимании того, какие факторы (например, богатство видов, связанность, природа физической среды) приводят к стабильности сети. [33] [34]
Сетевой анализ дает возможность количественно оценить связи между особями, что позволяет делать выводы о сети в целом на уровне вида и/или популяции. [35] Одной из наиболее привлекательных особенностей сетевой парадигмы является то, что она предоставляет единую концептуальную структуру, в которой можно изучать социальную организацию животных на всех уровнях (индивидуальный, диадный, групповой, популяционный) и для всех типов взаимодействия (агрессивное, кооперативное, сексуальное и т. д.). [36]
Исследователи, интересующиеся этологией во многих таксонах, от насекомых до приматов, начинают включать сетевой анализ в свои исследования. Исследователи, интересующиеся социальными насекомыми (например, муравьями и пчелами), использовали сетевой анализ, чтобы лучше понять разделение труда, распределение задач и оптимизацию добычи пищи в колониях. [37] [38] [39] Другие исследователи интересуются тем, как специфические свойства сети на уровне группы и/или популяции могут объяснить поведение на индивидуальном уровне. Исследования продемонстрировали, как на структуру социальной сети животных могут влиять факторы, варьирующиеся от характеристик окружающей среды до характеристик индивидуума, таких как опыт развития и личность. На уровне индивидуума структура социальных связей может быть важным фактором, определяющим приспособленность , предсказывая как выживание, так и репродуктивный успех. На уровне популяции структура сети может влиять на структуру экологических и эволюционных процессов, таких как частотно-зависимый отбор , а также передача информации и болезней. [40] Например, исследование манакинов с проволочным хвостом (небольшая воробьиная птица) показало, что степень самца в сети в значительной степени предсказывает его способность подниматься в социальной иерархии (т. е. в конечном итоге получать территорию и спаривание). [41] В группах дельфинов-афалин степень особи и значения центральности посредничества могут предсказать, будет ли эта особь демонстрировать определенное поведение, например, использование бокового хлопанья и перевернутого броска, чтобы возглавить групповые усилия по перемещению; особи с высокими значениями промежуточности более связаны и могут получать больше информации, и, таким образом, лучше подходят для руководства групповыми перемещениями и, следовательно, склонны демонстрировать это сигнальное поведение чаще, чем другие члены группы. [42]
Анализ социальных сетей также может быть использован для описания социальной организации внутри вида в более общем плане, что часто выявляет важные приблизительные механизмы, способствующие использованию определенных поведенческих стратегий. Эти описания часто связаны с экологическими свойствами (например, распределением ресурсов). Например, сетевой анализ выявил тонкие различия в групповой динамике двух родственных видов непарнокопытных, зебры Греви и онагров , живущих в изменчивых средах; зебры Греви демонстрируют отчетливые предпочтения в выборе ассоциаций, когда они делятся на более мелкие группы, тогда как онагры этого не делают. [43] Аналогичным образом, исследователи, интересующиеся приматами, также использовали сетевой анализ для сравнения социальных организаций в различных отрядах приматов , предполагая, что использование сетевых мер (таких как центральность , ассортативность , модульность и промежуточность) может быть полезным с точки зрения объяснения типов социального поведения, которые мы видим в определенных группах, но не в других. [44]
Наконец, анализ социальных сетей также может выявить важные колебания в поведении животных в изменяющихся условиях. Например, анализ сетей у самок павианов чакма ( Papio hamadryas ursinus ) выявил важные динамические изменения в зависимости от сезона, которые ранее были неизвестны; вместо создания стабильных, долгосрочных социальных связей с друзьями, было обнаружено, что павианы демонстрируют более изменчивые отношения, которые зависят от краткосрочных обстоятельств, связанных с динамикой на уровне группы, а также изменчивостью окружающей среды. [45] Изменения в среде социальных сетей индивидуума также могут влиять на такие характеристики, как «личность»: например, социальные пауки, которые ютятся с более смелыми соседями, как правило, также становятся смелее. [46] Это очень небольшой набор общих примеров того, как исследователи могут использовать сетевой анализ для изучения поведения животных. Исследования в этой области в настоящее время расширяются очень быстро, особенно с учетом того, что более широкое развитие меток, переносимых животными, и компьютерного зрения может использоваться для автоматизации сбора социальных ассоциаций. [47] Анализ социальных сетей является ценным инструментом для изучения поведения животных всех видов и может раскрыть новую информацию о поведении животных и социальной экологии, которая ранее была плохо изучена.
В ядре ДНК постоянно находится в движении. Постоянные действия, такие как сворачивание генома и выдавливание когезина, изменяют форму генома в реальном времени. Пространственное расположение нитей хроматина относительно друг друга играет важную роль в активации или подавлении определенных генов. Сети ДНК-ДНК-хроматина помогают биологам понять эти взаимодействия, анализируя общие черты среди различных локусов . Размер сети может значительно варьироваться, от нескольких генов до нескольких тысяч, и, таким образом, сетевой анализ может оказать жизненно важную поддержку в понимании взаимосвязей между различными областями генома. Например, анализ пространственно схожих локусов в организации в ядре с помощью картирования архитектуры генома (GAM) может использоваться для построения сети локусов с краями, представляющими высокосвязанные геномные области.
Первый график демонстрирует область Hist1 генома мыши mm9, где каждый узел представляет геномные локусы. Два узла соединены ребром, если их неравновесное сцепление больше среднего по всем 81 геномным окнам. Расположение узлов на графике выбирается случайным образом, а методология выбора ребер дает простое для показа, но элементарное графическое представление взаимосвязей в наборе данных. Второй визуальный пример иллюстрирует ту же информацию, что и предыдущий; Однако сеть начинается с того, что каждый локус последовательно размещается в кольцевой конфигурации. Затем она объединяет узлы, используя линейную интерполяцию по их сцеплению в процентах. Рисунок иллюстрирует сильные связи между центральными геномными окнами, а также краевыми локусами в начале и конце области Hist1.
Чтобы извлечь полезную информацию из биологической сети, жизненно важно понимать статистические и математические методы определения взаимосвязей внутри сети. Процедуры определения ассоциации, сообществ и центральности в узлах биологической сети могут дать представление о взаимосвязях всего, что представляют узлы, будь то гены, виды и т. д. Формулировка этих методов выходит за рамки дисциплин и в значительной степени опирается на теорию графов , информатику и биоинформатику .
Существует множество различных способов измерения взаимосвязей узлов при анализе сети. Во многих случаях мера, используемая для поиска узлов, которые имеют сходство в сети, специфична для приложения, в котором она используется. Одним из типов мер, используемых биологами, является корреляция , которая конкретно сосредоточена вокруг линейной связи между двумя переменными. [48] Например, взвешенный анализ сети коэкспрессии генов использует корреляцию Пирсона для анализа связанной экспрессии генов и понимания генетики на системном уровне. [49] Другой мерой корреляции является неравновесие сцепления . Неравновесие сцепления описывает неслучайную ассоциацию генетических последовательностей среди локусов в данной хромосоме. [50] Примером его использования является обнаружение взаимосвязей в данных GAM по геномным интервалам на основе частот обнаружения определенных локусов. [51]
Концепция центральности может быть чрезвычайно полезна при анализе структур биологических сетей. Существует множество различных методов измерения центральности, таких как промежуточность, степень, собственный вектор и центральность Каца. Каждый тип техники центральности может предоставить различное представление об узлах в конкретной сети; Однако все они имеют общую черту, заключающуюся в том, что они должны измерять значимость узла в сети. [52] В 2005 году исследователи из Гарвардской медицинской школы использовали меры центральности с сетью взаимодействия дрожжевых белков. Они обнаружили, что белки, которые демонстрируют высокую промежуточность центральности, были более существенными и транслировались близко к эволюционному возрасту данного белка. [53]
Изучение структуры сообщества сети путем подразделения групп узлов на подобные регионы может быть неотъемлемым инструментом для биоинформатики при исследовании данных как сети. [54] Пищевая сеть болота средней школы Secaucus иллюстрирует преимущества группировки, поскольку связи между узлами гораздо легче анализировать с помощью хорошо организованных сообществ. В то время как первый график трудно визуализировать, второй обеспечивает лучшее представление карманов высокосвязанных отношений питания, которые можно было бы ожидать в пищевой сети. Проблема обнаружения сообщества по-прежнему остается актуальной. Ученые и теоретики графов постоянно открывают новые способы подразделения сетей, и, таким образом, существует множество различных алгоритмов для создания этих отношений. [55] Как и многие другие инструменты, которые биологи используют для понимания данных с помощью сетевых моделей, каждый алгоритм может предоставить свое собственное уникальное понимание и может сильно различаться по таким аспектам, как точность или временная сложность расчета. В 2002 году пищевая сеть морских млекопитающих в Чесапикском заливе была разделена на сообщества биологами с использованием алгоритма обнаружения сообществ, основанного на соседях узлов с высокой степенью центральности. Полученные сообщества показали значительный разрыв в пелагических и бентосных организмах. [56] Два очень распространенных алгоритма обнаружения сообществ для биологических сетей — это метод Лувена и алгоритм Лейдена.
Метод Лувена — это жадный алгоритм , который пытается максимизировать модульность , что благоприятствует тяжелым ребрам внутри сообществ и редким ребрам между ними в пределах набора узлов. Алгоритм начинается с того, что каждый узел находится в своем собственном сообществе и итеративно добавляется к сообществу конкретного узла, которое благоприятствует более высокой модульности. [57] [58] Как только не может произойти увеличения модульности путем присоединения узлов к сообществу, новая взвешенная сеть строится из сообществ как узлов с ребрами, представляющими ребра между сообществами, и петлями, представляющими ребра внутри сообщества. Процесс продолжается до тех пор, пока не произойдет никакого увеличения модульности. [59] Хотя метод Лувена обеспечивает хорошее обнаружение сообществ, есть несколько способов, которыми он ограничен. В основном фокусируясь на максимизации заданной меры модульности, он может привести к созданию плохо связанных сообществ путем ухудшения модели ради максимизации метрики модульности; Тем не менее, метод Лувена работает справедливо и его можно легко понять по сравнению со многими другими алгоритмами обнаружения сообществ. [58]
Алгоритм Лейдена расширяет метод Лувена, предоставляя ряд улучшений. При присоединении узлов к сообществу учитываются только те районы, которые были недавно изменены. Это значительно повышает скорость слияния узлов. Другая оптимизация находится на этапе уточнения, на котором алгоритм случайным образом выбирает узел из набора сообществ для слияния. Это обеспечивает большую глубину в выборе сообществ, поскольку Лувен фокусируется исключительно на максимизации выбранной модульности. Алгоритм Лейдена, хотя и более сложный, чем Лувен, работает быстрее с лучшим обнаружением сообществ и может быть ценным инструментом для идентификации групп. [58]
Сетевые мотивы или статистически значимые повторяющиеся паттерны взаимодействия в сети являются широко используемым инструментом для понимания биологических сетей. Основной пример использования сетевых мотивов — нейрофизиология , где анализ мотивов обычно используется для понимания взаимосвязанных нейронных функций в различных масштабах. [60] Например, в 2017 году исследователи из Пекинского педагогического университета проанализировали высокопредставленные 2- и 3-узловые сетевые мотивы в направленных функциональных сетях мозга, созданных с помощью данных фМРТ в состоянии покоя, чтобы изучить основные механизмы в потоке мозговой информации. [61]