Вычислительная биология относится к использованию анализа данных , математического моделирования и компьютерного моделирования для понимания биологических систем и взаимоотношений. [1] Эта область, являющаяся пересечением информатики , биологии и больших данных , также имеет основы прикладной математики , химии и генетики . [2] Он отличается от биологических вычислений , раздела информатики и техники , который использует биоинженерию для создания компьютеров .
Биоинформатика , анализ информационных процессов в биологических системах , началась в начале 1970-х годов. В это время исследования в области искусственного интеллекта использовали сетевые модели человеческого мозга для создания новых алгоритмов . Такое использование биологических данных побудило исследователей-биологов использовать компьютеры для оценки и сравнения больших наборов данных в своей области. [3]
К 1982 году исследователи обменивались информацией с помощью перфокарт . К концу 1980-х годов объем данных вырос в геометрической прогрессии, что потребовало новых вычислительных методов для быстрой интерпретации соответствующей информации. [3]
Пожалуй, самый известный пример вычислительной биологии — проект «Геном человека» — официально стартовал в 1990 году. [4] К 2003 году проект картировал около 85% человеческого генома, достигая своих первоначальных целей. [5] Однако работа продолжалась, и к 2021 году уровень «полного генома» был достигнут, и только 0,3% оставшихся оснований были покрыты потенциальными проблемами. [6] [7] Отсутствующая Y- хромосома была добавлена в январе 2022 года.
С конца 1990-х годов вычислительная биология стала важной частью биологии, что привело к появлению множества подобластей. [8] Сегодня Международное общество вычислительной биологии признает 21 различное «сообщество особого интереса», каждое из которых представляет собой часть более широкой области. [9] Помимо секвенирования человеческого генома, вычислительная биология помогла создать точные модели человеческого мозга , составить карту трехмерной структуры геномов и смоделировать биологические системы. [3]
Вычислительная анатомия — это изучение анатомических форм и форм на видимом или грубом анатомическом уровне морфологии . Он предполагает разработку вычислительно-математических и аналитических методов моделирования и моделирования биологических структур. Основное внимание уделяется визуализируемым анатомическим структурам, а не медицинским устройствам визуализации. Благодаря доступности плотных трехмерных измерений с помощью таких технологий, как магнитно-резонансная томография , компьютерная анатомия превратилась в область медицинской визуализации и биоинженерии для извлечения анатомических систем координат на уровне морфем в трехмерном пространстве.
Исходная формулировка вычислительной анатомии представляет собой генеративную модель формы и формы на основе образцов, на которые воздействуют посредством преобразований. [10] Группа диффеоморфизмов используется для изучения различных систем координат посредством преобразований координат , генерируемых лагранжевыми и эйлеровыми скоростями потока из одной анатомической конфигурации в другую. Это связано со статистикой формы и морфометрикой с той разницей, что диффеоморфизмы используются для отображения систем координат, исследование которых известно как диффеоморфометрия.
Математическая биология — это использование математических моделей живых организмов для изучения систем, которые управляют структурой, развитием и поведением биологических систем . Это влечет за собой более теоретический подход к проблемам, а не его более эмпирически мыслящий аналог экспериментальной биологии . [11] Математическая биология опирается на дискретную математику , топологию (также полезную для компьютерного моделирования), байесовскую статистику , линейную алгебру и булеву алгебру . [12]
Эти математические подходы позволили создать базы данных и другие методы хранения, извлечения и анализа биологических данных — область, известную как биоинформатика . Обычно этот процесс включает в себя генетику и анализ генов .
Сбор и анализ больших наборов данных освободили место для растущих областей исследований , таких как интеллектуальный анализ данных [12] и компьютерное биомоделирование, которое относится к созданию компьютерных моделей и визуальному моделированию биологических систем. Это позволяет исследователям предсказывать, как такие системы будут реагировать на различные среды, что полезно для определения того, может ли система «сохранять свое состояние и функции против внешних и внутренних возмущений». [13] В то время как современные методы сосредоточены на небольших биологических системах, исследователи работают над подходами, которые позволят анализировать и моделировать более крупные сети. Большинство исследователей считают, что это будет иметь важное значение для разработки современных медицинских подходов к созданию новых лекарств и генной терапии . [13] Полезным подходом к моделированию является использование сетей Петри с помощью таких инструментов, как esyN . [14]
Подобным же образом до последних десятилетий теоретическая экология в основном имела дело с аналитическими моделями, которые были отделены от статистических моделей, используемых экологами- эмпириками . Однако вычислительные методы помогли разработать экологическую теорию посредством моделирования экологических систем, а также расширить применение методов вычислительной статистики в экологическом анализе.
Системная биология состоит из расчета взаимодействий между различными биологическими системами, от клеточного уровня до целых популяций, с целью обнаружения возникающих свойств. Этот процесс обычно включает в себя объединение клеточных сигнальных и метаболических путей . Системная биология часто использует вычислительные методы биологического моделирования и теории графов для изучения этих сложных взаимодействий на клеточных уровнях. [12]
Вычислительная биология помогла эволюционной биологии:
Вычислительная геномика — это исследование геномов клеток и организмов . Проект «Геном человека» является одним из примеров вычислительной геномики. Целью этого проекта является секвенирование всего генома человека в набор данных. После полной реализации это позволит врачам анализировать геном отдельного пациента . [16] Это открывает возможность персонализированной медицины, назначающей лечение на основе уже существующих генетических моделей человека. Исследователи стремятся секвенировать геномы животных, растений, бактерий и всех других форм жизни. [17]
Одним из основных способов сравнения геномов является гомология последовательностей . Гомология — это изучение биологических структур и последовательностей нуклеотидов у разных организмов, происходящих от общего предка . Исследования показывают, что таким способом можно идентифицировать от 80 до 90% генов в недавно секвенированных геномах прокариот . [17]
Выравнивание последовательностей — это еще один процесс сравнения и обнаружения сходства между биологическими последовательностями или генами. Выравнивание последовательностей полезно во многих приложениях биоинформатики, таких как вычисление самой длинной общей подпоследовательности двух генов или сравнение вариантов определенных заболеваний . [18]
Нетронутым проектом в области компьютерной геномики является анализ межгенных областей, которые составляют примерно 97% генома человека. [17] Исследователи работают над пониманием функций некодирующих областей человеческого генома посредством разработки вычислительных и статистических методов и посредством крупных проектов консорциумов, таких как ENCODE и Roadmap Epigenomics Project .
Понимание того, как отдельные гены влияют на биологию организма на молекулярном , клеточном и организменном уровнях, известно как генная онтология . Миссия Консорциума Gene Ontology — разработать современную, комплексную вычислительную модель биологических систем , от молекулярного уровня до более крупных путей, систем на уровне клетки и организма. Ресурс Gene Ontology обеспечивает вычислительное представление текущих научных знаний о функциях генов (или, точнее, белков и некодирующих молекул РНК , вырабатываемых генами) из самых разных организмов, от человека до бактерий. [19]
3D-геномика — это подраздел вычислительной биологии, который фокусируется на организации и взаимодействии генов внутри эукариотической клетки . Одним из методов, используемых для сбора трехмерных геномных данных, является картирование архитектуры генома (GAM). GAM измеряет трехмерные расстояния между хроматином и ДНК в геноме, сочетая криосекцию (процесс вырезания полоски ядра для исследования ДНК) с лазерной микродиссекцией. Ядерный профиль — это просто полоска или срез, взятый из ядра. Каждый ядерный профиль содержит геномные окна, представляющие собой определенные последовательности нуклеотидов — базовой единицы ДНК. GAM фиксирует геномную сеть сложных контактов хроматина с множеством энхансеров по всей клетке. [20]
Вычислительная нейробиология — это изучение функций мозга с точки зрения свойств обработки информации нервной системой . Подраздел нейробиологии, он призван моделировать мозг для изучения конкретных аспектов неврологической системы. [21] Модели мозга включают:
Работа вычислительных нейробиологов направлена на улучшение алгоритмов и структур данных, используемых в настоящее время для увеличения скорости таких вычислений.
Вычислительная нейропсихиатрия — это новая область, которая использует математическое и компьютерное моделирование механизмов мозга, участвующих в психических расстройствах . Несколько инициатив продемонстрировали, что компьютерное моделирование является важным вкладом в понимание нейронных цепей, которые могут генерировать психические функции и дисфункции. [23] [24] [25]
Вычислительная фармакология — это «исследование влияния геномных данных с целью поиска связей между конкретными генотипами и заболеваниями, а затем проверка данных о лекарственных препаратах ». [26] Фармацевтическая промышленность требует изменения в методах анализа данных о лекарствах. Фармакологи смогли использовать Microsoft Excel для сравнения химических и геномных данных, связанных с эффективностью лекарств. Однако отрасль достигла так называемой баррикады Excel. Это связано с ограниченным количеством ячеек, доступных в электронной таблице . Это развитие привело к необходимости компьютерной фармакологии. Ученые и исследователи разрабатывают вычислительные методы для анализа этих огромных наборов данных . Это позволяет эффективно сравнивать важные данные и разрабатывать более точные лекарства. [27]
Аналитики прогнозируют, что если основные лекарства потерпят неудачу из-за патентов, то компьютерная биология будет необходима для замены существующих лекарств на рынке. Докторантов в области вычислительной биологии поощряют делать карьеру в промышленности, а не занимать постдокторские должности. Это прямой результат того, что крупные фармацевтические компании нуждаются в более квалифицированных аналитиках больших наборов данных, необходимых для производства новых лекарств. [27]
Точно так же компьютерная онкология стремится определить будущие мутации рака с помощью алгоритмических подходов. Исследования в этой области привели к использованию высокопроизводительных измерений, которые собирают миллионы точек данных с помощью робототехники и других сенсорных устройств. Эти данные собираются из ДНК, РНК и других биологических структур. Области фокуса включают определение характеристик опухолей , анализ молекул, которые детерминированно вызывают рак, и понимание того, как геном человека связан с возникновением опухолей и рака. [28] [29]
Вычислительные биологи используют широкий спектр программного обеспечения и алгоритмов для проведения своих исследований.
Обучение без учителя — это тип алгоритма, который находит закономерности в неразмеченных данных. Одним из примеров является кластеризация k-средних , целью которой является разделение n точек данных на k кластеров, в которых каждая точка данных принадлежит кластеру с ближайшим средним значением. Другой версией является алгоритм k-medoids , который при выборе центра кластера или центроида кластера выбирает одну из точек данных в наборе, а не просто среднее значение кластера.
Алгоритм состоит из следующих шагов:
Одним из примеров этого в биологии является трехмерное картирование генома. Информация о области HIST1 мышиной хромосомы 13 получена из Gene Expression Omnibus . [30] Эта информация содержит данные о том, какие ядерные профили обнаруживаются в определенных геномных регионах. Имея эту информацию, расстояние Жаккара можно использовать для нахождения нормализованного расстояния между всеми локусами.
Графовая аналитика, или сетевой анализ , — это исследование графов, которые представляют связи между различными объектами. Графы могут представлять все виды сетей в биологии, такие как сети белок-белкового взаимодействия , регуляторные сети, метаболические и биохимические сети и многое другое. Есть много способов проанализировать эти сети. Один из них рассматривает центральность в графиках. При поиске центральности в графах ранжирование узлов определяется их популярностью или центральностью в графе. Это может быть полезно для определения наиболее важных узлов. Это может быть очень полезно в биологии во многих отношениях. Например, если бы у нас были данные об активности генов в определенный период времени, мы могли бы использовать степень централизации, чтобы увидеть, какие гены наиболее активны во всей сети или какие гены больше всего взаимодействуют с другими во всей сети. Это может помочь нам понять, какую роль в сети играют определенные гены.
Существует множество способов вычисления центральности в графах, каждый из которых может дать различную информацию о центральности. Поиск центральных элементов в биологии может применяться во многих различных обстоятельствах, некоторые из которых связаны с регуляцией генов, взаимодействием белков и метаболическими сетями. [31]
Обучение с учителем — это тип алгоритма, который учится на помеченных данных и учится назначать метки будущим данным, которые не помечены. В биологии обучение с учителем может быть полезным, когда у нас есть данные, которые мы знаем, как классифицировать, и мы хотели бы классифицировать по этим категориям больше данных.
Распространенным алгоритмом обучения с учителем является случайный лес , который использует многочисленные деревья решений для обучения модели классификации набора данных. Дерево решений, образующее основу случайного леса, представляет собой структуру, целью которой является классификация или маркировка некоторого набора данных с использованием определенных известных особенностей этих данных. Практическим биологическим примером этого может быть взятие генетических данных человека и предсказание того, предрасположен ли этот человек к развитию определенного заболевания или рака. На каждом внутреннем узле алгоритм проверяет набор данных на наличие ровно одного признака (определенного гена в предыдущем примере), а затем разветвляется влево или вправо в зависимости от результата. Затем на каждом листовом узле дерево решений присваивает набору данных метку класса. Таким образом, на практике алгоритм проходит определенный путь от корня к листу на основе входного набора данных через дерево решений, что приводит к классификации этого набора данных. Обычно деревья решений имеют целевые переменные, которые принимают дискретные значения, например да/нет, и в этом случае их называют деревом классификации , но если целевая переменная является непрерывной, то ее называют деревом регрессии . Чтобы построить дерево решений, его сначала необходимо обучить с использованием обучающего набора, чтобы определить, какие функции являются лучшими предикторами целевой переменной.
Программное обеспечение с открытым исходным кодом предоставляет платформу для вычислительной биологии, где каждый может получить доступ и извлечь выгоду из программного обеспечения, разработанного в ходе исследований. PLOS приводит [ нужна ссылка ] четыре основные причины использования программного обеспечения с открытым исходным кодом:
Есть несколько крупных конференций, посвященных вычислительной биологии. Некоторые известные примеры: «Интеллектуальные системы для молекулярной биологии» , Европейская конференция по вычислительной биологии и исследования в области вычислительной молекулярной биологии .
Существует также множество журналов, посвященных вычислительной биологии. Некоторые известные примеры включают Journal of Computational Biology и PLOS Computational Biology , рецензируемый журнал открытого доступа , в котором реализовано множество заметных исследовательских проектов в области вычислительной биологии. Они предоставляют обзоры программного обеспечения , учебные пособия по программному обеспечению с открытым исходным кодом и отображают информацию о предстоящих конференциях по вычислительной биологии. [ нужна цитата ]
Вычислительная биология, биоинформатика и математическая биология — это междисциплинарные подходы к наукам о жизни , основанные на количественных дисциплинах, таких как математика и информатика . НИЗ описывает вычислительную/математическую биологию как использование вычислительных / математических подходов для решения теоретических и экспериментальных вопросов биологии и, напротив, биоинформатику как применение информатики для понимания сложных данных наук о жизни. [1]
В частности, НИЗ определяет
Вычислительная биология: разработка и применение методов анализа данных и теоретических методов, математического моделирования и методов компьютерного моделирования для изучения биологических, поведенческих и социальных систем. [1]
Биоинформатика: исследование, разработка или применение вычислительных инструментов и подходов для расширения использования биологических, медицинских, поведенческих данных или данных о здоровье, в том числе для сбора, хранения, организации, архивирования, анализа или визуализации таких данных. [1]
Хотя каждая область различна, их интерфейсы могут существенно пересекаться [1] настолько, что для многих биоинформатика и вычислительная биология являются терминами, которые используются как синонимы.
Термины «вычислительная биология» и «эволюционные вычисления» имеют схожее название, но их не следует путать. В отличие от вычислительной биологии, эволюционные вычисления не связаны с моделированием и анализом биологических данных. Вместо этого он создает алгоритмы, основанные на идеях эволюции разных видов. Исследования в этой области, которые иногда называют генетическими алгоритмами , могут быть применены к вычислительной биологии. Хотя эволюционные вычисления по своей сути не являются частью вычислительной биологии, вычислительная эволюционная биология является ее подобластью. [33]