Вычислительная биология

Вычислительная биология относится к использованию анализа данных , математического моделирования и компьютерного моделирования для понимания биологических систем и взаимоотношений. ^[1] Эта область, являющаяся пересечением информатики , биологии и больших данных , также имеет основы прикладной математики , химии и генетики . ^[2] Он отличается от биологических вычислений , раздела информатики и техники , который использует биоинженерию для создания компьютеров .

История

Биоинформатика , анализ информационных процессов в биологических системах , началась в начале 1970-х годов. В это время исследования в области искусственного интеллекта использовали сетевые модели человеческого мозга для создания новых алгоритмов . Такое использование биологических данных побудило исследователей-биологов использовать компьютеры для оценки и сравнения больших наборов данных в своей области. ^[3]

К 1982 году исследователи обменивались информацией с помощью перфокарт . К концу 1980-х годов объем данных вырос в геометрической прогрессии, что потребовало новых вычислительных методов для быстрой интерпретации соответствующей информации. ^[3]

Пожалуй, самый известный пример вычислительной биологии — проект «Геном человека» — официально стартовал в 1990 году. ^[4] К 2003 году проект картировал около 85% человеческого генома, достигая своих первоначальных целей. ^[5] Однако работа продолжалась, и к 2021 году уровень «полного генома» был достигнут, и только 0,3% оставшихся оснований были покрыты потенциальными проблемами. ^[6]^[7] Отсутствующая Y- хромосома была добавлена в январе 2022 года.

С конца 1990-х годов вычислительная биология стала важной частью биологии, что привело к появлению множества подобластей. ^[8] Сегодня Международное общество вычислительной биологии признает 21 различное «сообщество особого интереса», каждое из которых представляет собой часть более широкой области. ^[9] Помимо секвенирования человеческого генома, вычислительная биология помогла создать точные модели человеческого мозга , составить карту трехмерной структуры геномов и смоделировать биологические системы. ^[3]

Приложения

Анатомия

Вычислительная анатомия — это изучение анатомических форм и форм на видимом или грубом анатомическом уровне морфологии . Он предполагает разработку вычислительно-математических и аналитических методов моделирования и моделирования биологических структур. Основное внимание уделяется визуализируемым анатомическим структурам, а не медицинским устройствам визуализации. Благодаря доступности плотных трехмерных измерений с помощью таких технологий, как магнитно-резонансная томография , компьютерная анатомия превратилась в область медицинской визуализации и биоинженерии для извлечения анатомических систем координат на уровне морфем в трехмерном пространстве. $50-100\м$

Исходная формулировка вычислительной анатомии представляет собой генеративную модель формы и формы на основе образцов, на которые воздействуют посредством преобразований. ^[10] Группа диффеоморфизмов используется для изучения различных систем координат посредством преобразований координат , генерируемых лагранжевыми и эйлеровыми скоростями потока из одной анатомической конфигурации в другую. Это связано со статистикой формы и морфометрикой с той разницей, что диффеоморфизмы используются для отображения систем координат, исследование которых известно как диффеоморфометрия. ${\mathbb {R} }^{3}$

Данные и моделирование

Математическая биология — это использование математических моделей живых организмов для изучения систем, которые управляют структурой, развитием и поведением биологических систем . Это влечет за собой более теоретический подход к проблемам, а не его более эмпирически мыслящий аналог экспериментальной биологии . ^[11] Математическая биология опирается на дискретную математику , топологию (также полезную для компьютерного моделирования), байесовскую статистику , линейную алгебру и булеву алгебру . ^[12]

Эти математические подходы позволили создать базы данных и другие методы хранения, извлечения и анализа биологических данных — область, известную как биоинформатика . Обычно этот процесс включает в себя генетику и анализ генов .

Сбор и анализ больших наборов данных освободили место для растущих областей исследований , таких как интеллектуальный анализ данных ^[12] и компьютерное биомоделирование, которое относится к созданию компьютерных моделей и визуальному моделированию биологических систем. Это позволяет исследователям предсказывать, как такие системы будут реагировать на различные среды, что полезно для определения того, может ли система «сохранять свое состояние и функции против внешних и внутренних возмущений». ^[13] В то время как современные методы сосредоточены на небольших биологических системах, исследователи работают над подходами, которые позволят анализировать и моделировать более крупные сети. Большинство исследователей считают, что это будет иметь важное значение для разработки современных медицинских подходов к созданию новых лекарств и генной терапии . ^[13] Полезным подходом к моделированию является использование сетей Петри с помощью таких инструментов, как esyN . ^[14]

Подобным же образом до последних десятилетий теоретическая экология в основном имела дело с аналитическими моделями, которые были отделены от статистических моделей, используемых экологами- эмпириками . Однако вычислительные методы помогли разработать экологическую теорию посредством моделирования экологических систем, а также расширить применение методов вычислительной статистики в экологическом анализе.

Системная биология

Системная биология состоит из расчета взаимодействий между различными биологическими системами, от клеточного уровня до целых популяций, с целью обнаружения возникающих свойств. Этот процесс обычно включает в себя объединение клеточных сигнальных и метаболических путей . Системная биология часто использует вычислительные методы биологического моделирования и теории графов для изучения этих сложных взаимодействий на клеточных уровнях. ^[12]

Эволюционная биология

Вычислительная биология помогла эволюционной биологии:

Использование данных ДНК для реконструкции древа жизни с помощью компьютерной филогенетики
Подгонка моделей популяционной генетики (прямого времени ^[15] или обратного времени ) к данным ДНК для того, чтобы сделать выводы о демографической или селективной истории.
Построение моделей популяционной генетики эволюционных систем на основе основных принципов, чтобы предсказать, что может развиваться.

Геномика

Вычислительная геномика — это исследование геномов клеток и организмов . Проект «Геном человека» является одним из примеров вычислительной геномики. Целью этого проекта является секвенирование всего генома человека в набор данных. После полной реализации это позволит врачам анализировать геном отдельного пациента . ^[16] Это открывает возможность персонализированной медицины, назначающей лечение на основе уже существующих генетических моделей человека. Исследователи стремятся секвенировать геномы животных, растений, бактерий и всех других форм жизни. ^[17]

Одним из основных способов сравнения геномов является гомология последовательностей . Гомология — это изучение биологических структур и последовательностей нуклеотидов у разных организмов, происходящих от общего предка . Исследования показывают, что таким способом можно идентифицировать от 80 до 90% генов в недавно секвенированных геномах прокариот . ^[17]

Выравнивание последовательностей — это еще один процесс сравнения и обнаружения сходства между биологическими последовательностями или генами. Выравнивание последовательностей полезно во многих приложениях биоинформатики, таких как вычисление самой длинной общей подпоследовательности двух генов или сравнение вариантов определенных заболеваний . ^[18]

Нетронутым проектом в области компьютерной геномики является анализ межгенных областей, которые составляют примерно 97% генома человека. ^[17] Исследователи работают над пониманием функций некодирующих областей человеческого генома посредством разработки вычислительных и статистических методов и посредством крупных проектов консорциумов, таких как ENCODE и Roadmap Epigenomics Project .

Понимание того, как отдельные гены влияют на биологию организма на молекулярном , клеточном и организменном уровнях, известно как генная онтология . Миссия Консорциума Gene Ontology — разработать современную, комплексную вычислительную модель биологических систем , от молекулярного уровня до более крупных путей, систем на уровне клетки и организма. Ресурс Gene Ontology обеспечивает вычислительное представление текущих научных знаний о функциях генов (или, точнее, белков и некодирующих молекул РНК , вырабатываемых генами) из самых разных организмов, от человека до бактерий. ^[19]

3D-геномика — это подраздел вычислительной биологии, который фокусируется на организации и взаимодействии генов внутри эукариотической клетки . Одним из методов, используемых для сбора трехмерных геномных данных, является картирование архитектуры генома (GAM). GAM измеряет трехмерные расстояния между хроматином и ДНК в геноме, сочетая криосекцию (процесс вырезания полоски ядра для исследования ДНК) с лазерной микродиссекцией. Ядерный профиль — это просто полоска или срез, взятый из ядра. Каждый ядерный профиль содержит геномные окна, представляющие собой определенные последовательности нуклеотидов — базовой единицы ДНК. GAM фиксирует геномную сеть сложных контактов хроматина с множеством энхансеров по всей клетке. ^[20]

Нейронаука

Вычислительная нейробиология — это изучение функций мозга с точки зрения свойств обработки информации нервной системой . Подраздел нейробиологии, он призван моделировать мозг для изучения конкретных аспектов неврологической системы. ^[21] Модели мозга включают:

Реалистичные модели мозга: эти модели отражают каждый аспект мозга, включая как можно больше деталей на клеточном уровне. Реалистичные модели предоставляют больше всего информации о мозге, но также имеют самый большой допуск на ошибку . Больше переменных в модели мозга создает вероятность возникновения большего количества ошибок. Эти модели не учитывают части клеточной структуры, о которых ученые не знают. Реалистичные модели мозга являются наиболее сложными в вычислительном отношении и самыми дорогими в реализации. ^[22]
Упрощение моделей мозга. Эти модели призваны ограничить область применения модели, чтобы оценить конкретное физическое свойство нервной системы. Это позволяет решать интенсивные вычислительные задачи и уменьшает количество потенциальных ошибок в реалистичной модели мозга. ^[22]

Работа вычислительных нейробиологов направлена на улучшение алгоритмов и структур данных, используемых в настоящее время для увеличения скорости таких вычислений.

Вычислительная нейропсихиатрия — это новая область, которая использует математическое и компьютерное моделирование механизмов мозга, участвующих в психических расстройствах . Несколько инициатив продемонстрировали, что компьютерное моделирование является важным вкладом в понимание нейронных цепей, которые могут генерировать психические функции и дисфункции. ^[23]^[24]^[25]

Фармакология

Вычислительная фармакология — это «исследование влияния геномных данных с целью поиска связей между конкретными генотипами и заболеваниями, а затем проверка данных о лекарственных препаратах ». ^[26] Фармацевтическая промышленность требует изменения в методах анализа данных о лекарствах. Фармакологи смогли использовать Microsoft Excel для сравнения химических и геномных данных, связанных с эффективностью лекарств. Однако отрасль достигла так называемой баррикады Excel. Это связано с ограниченным количеством ячеек, доступных в электронной таблице . Это развитие привело к необходимости компьютерной фармакологии. Ученые и исследователи разрабатывают вычислительные методы для анализа этих огромных наборов данных . Это позволяет эффективно сравнивать важные данные и разрабатывать более точные лекарства. ^[27]

Аналитики прогнозируют, что если основные лекарства потерпят неудачу из-за патентов, то компьютерная биология будет необходима для замены существующих лекарств на рынке. Докторантов в области вычислительной биологии поощряют делать карьеру в промышленности, а не занимать постдокторские должности. Это прямой результат того, что крупные фармацевтические компании нуждаются в более квалифицированных аналитиках больших наборов данных, необходимых для производства новых лекарств. ^[27]

Точно так же компьютерная онкология стремится определить будущие мутации рака с помощью алгоритмических подходов. Исследования в этой области привели к использованию высокопроизводительных измерений, которые собирают миллионы точек данных с помощью робототехники и других сенсорных устройств. Эти данные собираются из ДНК, РНК и других биологических структур. Области фокуса включают определение характеристик опухолей , анализ молекул, которые детерминированно вызывают рак, и понимание того, как геном человека связан с возникновением опухолей и рака. ^[28]^[29]

Техники

Вычислительные биологи используют широкий спектр программного обеспечения и алгоритмов для проведения своих исследований.

Обучение без присмотра

Обучение без учителя — это тип алгоритма, который находит закономерности в неразмеченных данных. Одним из примеров является кластеризация k-средних , целью которой является разделение n точек данных на k кластеров, в которых каждая точка данных принадлежит кластеру с ближайшим средним значением. Другой версией является алгоритм k-medoids , который при выборе центра кластера или центроида кластера выбирает одну из точек данных в наборе, а не просто среднее значение кластера.

Тепловая карта расстояний Жаккара ядерных профилей

Алгоритм состоит из следующих шагов:

Случайным образом выберите k различных точек данных. Это начальные кластеры.
Измерьте расстояние между каждой точкой и каждым из кластеров «k». (Это расстояние точек от каждой точки k ).
Назначьте каждую точку ближайшему кластеру.
Найдите центр каждого кластера (медоид).
Повторяйте до тех пор, пока кластеры не перестанут меняться.
Оцените качество кластеризации, суммируя вариации внутри каждого кластера.
Повторите процессы с разными значениями k.
Выберите лучшее значение для «k», найдя «колено», на графике которого значение k имеет наименьшую дисперсию.

Одним из примеров этого в биологии является трехмерное картирование генома. Информация о области HIST1 мышиной хромосомы 13 получена из Gene Expression Omnibus . ^[30] Эта информация содержит данные о том, какие ядерные профили обнаруживаются в определенных геномных регионах. Имея эту информацию, расстояние Жаккара можно использовать для нахождения нормализованного расстояния между всеми локусами.

Графовая аналитика

Графовая аналитика, или сетевой анализ , — это исследование графов, которые представляют связи между различными объектами. Графы могут представлять все виды сетей в биологии, такие как сети белок-белкового взаимодействия , регуляторные сети, метаболические и биохимические сети и многое другое. Есть много способов проанализировать эти сети. Один из них рассматривает центральность в графиках. При поиске центральности в графах ранжирование узлов определяется их популярностью или центральностью в графе. Это может быть полезно для определения наиболее важных узлов. Это может быть очень полезно в биологии во многих отношениях. Например, если бы у нас были данные об активности генов в определенный период времени, мы могли бы использовать степень централизации, чтобы увидеть, какие гены наиболее активны во всей сети или какие гены больше всего взаимодействуют с другими во всей сети. Это может помочь нам понять, какую роль в сети играют определенные гены.

Существует множество способов вычисления центральности в графах, каждый из которых может дать различную информацию о центральности. Поиск центральных элементов в биологии может применяться во многих различных обстоятельствах, некоторые из которых связаны с регуляцией генов, взаимодействием белков и метаболическими сетями. ^[31]

Контролируемое обучение

Обучение с учителем — это тип алгоритма, который учится на помеченных данных и учится назначать метки будущим данным, которые не помечены. В биологии обучение с учителем может быть полезным, когда у нас есть данные, которые мы знаем, как классифицировать, и мы хотели бы классифицировать по этим категориям больше данных.

Распространенным алгоритмом обучения с учителем является случайный лес , который использует многочисленные деревья решений для обучения модели классификации набора данных. Дерево решений, образующее основу случайного леса, представляет собой структуру, целью которой является классификация или маркировка некоторого набора данных с использованием определенных известных особенностей этих данных. Практическим биологическим примером этого может быть взятие генетических данных человека и предсказание того, предрасположен ли этот человек к развитию определенного заболевания или рака. На каждом внутреннем узле алгоритм проверяет набор данных на наличие ровно одного признака (определенного гена в предыдущем примере), а затем разветвляется влево или вправо в зависимости от результата. Затем на каждом листовом узле дерево решений присваивает набору данных метку класса. Таким образом, на практике алгоритм проходит определенный путь от корня к листу на основе входного набора данных через дерево решений, что приводит к классификации этого набора данных. Обычно деревья решений имеют целевые переменные, которые принимают дискретные значения, например да/нет, и в этом случае их называют деревом классификации , но если целевая переменная является непрерывной, то ее называют деревом регрессии . Чтобы построить дерево решений, его сначала необходимо обучить с использованием обучающего набора, чтобы определить, какие функции являются лучшими предикторами целевой переменной.

Программное обеспечение с открытым исходным кодом

Программное обеспечение с открытым исходным кодом предоставляет платформу для вычислительной биологии, где каждый может получить доступ и извлечь выгоду из программного обеспечения, разработанного в ходе исследований. PLOS приводит ^{[ нужна ссылка ]} четыре основные причины использования программного обеспечения с открытым исходным кодом:

Воспроизводимость : это позволяет исследователям использовать точные методы, используемые для расчета связей между биологическими данными.
Ускоренная разработка: разработчикам и исследователям не придется заново изобретать существующий код для решения второстепенных задач. Вместо этого они могут использовать уже существующие программы, чтобы сэкономить время на разработке и реализации более крупных проектов.
Повышенное качество: участие нескольких исследователей, изучающих одну и ту же тему, обеспечивает определенную степень уверенности в том, что в коде не будет ошибок.
Долгосрочная доступность: программы с открытым исходным кодом не привязаны к каким-либо предприятиям или патентам. Это позволяет размещать их на нескольких веб-страницах и гарантировать их доступность в будущем. ^[32]

Исследовать

Есть несколько крупных конференций, посвященных вычислительной биологии. Некоторые известные примеры: «Интеллектуальные системы для молекулярной биологии» , Европейская конференция по вычислительной биологии и исследования в области вычислительной молекулярной биологии .

Существует также множество журналов, посвященных вычислительной биологии. Некоторые известные примеры включают Journal of Computational Biology и PLOS Computational Biology , рецензируемый журнал открытого доступа , в котором реализовано множество заметных исследовательских проектов в области вычислительной биологии. Они предоставляют обзоры программного обеспечения , учебные пособия по программному обеспечению с открытым исходным кодом и отображают информацию о предстоящих конференциях по вычислительной биологии. ^{[ нужна цитата ]}

Связанные поля

Вычислительная биология, биоинформатика и математическая биология — это междисциплинарные подходы к наукам о жизни , основанные на количественных дисциплинах, таких как математика и информатика . НИЗ описывает вычислительную/математическую биологию как использование вычислительных / математических подходов для решения теоретических и экспериментальных вопросов биологии и, напротив, биоинформатику как применение информатики для понимания сложных данных наук о жизни. ^[1]

В частности, НИЗ определяет

Вычислительная биология: разработка и применение методов анализа данных и теоретических методов, математического моделирования и методов компьютерного моделирования для изучения биологических, поведенческих и социальных систем. ^[1]

Биоинформатика: исследование, разработка или применение вычислительных инструментов и подходов для расширения использования биологических, медицинских, поведенческих данных или данных о здоровье, в том числе для сбора, хранения, организации, архивирования, анализа или визуализации таких данных. ^[1]

Хотя каждая область различна, их интерфейсы могут существенно пересекаться ^[1] настолько, что для многих биоинформатика и вычислительная биология являются терминами, которые используются как синонимы.

Термины «вычислительная биология» и «эволюционные вычисления» имеют схожее название, но их не следует путать. В отличие от вычислительной биологии, эволюционные вычисления не связаны с моделированием и анализом биологических данных. Вместо этого он создает алгоритмы, основанные на идеях эволюции разных видов. Исследования в этой области, которые иногда называют генетическими алгоритмами , могут быть применены к вычислительной биологии. Хотя эволюционные вычисления по своей сути не являются частью вычислительной биологии, вычислительная эволюционная биология является ее подобластью. ^[33]

Смотрите также

Внешние ссылки

биоинформатика.org