Вычислительная биология относится к использованию анализа данных , математического моделирования и компьютерного моделирования для понимания биологических систем и взаимосвязей. [1] Находясь на стыке компьютерных наук , биологии и больших данных , эта область также имеет основы в прикладной математике , химии и генетике . [2] Она отличается от биологических вычислений , подотрасли компьютерных наук и инженерии , которая использует биоинженерию для создания компьютеров .
Биоинформатика , анализ информационных процессов в биологических системах , началась в начале 1970-х годов. В это время исследования в области искусственного интеллекта использовали сетевые модели человеческого мозга для создания новых алгоритмов . Такое использование биологических данных подтолкнуло исследователей-биологов к использованию компьютеров для оценки и сравнения больших наборов данных в их собственной области. [3]
К 1982 году исследователи обменивались информацией с помощью перфокарт . К концу 1980-х годов объем данных рос экспоненциально, что потребовало новых вычислительных методов для быстрой интерпретации соответствующей информации. [3]
Возможно, самый известный пример вычислительной биологии — проект «Геном человека» , официально начатый в 1990 году. [4] К 2003 году в рамках проекта было картировано около 85% генома человека, что соответствует его первоначальным целям. [5] Однако работа продолжалась, и к 2021 году был достигнут уровень «полного генома», и только 0,3% оставшихся оснований были покрыты потенциальными проблемами. [6] [7] Отсутствующая Y -хромосома была добавлена в январе 2022 года.
С конца 1990-х годов вычислительная биология стала важной частью биологии, что привело к появлению многочисленных подобластей. [8] Сегодня Международное общество вычислительной биологии признает 21 различное «Сообщество специальных интересов», каждое из которых представляет собой часть более крупной области. [9] Помимо помощи в секвенировании генома человека, вычислительная биология помогла создать точные модели человеческого мозга , картировать трехмерную структуру геномов и моделировать биологические системы. [3]
В 2000 году, несмотря на отсутствие первоначального опыта в программировании и управлении данными, Колумбия начала применять вычислительную биологию с промышленной точки зрения, сосредоточившись на болезнях растений. Это исследование способствовало пониманию того, как бороться с болезнями таких культур, как картофель, и изучению генетического разнообразия кофейных растений. [10] К 2007 году опасения по поводу альтернативных источников энергии и глобального изменения климата побудили биологов сотрудничать с системными и компьютерными инженерами. Вместе они разработали надежную вычислительную сеть и базу данных для решения этих проблем. В 2009 году в партнерстве с Университетом Лос-Анджелеса Колумбия также создала Виртуальную учебную среду (VLE) для улучшения интеграции вычислительной биологии и биоинформатики. [10]
В Польше вычислительная биология тесно связана с математикой и вычислительной наукой, выступая в качестве основы для биоинформатики и биологической физики. Область делится на две основные области: одна сосредоточена на физике и моделировании, а другая на биологических последовательностях. [11] Применение статистических моделей в Польше продвинуло методы изучения белков и РНК, способствуя глобальному научному прогрессу. Польские ученые также сыграли важную роль в оценке методов прогнозирования белков, значительно расширив область вычислительной биологии. Со временем они расширили свои исследования, охватив такие темы, как анализ кодирования белков и гибридные структуры, еще больше укрепив влияние Польши на развитие биоинформатики во всем мире. [11]
Вычислительная анатомия — это изучение анатомической формы и очертаний в видимом или грубом анатомическом масштабе морфологии . Она включает в себя разработку вычислительных математических и аналитических методов для моделирования и имитации биологических структур. Она фокусируется на визуализируемых анатомических структурах, а не на медицинских устройствах визуализации. Благодаря доступности плотных трехмерных измерений с помощью таких технологий, как магнитно-резонансная томография , вычислительная анатомия возникла как подобласть медицинской визуализации и биоинженерии для извлечения анатомических систем координат в масштабе морфем в 3D.
Первоначальная формулировка вычислительной анатомии — это генеративная модель формы и очертаний из образцов, на которые воздействуют посредством преобразований. [12] Группа диффеоморфизмов используется для изучения различных систем координат посредством преобразований координат , генерируемых посредством лагранжевых и эйлеровых скоростей потока из одной анатомической конфигурации в другую. Она связана со статистикой формы и морфометрией , с тем отличием, что диффеоморфизмы используются для отображения систем координат, изучение которых известно как диффеоморфометрия.
Математическая биология — это использование математических моделей живых организмов для изучения систем, которые управляют структурой, развитием и поведением в биологических системах . Это подразумевает более теоретический подход к проблемам, а не его более эмпирически настроенный аналог экспериментальной биологии . [13] Математическая биология опирается на дискретную математику , топологию (также полезную для вычислительного моделирования), байесовскую статистику , линейную алгебру и булеву алгебру . [14]
Эти математические подходы позволили создать базы данных и другие методы для хранения, извлечения и анализа биологических данных, область, известную как биоинформатика . Обычно этот процесс включает генетику и анализ генов .
Сбор и анализ больших наборов данных освободили место для растущих исследовательских областей , таких как интеллектуальный анализ данных [14] и вычислительное биомоделирование, которое относится к построению компьютерных моделей и визуальному моделированию биологических систем. Это позволяет исследователям предсказывать, как такие системы будут реагировать на различные среды, что полезно для определения того, может ли система «сохранять свое состояние и функции против внешних и внутренних возмущений». [15] В то время как текущие методы сосредоточены на небольших биологических системах, исследователи работают над подходами, которые позволят анализировать и моделировать более крупные сети. Большинство исследователей считают, что это будет иметь важное значение при разработке современных медицинских подходов к созданию новых лекарств и генной терапии [ 15] Полезным подходом к моделированию является использование сетей Петри с помощью таких инструментов , как esyN [16]
Подобным образом, до последних десятилетий теоретическая экология в основном имела дело с аналитическими моделями, которые были отделены от статистических моделей, используемых эмпирическими экологами. Однако вычислительные методы помогли в разработке экологической теории посредством моделирования экологических систем, в дополнение к более широкому применению методов вычислительной статистики в экологическом анализе.
Системная биология состоит из вычисления взаимодействий между различными биологическими системами от клеточного уровня до целых популяций с целью обнаружения эмерджентных свойств. Этот процесс обычно включает в себя сетевое взаимодействие клеточных сигнальных и метаболических путей . Системная биология часто использует вычислительные методы из биологического моделирования и теории графов для изучения этих сложных взаимодействий на клеточном уровне. [14]
Вычислительная биология оказала помощь эволюционной биологии следующими способами:
Вычислительная геномика — это изучение геномов клеток и организмов . Проект « Геном человека» — один из примеров вычислительной геномики. Этот проект направлен на секвенирование всего генома человека в набор данных. После полной реализации это может позволить врачам анализировать геном отдельного пациента . [ 18] Это открывает возможность персонализированной медицины, назначающей лечение на основе уже существующих генетических моделей человека. Исследователи стремятся секвенировать геномы животных, растений, бактерий и всех других типов жизни. [19]
Одним из основных способов сравнения геномов является гомология последовательностей . Гомология — это изучение биологических структур и последовательностей нуклеотидов в различных организмах, которые происходят от общего предка . Исследования показывают, что от 80 до 90% генов в недавно секвенированных прокариотических геномах могут быть идентифицированы таким образом. [19]
Выравнивание последовательностей — это еще один процесс сравнения и обнаружения сходств между биологическими последовательностями или генами. Выравнивание последовательностей полезно в ряде биоинформатических приложений, таких как вычисление самой длинной общей подпоследовательности двух генов или сравнение вариантов определенных заболеваний . [ необходима цитата ]
Нетронутым проектом в вычислительной геномике является анализ межгенных областей, которые составляют примерно 97% человеческого генома. [19] Исследователи работают над пониманием функций некодирующих областей человеческого генома посредством разработки вычислительных и статистических методов, а также посредством крупных консорциумных проектов, таких как ENCODE и Roadmap Epigenomics Project .
Понимание того, как отдельные гены вносят вклад в биологию организма на молекулярном , клеточном и организменном уровнях, известно как онтология генов . Миссия Консорциума онтологии генов заключается в разработке современной, всеобъемлющей, вычислительной модели биологических систем , от молекулярного уровня до более крупных путей, клеточных и организменных систем. Ресурс онтологии генов обеспечивает вычислительное представление текущих научных знаний о функциях генов (или, точнее, белковых и некодирующих молекул РНК , производимых генами) из многих различных организмов, от людей до бактерий. [20]
3D-геномика — это подраздел вычислительной биологии, который фокусируется на организации и взаимодействии генов в эукариотической клетке . Одним из методов, используемых для сбора 3D-геномных данных, является картирование архитектуры генома (GAM). GAM измеряет 3D-расстояния хроматина и ДНК в геноме, комбинируя криосекционирование , процесс вырезания полоски из ядра для исследования ДНК, с лазерной микродиссекцией. Ядерный профиль — это просто полоска или срез, взятый из ядра. Каждый ядерный профиль содержит геномные окна, которые представляют собой определенные последовательности нуклеотидов — базовую единицу ДНК. GAM захватывает геномную сеть сложных, многоусиливающих хроматиновых контактов по всей клетке. [21]
Вычислительная нейронаука — это изучение функций мозга с точки зрения свойств обработки информации нервной системой . Подраздел нейронауки, который стремится моделировать мозг для изучения определенных аспектов нервной системы. [22] Модели мозга включают:
Работа вычислительных нейробиологов направлена на улучшение алгоритмов и структур данных, используемых в настоящее время для увеличения скорости таких вычислений.
Вычислительная нейропсихиатрия — это новая область, которая использует математическое и компьютерное моделирование мозговых механизмов, участвующих в психических расстройствах . Несколько инициатив продемонстрировали, что вычислительное моделирование является важным вкладом в понимание нейронных цепей, которые могут генерировать психические функции и дисфункции. [24] [25] [26]
Вычислительная фармакология — это «изучение эффектов геномных данных для поиска связей между определенными генотипами и заболеваниями, а затем скрининг данных о лекарственных средствах ». [27] Фармацевтическая промышленность требует изменения методов анализа данных о лекарственных средствах. Фармакологи могли использовать Microsoft Excel для сравнения химических и геномных данных, связанных с эффективностью лекарственных средств. Однако отрасль достигла того, что называется баррикадой Excel. Это возникает из-за ограниченного количества ячеек, доступных в электронной таблице . Такое развитие событий привело к необходимости вычислительной фармакологии. Ученые и исследователи разрабатывают вычислительные методы для анализа этих огромных наборов данных . Это позволяет эффективно сравнивать важные точки данных и разрабатывать более точные лекарственные средства. [28]
Аналитики прогнозируют, что если основные лекарства потерпят неудачу из-за патентов, то вычислительная биология будет необходима для замены текущих лекарств на рынке. Докторантов в области вычислительной биологии поощряют делать карьеру в промышленности, а не занимать должности после получения докторской степени. Это прямой результат того, что крупным фармацевтическим компаниям нужны более квалифицированные аналитики больших наборов данных, необходимых для производства новых лекарств. [28]
Вычислительная биология играет решающую роль в обнаружении признаков новых, ранее неизвестных живых существ и в исследовании рака . Эта область включает в себя крупномасштабные измерения клеточных процессов, включая РНК , ДНК и белки, которые создают значительные вычислительные проблемы. Чтобы преодолеть их, биологи полагаются на вычислительные инструменты для точного измерения и анализа биологических данных. [29] В исследовании рака вычислительная биология помогает в комплексном анализе образцов опухолей , помогая исследователям разрабатывать новые способы характеристики опухолей и понимать различные клеточные свойства. Использование высокопроизводительных измерений, включающих миллионы точек данных из ДНК, РНК и других биологических структур, помогает в диагностике рака на ранних стадиях и в понимании ключевых факторов, которые способствуют развитию рака. Области фокусировки включают анализ молекул, которые являются детерминированными в вызывании рака, и понимание того, как геном человека связан с этиологией опухолей. [29] [30]
Специалисты по вычислительной биологии используют широкий спектр программного обеспечения и алгоритмов для проведения своих исследований.
Неконтролируемое обучение — это тип алгоритма, который находит закономерности в немаркированных данных. Одним из примеров является кластеризация k-средних , которая направлена на разбиение n точек данных на k кластеров, в которых каждая точка данных принадлежит кластеру с ближайшим средним значением. Другой версией является алгоритм k-medoids , который при выборе центра кластера или центроида кластера выберет одну из его точек данных в наборе, а не просто среднее значение кластера.
Алгоритм состоит из следующих шагов:
Одним из примеров этого в биологии является использование 3D-картирования генома. Информация о регионе HIST1 мышиной хромосомы 13 собирается из Gene Expression Omnibus . [31] Эта информация содержит данные о том, какие ядерные профили проявляются в определенных геномных регионах. С помощью этой информации расстояние Жаккара можно использовать для нахождения нормализованного расстояния между всеми локусами.
Аналитика графов, или сетевой анализ , — это изучение графов, которые представляют связи между различными объектами. Графы могут представлять все виды сетей в биологии, такие как сети взаимодействия белок-белок , регуляторные сети, метаболические и биохимические сети и многое другое. Существует много способов анализа этих сетей. Один из них — рассмотрение центральности в графах. Нахождение центральности в графах присваивает узлам рейтинги их популярности или центральности в графе. Это может быть полезно для определения того, какие узлы наиболее важны. Например, имея данные об активности генов за определенный период времени, степень центральности можно использовать, чтобы увидеть, какие гены наиболее активны во всей сети или какие гены взаимодействуют с другими больше всего во всей сети. Это способствует пониманию ролей, которые определенные гены играют в сети.
Существует много способов вычисления центральности в графах, каждый из которых может дать различные виды информации о центральности. Поиск центральности в биологии может применяться во многих различных обстоятельствах, некоторые из которых — это генная регуляция, взаимодействие белков и метаболические сети. [32]
Контролируемое обучение — это тип алгоритма, который обучается на маркированных данных и изучает, как назначать метки будущим данным, которые не маркированы. В биологии контролируемое обучение может быть полезным, когда у нас есть данные, которые мы знаем, как категоризовать, и мы хотели бы категоризовать больше данных по этим категориям.
Распространенным алгоритмом контролируемого обучения является случайный лес , который использует многочисленные деревья решений для обучения модели классификации набора данных. Формируя основу случайного леса, дерево решений представляет собой структуру, которая направлена на классификацию или маркировку некоторого набора данных с использованием определенных известных характеристик этих данных. Практическим биологическим примером этого может быть взятие генетических данных человека и прогнозирование того, предрасположен ли этот человек к развитию определенного заболевания или рака. В каждом внутреннем узле алгоритм проверяет набор данных на наличие ровно одной характеристики, определенного гена в предыдущем примере, а затем разветвляется влево или вправо на основе результата. Затем в каждом узле листа дерево решений назначает метку класса набору данных. Таким образом, на практике алгоритм проходит определенный путь от корня к листу на основе входного набора данных через дерево решений, что приводит к классификации этого набора данных. Обычно деревья решений имеют целевые переменные, которые принимают дискретные значения, такие как да/нет, в этом случае оно называется деревом классификации , но если целевая переменная непрерывна, то оно называется деревом регрессии . Чтобы построить дерево решений, его необходимо сначала обучить с использованием обучающего набора, чтобы определить, какие признаки являются наилучшими предикторами целевой переменной.
Программное обеспечение с открытым исходным кодом предоставляет платформу для вычислительной биологии, где каждый может получить доступ и воспользоваться программным обеспечением, разработанным в ходе исследований. PLOS приводит [ требуется цитата ] четыре основные причины использования программного обеспечения с открытым исходным кодом:
Существует несколько крупных конференций, посвященных вычислительной биологии. Некоторые примечательные примеры — Intelligent Systems for Molecular Biology , European Conference on Computational Biology и Research in Computational Molecular Biology .
Существует также множество журналов, посвященных вычислительной биологии. Некоторые примечательные примеры включают Journal of Computational Biology и PLOS Computational Biology , рецензируемый журнал открытого доступа , в котором опубликовано множество примечательных исследовательских проектов в области вычислительной биологии. Они предоставляют обзоры программного обеспечения , руководства по программному обеспечению с открытым исходным кодом и отображают информацию о предстоящих конференциях по вычислительной биологии. [ требуется ссылка ] Другие журналы, имеющие отношение к этой области, включают Bioinformatics , Computers in Biology and Medicine , BMC Bioinformatics , Nature Methods , Nature Communications , Scientific Reports , PLOS One и т. д .
Вычислительная биология, биоинформатика и математическая биология являются междисциплинарными подходами к наукам о жизни , которые черпают вдохновение из количественных дисциплин, таких как математика и информатика . NIH описывает вычислительную/математическую биологию как использование вычислительных/математических подходов для решения теоретических и экспериментальных вопросов в биологии и, напротив, биоинформатику как применение информационной науки для понимания сложных данных в науках о жизни. [1]
В частности, NIH определяет
Вычислительная биология: разработка и применение аналитических и теоретических методов, математического моделирования и методов компьютерного моделирования для изучения биологических, поведенческих и социальных систем. [1]
Биоинформатика: исследование, разработка или применение вычислительных инструментов и подходов для расширения использования биологических, медицинских, поведенческих или медицинских данных, включая те, которые необходимы для получения, хранения, организации, архивации, анализа или визуализации таких данных. [1]
Хотя каждая область индивидуальна, на их стыке может быть много совпадений [1], настолько существенных, что для многих термины «биоинформатика» и «вычислительная биология» используются как взаимозаменяемые.
Термины вычислительная биология и эволюционное вычисление имеют схожее название, но их не следует путать. В отличие от вычислительной биологии, эволюционное вычисление не занимается моделированием и анализом биологических данных. Вместо этого оно создает алгоритмы, основанные на идеях эволюции между видами. Иногда называемые генетическими алгоритмами , исследования в этой области могут быть применены к вычислительной биологии. Хотя эволюционное вычисление по своей сути не является частью вычислительной биологии, вычислительная эволюционная биология является ее подразделом. [34]