Биоинформатика ( / ˌ b aɪ . oʊ ˌ ɪ n f ər ˈ m æ t ɪ k s / ) —междисциплинарнаяобластьнауки, которая разрабатывает методы ипрограммные средствадля пониманиябиологическихданных, особенно когда наборы данных большие и сложные. Биоинформатика используетбиологию,химию,,информатику,компьютерноепрограммирование,информационную инженерию,математикуистатистикудля анализа и интерпретациибиологических данных. Последующий процесс анализа и интерпретации данных часто называютвычислительной биологией, хотя различие между этими двумя терминами часто оспаривается.
Вычислительные, статистические и компьютерные программные методы использовались для компьютерного моделирования биологических запросов. Они включают повторно используемые специфические аналитические «конвейеры», особенно в области геномики , такие как идентификация генов и однонуклеотидных полиморфизмов ( SNP ). Эти конвейеры используются для лучшего понимания генетической основы болезни, уникальных адаптаций, желаемых свойств (особенно у сельскохозяйственных видов) или различий между популяциями. Биоинформатика также включает протеомику , которая пытается понять организационные принципы в последовательностях нуклеиновых кислот и белков . [1]
Обработка изображений и сигналов позволяет извлекать полезные результаты из больших объемов необработанных данных. В области генетики это помогает в секвенировании и аннотировании геномов и их наблюдаемых мутаций . Биоинформатика включает в себя интеллектуальный анализ текста биологической литературы и разработку биологических и генных онтологий для организации и запроса биологических данных. Это также играет роль в анализе экспрессии и регуляции генов и белков. Инструменты биоинформатики помогают в сравнении, анализе и интерпретации генетических и геномных данных и, в более общем плане, в понимании эволюционных аспектов молекулярной биологии. На более интегративном уровне это помогает анализировать и каталогизировать биологические пути и сети, которые являются важной частью системной биологии . В структурной биологии это помогает в моделировании и имитации ДНК, [2] РНК, [2] [3] белков [4], а также биомолекулярных взаимодействий. [5] [6] [7] [8]
Первое определение термина «биоинформатика» было введено Паулином Хогевегом и Беном Хеспером в 1970 году для обозначения изучения информационных процессов в биотических системах. [9] [10] [11] [12] [13] Это определение поставило биоинформатику в ряд с биохимией (изучение химических процессов в биологических системах). [10]
Биоинформатика и вычислительная биология включали анализ биологических данных, в частности ДНК, РНК и белковых последовательностей. Область биоинформатики испытала взрывной рост, начиная с середины 1990-х годов, во многом обусловленный проектом « Геном человека» и быстрым прогрессом в технологии секвенирования ДНК. [ необходима цитата ]
Анализ биологических данных для получения значимой информации включает написание и запуск программ, которые используют алгоритмы из теории графов , искусственного интеллекта , мягких вычислений , добычи данных , обработки изображений и компьютерного моделирования . Алгоритмы, в свою очередь, зависят от теоретических основ, таких как дискретная математика , теория управления , теория систем , теория информации и статистика . [ требуется ссылка ]
С момента завершения проекта «Геном человека» был достигнут колоссальный прогресс в скорости и снижении затрат: некоторые лаборатории способны секвенировать более 100 000 миллиардов оснований в год, а полный геном может быть секвенирован за 1000 долларов или меньше. [14]
Компьютеры стали необходимыми в молекулярной биологии, когда белковые последовательности стали доступны после того, как Фредерик Сэнгер определил последовательность инсулина в начале 1950-х годов. [15] [16] Сравнение нескольких последовательностей вручную оказалось непрактичным. Маргарет Окли Дейхофф , пионер в этой области, [17] составила одну из первых баз данных белковых последовательностей, первоначально опубликованную в виде книг [18], а также методы выравнивания последовательностей и молекулярной эволюции . [19] Другим ранним участником биоинформатики был Элвин А. Кабат , который был пионером анализа биологических последовательностей в 1970 году, когда его всеобъемлющие тома последовательностей антител были опубликованы онлайн совместно с Тай Те Ву в период с 1980 по 1991 год. [20]
В 1970-х годах новые методы секвенирования ДНК были применены к бактериофагу MS2 и øX174, а затем расширенные нуклеотидные последовательности были проанализированы с помощью информационных и статистических алгоритмов. Эти исследования показали, что хорошо известные особенности, такие как кодирующие сегменты и триплетный код, выявляются в простых статистических анализах и были доказательством концепции, что биоинформатика будет проницательной. [21] [22]
Для того, чтобы изучить, как нормальная клеточная активность изменяется при различных болезненных состояниях, необходимо объединить необработанные биологические данные, чтобы сформировать всеобъемлющую картину этой активности. Поэтому [ когда? ] область биоинформатики развилась таким образом, что наиболее насущной задачей теперь является анализ и интерпретация различных типов данных. Это также включает в себя последовательности нуклеотидов и аминокислот , домены белков и структуры белков . [23]
Важные субдисциплины биоинформатики и вычислительной биологии включают в себя:
Основная цель биоинформатики — улучшить понимание биологических процессов. От других подходов ее отличает сосредоточенность на разработке и применении вычислительно-интенсивных методов для достижения этой цели. Примеры включают: распознавание образов , интеллектуальный анализ данных , алгоритмы машинного обучения и визуализацию . Основные исследовательские работы в этой области включают выравнивание последовательностей , поиск генов , сборку генома , разработку лекарств , открытие лекарств , выравнивание структуры белка , прогнозирование структуры белка , прогнозирование экспрессии генов и белок-белковых взаимодействий , исследования ассоциаций на уровне всего генома , моделирование эволюции и деления клеток/митоза.
Биоинформатика занимается созданием и развитием баз данных, алгоритмов, вычислительных и статистических методов, а также теорий для решения формальных и практических проблем, возникающих при управлении и анализе биологических данных.
За последние несколько десятилетий быстрое развитие геномных и других молекулярных исследовательских технологий, а также развитие информационных технологий объединились, чтобы произвести колоссальный объем информации, связанной с молекулярной биологией. Биоинформатика — это название, данное этим математическим и вычислительным подходам, используемым для познания биологических процессов.
Распространенные виды деятельности в области биоинформатики включают картирование и анализ последовательностей ДНК и белков, выравнивание последовательностей ДНК и белков для их сравнения, а также создание и просмотр трехмерных моделей структур белков.
С тех пор как в 1977 году был секвенирован бактериофаг Phage Φ-X174 , [24] последовательности ДНК тысяч организмов были расшифрованы и сохранены в базах данных. Эта информация о последовательностях анализируется для определения генов, кодирующих белки , гены РНК, регуляторные последовательности, структурные мотивы и повторяющиеся последовательности. Сравнение генов внутри вида или между разными видами может показать сходство между функциями белков или отношения между видами (использование молекулярной систематики для построения филогенетических деревьев ). С ростом объема данных уже давно стало непрактичным анализировать последовательности ДНК вручную. Компьютерные программы , такие как BLAST, используются регулярно для поиска последовательностей — по состоянию на 2008 год, из более чем 260 000 организмов, содержащих более 190 миллиардов нуклеотидов . [25]
Прежде чем последовательности можно будет проанализировать, их берут из банка данных, например GenBank. Секвенирование ДНК все еще остается нетривиальной задачей, поскольку исходные данные могут быть зашумленными или на них могут влиять слабые сигналы. Разработаны алгоритмы для вызова оснований для различных экспериментальных подходов к секвенированию ДНК.
Большинство методов секвенирования ДНК производят короткие фрагменты последовательности, которые необходимо собрать для получения полных последовательностей генов или генома. Метод дробового секвенирования (используемый Институтом геномных исследований (TIGR) для секвенирования первого бактериального генома, Haemophilus influenzae ) [26] генерирует последовательности многих тысяч небольших фрагментов ДНК (длиной от 35 до 900 нуклеотидов, в зависимости от технологии секвенирования). Концы этих фрагментов перекрываются и, при правильном выравнивании программой сборки генома, могут использоваться для реконструкции полного генома. Дробовое секвенирование быстро дает данные о последовательности, но задача сборки фрагментов может быть довольно сложной для более крупных геномов. Для генома такого размера, как геном человека , может потребоваться много дней процессорного времени на многопроцессорных компьютерах с большой памятью для сборки фрагментов, и полученная сборка обычно содержит многочисленные пробелы, которые необходимо заполнить позже. Метод дробового секвенирования является предпочтительным методом для секвенирования практически всех геномов (в отличие от методов обрыва цепи или химической деградации), а алгоритмы сборки генома являются важнейшей областью исследований в области биоинформатики.
В геномике аннотация относится к процессу маркировки участков остановки и начала генов и других биологических признаков в секвенированной последовательности ДНК. Многие геномы слишком велики, чтобы их можно было аннотировать вручную. Поскольку скорость секвенирования превышает скорость аннотации генома, аннотация генома стала новым узким местом в биоинформатике [ когда? ] .
Аннотацию генома можно разделить на три уровня: нуклеотидный , белковый и процессный.
Поиск генов является главным аспектом аннотации на уровне нуклеотидов. Для сложных геномов может быть успешной комбинация ab initio предсказания генов и сравнения последовательностей с базами данных экспрессированных последовательностей и другими организмами. Аннотация на уровне нуклеотидов также позволяет интегрировать последовательность генома с другими генетическими и физическими картами генома.
Основная цель аннотации на уровне белков — приписать функцию белковым продуктам генома. Для этого типа аннотации используются базы данных белковых последовательностей, функциональных доменов и мотивов. Около половины предсказанных белков в новой последовательности генома, как правило, не имеют очевидной функции.
Понимание функции генов и их продуктов в контексте клеточной и организменной физиологии является целью аннотации на уровне процесса. Препятствием аннотации на уровне процесса была непоследовательность терминов, используемых различными модельными системами. Консорциум онтологии генов помогает решить эту проблему. [27]
Первое описание комплексной системы аннотаций было опубликовано в 1995 году [26] Институтом геномных исследований , который выполнил первое полное секвенирование и анализ генома свободноживущего (несимбиотического ) организма, бактерии Haemophilus influenzae . [26] Система идентифицирует гены, кодирующие все белки, транспортные РНК, рибосомальные РНК, для того, чтобы сделать начальные функциональные назначения. Программа GeneMark , обученная находить гены, кодирующие белки в Haemophilus influenzae, постоянно меняется и совершенствуется.
Следуя целям, которые проект «Геном человека» должен был достичь после своего закрытия в 2003 году, Национальный институт исследований генома человека разработал проект ENCODE . Этот проект представляет собой совместный сбор данных функциональных элементов генома человека, использующий технологии секвенирования ДНК следующего поколения и геномные мозаичные массивы, технологии, способные автоматически генерировать большие объемы данных при значительно сниженной стоимости на основание, но с той же точностью (ошибка вызова основания) и достоверностью (ошибка сборки).
В то время как аннотация генома в первую очередь основана на сходстве последовательностей (и, следовательно, гомологии ), другие свойства последовательностей могут быть использованы для предсказания функции генов. Фактически, большинство методов предсказания функции гена фокусируются на последовательностях белка , поскольку они более информативны и более богаты функциями. Например, распределение гидрофобных аминокислот предсказывает трансмембранные сегменты в белках. Однако предсказание функции белка может также использовать внешнюю информацию, такую как данные об экспрессии гена (или белка), структура белка или взаимодействия белок-белок . [28]
Эволюционная биология — это изучение происхождения и происхождения видов , а также их изменений с течением времени. Информатика помогла эволюционным биологам, предоставив исследователям возможность:
Будущая работа направлена на реконструкцию теперь уже более сложного древа жизни . [ по чьему мнению? ]
Ядром сравнительного геномного анализа является установление соответствия между генами ( анализ ортологии ) или другими геномными признаками у разных организмов. Межгеномные карты создаются для отслеживания эволюционных процессов, ответственных за расхождение двух геномов. Множество эволюционных событий, действующих на различных организационных уровнях, формируют эволюцию генома. На самом низком уровне точечные мутации затрагивают отдельные нуклеотиды. На более высоком уровне крупные хромосомные сегменты подвергаются дупликации, латеральному переносу, инверсии, транспозиции, делеции и вставке. [30] Целые геномы участвуют в процессах гибридизации, полиплоидизации и эндосимбиоза, которые приводят к быстрому видообразованию. Сложность эволюции генома ставит множество захватывающих задач перед разработчиками математических моделей и алгоритмов, которым приходится прибегать к целому спектру алгоритмических, статистических и математических методов, начиная от точных, эвристических , алгоритмов с фиксированными параметрами и аппроксимационных алгоритмов для задач, основанных на моделях экономии, до алгоритмов Монте-Карло на основе цепей Маркова для байесовского анализа задач, основанных на вероятностных моделях.
Многие из этих исследований основаны на обнаружении гомологии последовательностей для назначения последовательностей семействам белков . [31]
Пангеномика — это концепция, введенная в 2005 году Теттелином и Медини. Пангеном — это полный репертуар генов определенной монофилетической таксономической группы. Хотя изначально он применялся к близкородственным штаммам вида, его можно применять и в более широком контексте, например, к роду, типу и т. д. Он делится на две части: основной геном, набор генов, общих для всех изучаемых геномов (часто это гены домашнего хозяйства, жизненно важные для выживания), и необязательный/гибкий геном: набор генов, не присутствующих во всех, кроме одного или нескольких изучаемых геномов. Биоинформатический инструмент BPGA может использоваться для характеристики пангенома видов бактерий. [32]
По состоянию на 2013 год существование эффективной высокопроизводительной технологии секвенирования следующего поколения позволяет идентифицировать причины многих различных заболеваний человека. Простое менделевское наследование наблюдалось для более чем 3000 заболеваний, которые были идентифицированы в базе данных Online Mendelian Inheritance in Man , но сложные заболевания сложнее. Исследования ассоциаций обнаружили много отдельных генетических регионов, которые по отдельности слабо связаны со сложными заболеваниями (такими как бесплодие , [33] рак груди [34] и болезнь Альцгеймера [35] ), а не с одной причиной. [36] [37] В настоящее время существует много проблем с использованием генов для диагностики и лечения, например, то, что мы не знаем, какие гены важны, или насколько стабильны варианты, предоставляемые алгоритмом. [38]
Исследования ассоциаций по всему геному успешно выявили тысячи общих генетических вариантов для сложных заболеваний и признаков; однако эти общие варианты объясняют лишь малую часть наследуемости. [39] Редкие варианты могут объяснять часть недостающей наследуемости . [40] Крупномасштабные исследования по секвенированию всего генома быстро секвенировали миллионы целых геномов, и такие исследования выявили сотни миллионов редких вариантов . [41] Функциональные аннотации предсказывают эффект или функцию генетического варианта и помогают расставить приоритеты среди редких функциональных вариантов, а включение этих аннотаций может эффективно повысить мощность анализа генетической ассоциации редких вариантов в исследованиях по секвенированию всего генома. [42] Были разработаны некоторые инструменты для обеспечения комплексного анализа ассоциаций редких вариантов для данных секвенирования всего генома, включая интеграцию данных генотипа и их функциональных аннотаций, анализ ассоциаций, сводку результатов и визуализацию. [43] [44] Метаанализ исследований по секвенированию всего генома представляет собой привлекательное решение проблемы сбора больших выборок для обнаружения редких вариантов, связанных со сложными фенотипами. [45]
При раке геномы пораженных клеток перестраиваются сложным или непредсказуемым образом. В дополнение к массивам полиморфизма отдельных нуклеотидов, идентифицирующим точечные мутации , вызывающие рак, микромассивы олигонуклеотидов могут использоваться для идентификации хромосомных приобретений и потерь (так называемая сравнительная геномная гибридизация ). Эти методы обнаружения генерируют терабайты данных за эксперимент. Часто обнаруживается, что данные содержат значительную изменчивость или шум , и поэтому разрабатываются методы анализа скрытых марковских моделей и точек изменения для вывода реальных изменений числа копий . [ необходима цитата ]
Для определения рака по мутациям в экзоме можно использовать два важных принципа . Во-первых, рак — это болезнь накопленных соматических мутаций в генах. Во-вторых, рак содержит мутации-водители, которые необходимо отличать от мутаций-пассажиров. [46]
Дальнейшие усовершенствования в биоинформатике могут позволить классифицировать типы рака путем анализа мутаций в геноме, вызванных раком. Кроме того, отслеживание пациентов по мере прогрессирования заболевания может стать возможным в будущем с помощью последовательности образцов рака. Другим типом данных, требующим разработки новой информатики, является анализ поражений, которые , как обнаружено, являются рецидивирующими среди многих опухолей. [47]
Экспрессию многих генов можно определить, измерив уровни мРНК с помощью нескольких методов, включая микрочипы , секвенирование экспрессированной ДНК-последовательности (EST), последовательный анализ секвенирования тегов генной экспрессии (SAGE), массивное параллельное секвенирование сигнатур (MPSS), РНК-Seq , также известное как «секвенирование всего транскриптома методом дробовика» (WTSS), или различные приложения мультиплексной гибридизации in situ. Все эти методы чрезвычайно подвержены шуму и/или подвержены смещению в биологических измерениях, и основная область исследований в области вычислительной биологии включает разработку статистических инструментов для отделения сигнала от шума в высокопроизводительных исследованиях экспрессии генов. [48] Такие исследования часто используются для определения генов, вовлеченных в расстройство: можно сравнить данные микрочипов из раковых эпителиальных клеток с данными из нераковых клеток, чтобы определить транскрипты, которые активируются и деактивируются в определенной популяции раковых клеток.
Микрочипы белков и масс-спектрометрия высокой пропускной способности (ВТ) могут предоставить моментальный снимок белков, присутствующих в биологическом образце. Первый подход сталкивается с теми же проблемами, что и микрочипы, нацеленные на мРНК, последний включает проблему сопоставления больших объемов данных о массе с прогнозируемыми массами из баз данных последовательностей белков и сложный статистический анализ образцов, когда обнаруживаются несколько неполных пептидов из каждого белка. Локализация клеточного белка в контексте ткани может быть достигнута с помощью аффинной протеомики, отображаемой в виде пространственных данных на основе иммуногистохимии и тканевых микрочипов . [49]
Регуляция генов — это сложный процесс, в котором сигнал, например внеклеточный сигнал, такой как гормон , в конечном итоге приводит к увеличению или уменьшению активности одного или нескольких белков . Для изучения различных этапов этого процесса были применены методы биоинформатики.
Например, экспрессия гена может регулироваться близлежащими элементами в геноме. Анализ промотора включает в себя идентификацию и изучение мотивов последовательности в ДНК, окружающей белок-кодирующий регион гена. Эти мотивы влияют на степень, в которой этот регион транскрибируется в мРНК. Элементы- усилители, удаленные от промотора, также могут регулировать экспрессию гена посредством трехмерных петлевых взаимодействий. Эти взаимодействия могут быть определены с помощью биоинформатического анализа экспериментов по захвату конформации хромосом .
Данные об экспрессии можно использовать для вывода о регуляции генов: можно сравнивать данные микрочипов из самых разных состояний организма, чтобы сформировать гипотезы о генах, участвующих в каждом состоянии. В одноклеточном организме можно сравнивать стадии клеточного цикла , а также различные стрессовые условия (тепловой шок, голодание и т. д.). Затем к данным об экспрессии можно применять алгоритмы кластеризации , чтобы определить, какие гены коэкспрессируются. Например, можно искать области выше по течению (промоторы) коэкспрессируемых генов на предмет перепредставленных регуляторных элементов . Примерами алгоритмов кластеризации, применяемых при кластеризации генов, являются кластеризация k-средних , самоорганизующиеся карты (SOM), иерархическая кластеризация и методы консенсусной кластеризации .
Было разработано несколько подходов для анализа расположения органелл, генов, белков и других компонентов внутри клеток. Была разработана категория онтологии генов , клеточный компонент , для захвата субклеточной локализации во многих биологических базах данных .
Микроскопические изображения позволяют определить местонахождение органелл , а также молекул, которые могут быть источником отклонений при заболеваниях.
Нахождение местоположения белков позволяет нам предсказать, что они делают. Это называется предсказанием функции белка . Например, если белок находится в ядре , он может участвовать в регуляции генов или сплайсинге . Напротив, если белок находится в митохондриях , он может участвовать в дыхании или других метаболических процессах . Существуют хорошо разработанные ресурсы для предсказания субклеточной локализации белка , включая базы данных субклеточного расположения белка и инструменты предсказания. [50] [51]
Данные высокопроизводительных экспериментов по захвату конформации хромосом , таких как Hi-C (эксперимент) и ChIA-PET , могут предоставить информацию о трехмерной структуре и ядерной организации хроматина . Биоинформационные проблемы в этой области включают разделение генома на домены, такие как топологически ассоциированные домены (TAD), которые организованы вместе в трехмерном пространстве. [52]
Нахождение структуры белков является важным приложением биоинформатики. Критическая оценка предсказания структуры белка (CASP) — это открытый конкурс, в котором исследовательские группы со всего мира представляют модели белков для оценки неизвестных моделей белков. [53] [54]
Линейная аминокислотная последовательность белка называется первичной структурой . Первичную структуру можно легко определить из последовательности кодонов в гене ДНК, который ее кодирует. В большинстве белков первичная структура однозначно определяет трехмерную структуру белка в его естественной среде. Исключением является неправильно свернутый белок, участвующий в губчатой энцефалопатии крупного рогатого скота . Эта структура связана с функцией белка. Дополнительная структурная информация включает вторичную , третичную и четвертичную структуру. Жизнеспособное общее решение для предсказания функции белка остается открытой проблемой. До сих пор большинство усилий было направлено на эвристики, которые работают большую часть времени. [ необходима цитата ]
В геномной ветви биоинформатики гомология используется для предсказания функции гена: если последовательность гена A , функция которого известна, гомологична последовательности гена B, функция которого неизвестна, можно сделать вывод, что B может разделять функцию A. В структурной биоинформатике гомология используется для определения того, какие части белка важны для формирования структуры и взаимодействия с другими белками. Моделирование гомологии используется для предсказания структуры неизвестного белка из существующих гомологичных белков.
Одним из примеров этого является гемоглобин у людей и гемоглобин в бобовых ( леггемоглобин ), которые являются дальними родственниками из одного и того же суперсемейства белков . Оба служат одной и той же цели — переносу кислорода в организме. Хотя оба этих белка имеют совершенно разные аминокислотные последовательности, их белковые структуры практически идентичны, что отражает их почти идентичные цели и общего предка. [55]
Другие методы прогнозирования структуры белка включают в себя белковое нитеобразование и физическое моделирование de novo (с нуля).
Другой аспект структурной биоинформатики включает использование структур белков для моделей виртуального скрининга , таких как модели количественной связи структуры и активности и протеохемометрические модели (PCM). Кроме того, кристаллическая структура белка может быть использована в моделировании, например, исследований связывания лигандов и исследований мутагенеза in silico .
Программное обеспечение AlphaFold , разработанное компанией DeepMind компании Google в 2021 году на основе алгоритмов глубокого обучения , значительно превосходит все другие методы прогнозирования программного обеспечения [56] [ как? ] и опубликовало предсказанные структуры для сотен миллионов белков в базе данных структур белков AlphaFold. [57]
Сетевой анализ стремится понять отношения внутри биологических сетей, таких как метаболические или белок-белковые сети взаимодействия . Хотя биологические сети могут быть построены из одного типа молекулы или сущности (например, генов), сетевая биология часто пытается интегрировать множество различных типов данных, таких как белки, малые молекулы, данные об экспрессии генов и другие, которые все связаны физически, функционально или и тем, и другим.
Системная биология включает в себя использование компьютерного моделирования клеточных подсистем (таких как сети метаболитов и ферментов , которые составляют метаболизм , пути передачи сигналов и сети регуляции генов ) для анализа и визуализации сложных связей этих клеточных процессов. Искусственная жизнь или виртуальная эволюция пытается понять эволюционные процессы посредством компьютерного моделирования простых (искусственных) форм жизни.
Десятки тысяч трехмерных структур белков были определены с помощью рентгеновской кристаллографии и спектроскопии ядерного магнитного резонанса белков (ЯМР белков), и центральным вопросом в структурной биоинформатике является вопрос о том, практично ли предсказывать возможные взаимодействия белок-белок только на основе этих трехмерных форм, без проведения экспериментов по взаимодействию белок-белок . Разработано множество методов для решения проблемы стыковки белок-белок , хотя, по-видимому, в этой области еще многое предстоит сделать.
Другие взаимодействия, встречающиеся в этой области, включают белок-лиганд (включая лекарство) и белок-пептид. Молекулярно-динамическое моделирование движения атомов вокруг вращающихся связей является фундаментальным принципом вычислительных алгоритмов , называемых алгоритмами стыковки, для изучения молекулярных взаимодействий .
Информатика биоразнообразия занимается сбором и анализом данных о биоразнообразии , таких как таксономические базы данных или данные микробиома . Примерами таких анализов являются филогенетика , моделирование ниш , картирование видового богатства , ДНК-штрихкодирование или инструменты идентификации видов . Растущей областью также является макроэкология , т. е. изучение того, как биоразнообразие связано с экологией и человеческим воздействием, таким как изменение климата .
Огромное количество опубликованной литературы делает практически невозможным для отдельных лиц читать каждую статью, что приводит к разрозненным подобластям исследований. Анализ литературы направлен на использование вычислительной и статистической лингвистики для добычи этой растущей библиотеки текстовых ресурсов. Например:
Область исследований охватывает статистику и компьютерную лингвистику .
Вычислительные технологии используются для автоматизации обработки, количественной оценки и анализа больших объемов биомедицинских изображений с высоким содержанием информации . Современные системы анализа изображений могут улучшить точность , объективность или скорость наблюдателя . Анализ изображений важен как для диагностики , так и для исследований. Вот несколько примеров:
Вычислительные методы используются для анализа высокопроизводительных данных по отдельным клеткам с малыми измерениями, например, полученных с помощью проточной цитометрии . Эти методы обычно включают поиск популяций клеток, которые имеют отношение к определенному болезненному состоянию или экспериментальному состоянию.
Биологические онтологии — это направленные ациклические графы контролируемых словарей . Они создают категории для биологических концепций и описаний, чтобы их можно было легко анализировать с помощью компьютеров. При такой классификации можно получить дополнительную ценность от целостного и комплексного анализа. [ необходима цитата ]
OBO Foundry была попыткой стандартизировать некоторые онтологии. Одной из самых распространенных является онтология Gene , которая описывает функцию гена. Существуют также онтологии, которые описывают фенотипы.
Базы данных необходимы для исследований и приложений в области биоинформатики. Существуют базы данных для множества различных типов информации, включая последовательности ДНК и белков, молекулярные структуры, фенотипы и биоразнообразие. Базы данных могут содержать как эмпирические данные (полученные непосредственно из экспериментов), так и прогнозируемые данные (полученные из анализа существующих данных). Они могут быть специфичными для конкретного организма, пути или молекулы, представляющих интерес. В качестве альтернативы они могут включать данные, собранные из нескольких других баз данных. Базы данных могут иметь различные форматы, механизмы доступа и быть публичными или частными.
Ниже перечислены некоторые из наиболее часто используемых баз данных:
Программные инструменты для биоинформатики включают простые инструменты командной строки, более сложные графические программы и автономные веб-сервисы. Они производятся биоинформатическими компаниями или государственными учреждениями.
Многие бесплатные и открытые программные инструменты существовали и продолжали расти с 1980-х годов. [59] Сочетание постоянной потребности в новых алгоритмах для анализа новых типов биологических показаний, потенциала инновационных экспериментов in silico и свободно доступных открытых баз кода создало возможности для исследовательских групп вносить вклад в биоинформатику независимо от финансирования . Инструменты с открытым исходным кодом часто выступают в качестве инкубаторов идей или поддерживаемых сообществом подключаемых модулей в коммерческих приложениях. Они также могут предоставлять фактические стандарты и общие объектные модели для оказания помощи в решении проблемы интеграции биоинформации.
Биоинформатическое программное обеспечение с открытым исходным кодом включает Bioconductor , BioPerl , Biopython , BioJava , BioJS , BioRuby , Bioclipse , EMBOSS , .NET Bio, Orange с его дополнением по биоинформатике, Apache Taverna , UGENE и GenoCAD .
Некоммерческий фонд Open Bioinformatics Foundation [59] и ежегодная конференция Bioinformatics Open Source Conference продвигают программное обеспечение для биоинформатики с открытым исходным кодом. [60]
Интерфейсы на основе SOAP и REST были разработаны для того, чтобы позволить клиентским компьютерам использовать алгоритмы, данные и вычислительные ресурсы с серверов в других частях мира. Главное преимущество заключается в том, что конечным пользователям не приходится иметь дело с накладными расходами на программное обеспечение и обслуживание баз данных.
Базовые биоинформатические сервисы классифицируются EBI на три категории: SSS (сервисы поиска последовательностей), MSA (множественное выравнивание последовательностей) и BSA (анализ биологических последовательностей). [61] Доступность этих сервисно-ориентированных биоинформатических ресурсов демонстрирует применимость веб-решений в области биоинформатики и варьируется от набора автономных инструментов с общим форматом данных в рамках единого веб-интерфейса до интегративных, распределенных и расширяемых систем управления рабочими процессами в области биоинформатики .
Система управления рабочим процессом биоинформатики — это специализированная форма системы управления рабочим процессом, разработанная специально для составления и выполнения ряда вычислительных или манипуляционных шагов данных или рабочего процесса в приложении биоинформатики. Такие системы предназначены для
Некоторые платформы, предоставляющие эту услугу: Galaxy , Kepler , Taverna , UGENE , Anduril , HIVE .
В 2014 году Управление по контролю за продуктами и лекарствами США спонсировало конференцию, проведенную в кампусе Национального института здравоохранения в Бетесде, для обсуждения воспроизводимости в биоинформатике. [62] В течение следующих трех лет консорциум заинтересованных сторон регулярно встречался для обсуждения того, что станет парадигмой BioCompute. [63] В число этих заинтересованных сторон входили представители правительства, промышленности и академических организаций. Руководители сессий представляли многочисленные отделения институтов и центров FDA и NIH, некоммерческие организации, включая Human Variome Project и European Federation for Medical Informatics , а также научно-исследовательские институты, включая Стэнфорд , Нью-Йоркский геномный центр и Университет Джорджа Вашингтона .
Было решено, что парадигма BioCompute будет иметь форму цифровых «лабораторных блокнотов», которые позволяют воспроизводить, копировать, просматривать и повторно использовать протоколы биоинформатики. Это было предложено для обеспечения большей преемственности в исследовательской группе в ходе обычного кадрового потока, одновременно способствуя обмену идеями между группами. FDA США финансировало эту работу, чтобы информация о трубопроводах была более прозрачной и доступной для их регулирующего персонала. [64]
В 2016 году группа вновь собралась в NIH в Бетесде и обсудила потенциал объекта BioCompute , экземпляра парадигмы BioCompute. Эта работа была скопирована как документ «стандартного пробного использования» и как препринт, загруженный на bioRxiv. Объект BioCompute позволяет обмениваться записью в формате JSON между сотрудниками, соавторами и регулирующими органами. [65] [66]
Биоинформатика преподается не только как очная магистерская программа во многих университетах. Вычислительная природа биоинформатики позволяет использовать ее для компьютерного и онлайн-обучения . [67] [68] Программные платформы, разработанные для обучения концепциям и методам биоинформатики, включают Rosalind и онлайн-курсы, предлагаемые через Швейцарский институт биоинформатики Учебный портал. Канадские семинары по биоинформатике предоставляют видео и слайды с обучающих семинаров на своем веб-сайте по лицензии Creative Commons . Проект 4273π или проект 4273pi [69] также предлагает бесплатные образовательные материалы с открытым исходным кодом. Курс работает на недорогих компьютерах Raspberry Pi и использовался для обучения взрослых и школьников. [70] [71] 4273 активно разрабатывается консорциумом ученых и научных сотрудников, которые проводили исследовательскую биоинформатику с использованием компьютеров Raspberry Pi и операционной системы 4273π. [72] [73]
Платформы MOOC также предлагают онлайн-сертификацию по биоинформатике и смежным дисциплинам, включая специализацию по биоинформатике Coursera в Калифорнийском университете в Сан-Диего , специализацию по геномным данным в Университете Джонса Хопкинса и специализацию по анализу данных для наук о жизни XSeries от EdX в Гарвардском университете .
Существует несколько крупных конференций, посвященных биоинформатике. Некоторые из наиболее заметных примеров — Intelligent Systems for Molecular Biology (ISMB), European Conference on Computational Biology (ECCB) и Research in Computational Molecular Biology (RECOMB).