Биоинформатика

Ранняя биоинформатика — вычислительное выравнивание экспериментально определенных последовательностей класса родственных белков; дополнительную информацию см. в разделе Анализ последовательностей.

Биоинформатика ( / ˌ b aɪ . oʊ ˌ ɪ n f ər ˈ m æ t ɪ k s / ^ⓘ ) —междисциплинарнаяобластьнауки, которая разрабатывает методы ипрограммные средствадля пониманиябиологическихданных, особенно когда наборы данных большие и сложные. Биоинформатика используетбиологию,химию,,информатику,компьютерное программирование,информационную инженерию,математикуистатистикудля анализа и интерпретациибиологических данных. Процесс анализа и интерпретации данных иногда называютвычислительной биологией, однако это различие между двумя терминами часто оспаривается. Для некоторых термин вычислительная биология относится к построению и использованию моделей биологических систем.

Вычислительные, статистические и компьютерные программные методы использовались для компьютерного моделирования биологических запросов. Они включают повторно используемые специфические аналитические «конвейеры», особенно в области геномики , такие как идентификация генов и однонуклеотидных полиморфизмов ( SNP ). Эти конвейеры используются для лучшего понимания генетической основы болезни, уникальных адаптаций, желаемых свойств (особенно у сельскохозяйственных видов) или различий между популяциями. Биоинформатика также включает протеомику , которая пытается понять организационные принципы в последовательностях нуклеиновых кислот и белков . ^[1]

Обработка изображений и сигналов позволяет извлекать полезные результаты из больших объемов необработанных данных. В области генетики это помогает в секвенировании и аннотировании геномов и их наблюдаемых мутаций . Биоинформатика включает в себя интеллектуальный анализ текста биологической литературы и разработку биологических и генных онтологий для организации и запроса биологических данных. Это также играет роль в анализе экспрессии и регуляции генов и белков. Инструменты биоинформатики помогают в сравнении, анализе и интерпретации генетических и геномных данных и, в более общем плане, в понимании эволюционных аспектов молекулярной биологии. На более интегративном уровне это помогает анализировать и каталогизировать биологические пути и сети, которые являются важной частью системной биологии . В структурной биологии это помогает в моделировании и имитации ДНК, ^[2] РНК, ^[2]^[3] белков ^[4], а также биомолекулярных взаимодействий. ^[5]^[6]^[7]^[8]

История

Первое определение термина «биоинформатика» было введено Паулином Хогевегом и Беном Хеспером в 1970 году для обозначения изучения информационных процессов в биотических системах. ^[9]^[10]^[11]^[12]^[13] Это определение поставило биоинформатику в ряд с биохимией (изучение химических процессов в биологических системах). ^[10]

Биоинформатика и вычислительная биология включали анализ биологических данных, в частности ДНК, РНК и белковых последовательностей. Область биоинформатики испытала взрывной рост, начиная с середины 1990-х годов, во многом обусловленный проектом « Геном человека» и быстрым прогрессом в технологии секвенирования ДНК. ^{[ необходима цитата ]}

Анализ биологических данных для получения значимой информации включает написание и запуск программ, которые используют алгоритмы из теории графов , искусственного интеллекта , мягких вычислений , добычи данных , обработки изображений и компьютерного моделирования . Алгоритмы, в свою очередь, зависят от теоретических основ, таких как дискретная математика , теория управления , теория систем , теория информации и статистика . ^{[ требуется ссылка ]}

Последовательности

Последовательности генетического материала часто используются в биоинформатике, и ими легче управлять с помощью компьютеров, чем вручную.

С момента завершения проекта «Геном человека» был достигнут колоссальный прогресс в скорости и снижении затрат: некоторые лаборатории способны секвенировать более 100 000 миллиардов оснований в год, а полный геном может быть секвенирован за 1000 долларов или меньше. ^[14]

Компьютеры стали необходимыми в молекулярной биологии, когда белковые последовательности стали доступны после того, как Фредерик Сэнгер определил последовательность инсулина в начале 1950-х годов. ^[15]^[16] Сравнение нескольких последовательностей вручную оказалось непрактичным. Маргарет Окли Дейхофф , пионер в этой области, ^[17] составила одну из первых баз данных белковых последовательностей, первоначально опубликованную в виде книг ^[18], а также методы выравнивания последовательностей и молекулярной эволюции . ^[19] Другим ранним участником биоинформатики был Элвин А. Кабат , который был пионером анализа биологических последовательностей в 1970 году, когда его всеобъемлющие тома последовательностей антител были опубликованы онлайн совместно с Тай Те Ву в период с 1980 по 1991 год. ^[20]

В 1970-х годах новые методы секвенирования ДНК были применены к бактериофагу MS2 и øX174, а затем расширенные нуклеотидные последовательности были проанализированы с помощью информационных и статистических алгоритмов. Эти исследования показали, что хорошо известные особенности, такие как кодирующие сегменты и триплетный код, выявляются в простых статистических анализах и были доказательством концепции, что биоинформатика будет проницательной. ^[21]^[22]

Цели

Для того, чтобы изучить, как нормальная клеточная активность изменяется при различных болезненных состояниях, необходимо объединить необработанные биологические данные, чтобы сформировать всеобъемлющую картину этой активности. Поэтому ^{[ когда? ]} область биоинформатики развилась таким образом, что наиболее насущной задачей теперь является анализ и интерпретация различных типов данных. Это также включает в себя последовательности нуклеотидов и аминокислот , домены белков и структуры белков . ^[23]

Важные субдисциплины биоинформатики и вычислительной биологии включают в себя:

Разработка и внедрение компьютерных программ для эффективного доступа, управления и использования различных типов информации.
Разработка новых математических алгоритмов и статистических мер для оценки взаимосвязей между членами больших наборов данных. Например, существуют методы для определения местоположения гена в последовательности, для прогнозирования структуры белка и/или функции, а также для кластеризации последовательностей белка в семейства связанных последовательностей.

Основная цель биоинформатики — улучшить понимание биологических процессов. От других подходов ее отличает сосредоточенность на разработке и применении вычислительно-интенсивных методов для достижения этой цели. Примеры включают: распознавание образов , интеллектуальный анализ данных , алгоритмы машинного обучения и визуализацию . Основные исследовательские работы в этой области включают выравнивание последовательностей , поиск генов , сборку генома , разработку лекарств , открытие лекарств , выравнивание структуры белка , прогнозирование структуры белка , прогнозирование экспрессии генов и белок-белковых взаимодействий , исследования ассоциаций на уровне всего генома , моделирование эволюции и деления клеток/митоза.

Биоинформатика занимается созданием и развитием баз данных, алгоритмов, вычислительных и статистических методов, а также теорий для решения формальных и практических проблем, возникающих при управлении и анализе биологических данных.

За последние несколько десятилетий быстрое развитие геномных и других молекулярных исследовательских технологий, а также развитие информационных технологий объединились, чтобы произвести колоссальный объем информации, связанной с молекулярной биологией. Биоинформатика — это название, данное этим математическим и вычислительным подходам, используемым для познания биологических процессов.

Распространенные виды деятельности в области биоинформатики включают картирование и анализ последовательностей ДНК и белков, выравнивание последовательностей ДНК и белков для их сравнения, а также создание и просмотр трехмерных моделей структур белков.

Анализ последовательности

С тех пор как в 1977 году был секвенирован бактериофаг Phage Φ-X174 , ^[24] последовательности ДНК тысяч организмов были расшифрованы и сохранены в базах данных. Эта информация о последовательностях анализируется для определения генов, кодирующих белки , гены РНК, регуляторные последовательности, структурные мотивы и повторяющиеся последовательности. Сравнение генов внутри вида или между разными видами может показать сходство между функциями белков или отношения между видами (использование молекулярной систематики для построения филогенетических деревьев ). С ростом объема данных уже давно стало непрактичным анализировать последовательности ДНК вручную. Компьютерные программы , такие как BLAST, используются регулярно для поиска последовательностей — по состоянию на 2008 год, из более чем 260 000 организмов, содержащих более 190 миллиардов нуклеотидов . ^[25]

секвенирование ДНК

Прежде чем последовательности можно будет проанализировать, их берут из банка данных, например GenBank. Секвенирование ДНК все еще остается нетривиальной задачей, поскольку исходные данные могут быть зашумленными или на них могут влиять слабые сигналы. Разработаны алгоритмы для вызова оснований для различных экспериментальных подходов к секвенированию ДНК.

Последовательность сборки

Большинство методов секвенирования ДНК производят короткие фрагменты последовательности, которые необходимо собрать для получения полных последовательностей генов или генома. Метод дробового секвенирования (используемый Институтом геномных исследований (TIGR) для секвенирования первого бактериального генома, Haemophilus influenzae ) ^[26] генерирует последовательности многих тысяч небольших фрагментов ДНК (длиной от 35 до 900 нуклеотидов, в зависимости от технологии секвенирования). Концы этих фрагментов перекрываются и, при правильном выравнивании программой сборки генома, могут использоваться для реконструкции полного генома. Дробовое секвенирование быстро дает данные о последовательности, но задача сборки фрагментов может быть довольно сложной для более крупных геномов. Для генома такого размера, как геном человека , может потребоваться много дней процессорного времени на многопроцессорных компьютерах с большой памятью для сборки фрагментов, и полученная сборка обычно содержит многочисленные пробелы, которые необходимо заполнить позже. Метод дробового секвенирования является предпочтительным методом для секвенирования практически всех геномов (в отличие от методов обрыва цепи или химической деградации), а алгоритмы сборки генома являются важнейшей областью исследований в области биоинформатики.

Аннотация генома

В геномике аннотация относится к процессу маркировки участков остановки и начала генов и других биологических признаков в секвенированной последовательности ДНК. Многие геномы слишком велики, чтобы их можно было аннотировать вручную. Поскольку скорость секвенирования превышает скорость аннотации генома, аннотация генома стала новым узким местом в биоинформатике ^{[ когда? ]} .

Аннотацию генома можно разделить на три уровня: нуклеотидный , белковый и процессный.

Поиск генов является главным аспектом аннотации на уровне нуклеотидов. Для сложных геномов может быть успешной комбинация ab initio предсказания генов и сравнения последовательностей с базами данных экспрессированных последовательностей и другими организмами. Аннотация на уровне нуклеотидов также позволяет интегрировать последовательность генома с другими генетическими и физическими картами генома.

Основная цель аннотации на уровне белков — приписать функцию белковым продуктам генома. Для этого типа аннотации используются базы данных белковых последовательностей, функциональных доменов и мотивов. Около половины предсказанных белков в новой последовательности генома, как правило, не имеют очевидной функции.

Понимание функции генов и их продуктов в контексте клеточной и организменной физиологии является целью аннотации на уровне процесса. Препятствием аннотации на уровне процесса была непоследовательность терминов, используемых различными модельными системами. Консорциум онтологии генов помогает решить эту проблему. ^[27]

Первое описание комплексной системы аннотаций было опубликовано в 1995 году ^[26] Институтом геномных исследований , который выполнил первое полное секвенирование и анализ генома свободноживущего (несимбиотического ) организма, бактерии Haemophilus influenzae . ^[26] Система идентифицирует гены, кодирующие все белки, транспортные РНК, рибосомальные РНК, для того, чтобы сделать начальные функциональные назначения. Программа GeneMark , обученная находить гены, кодирующие белки в Haemophilus influenzae, постоянно меняется и совершенствуется.

Следуя целям, которые проект «Геном человека» должен был достичь после своего закрытия в 2003 году, Национальный институт исследований генома человека разработал проект ENCODE . Этот проект представляет собой совместный сбор данных функциональных элементов генома человека, использующий технологии секвенирования ДНК следующего поколения и геномные мозаичные массивы, технологии, способные автоматически генерировать большие объемы данных при значительно сниженной стоимости на основание, но с той же точностью (ошибка вызова основания) и достоверностью (ошибка сборки).

Прогнозирование функции гена

В то время как аннотация генома в первую очередь основана на сходстве последовательностей (и, следовательно, гомологии ), другие свойства последовательностей могут быть использованы для предсказания функции генов. Фактически, большинство методов предсказания функции гена фокусируются на последовательностях белка , поскольку они более информативны и более богаты функциями. Например, распределение гидрофобных аминокислот предсказывает трансмембранные сегменты в белках. Однако предсказание функции белка может также использовать внешнюю информацию, такую как данные об экспрессии гена (или белка), структура белка или взаимодействия белок-белок . ^[28]

Вычислительная эволюционная биология

Эволюционная биология — это изучение происхождения и происхождения видов , а также их изменений с течением времени. Информатика помогла эволюционным биологам, предоставив исследователям возможность:

проследить эволюцию большого количества организмов, измеряя изменения в их ДНК , а не только с помощью физической таксономии или физиологических наблюдений,
сравнивать целые геномы , что позволяет изучать более сложные эволюционные события, такие как дупликация генов , горизонтальный перенос генов и прогнозировать факторы, важные для видообразования бактерий ,
строить сложные вычислительные модели популяционной генетики для прогнозирования результатов системы с течением времени ^[29]
отслеживать и обмениваться информацией о все большем количестве видов и организмов

Будущая работа направлена на реконструкцию теперь уже более сложного древа жизни . ^{[ по чьему мнению? ]}

Сравнительная геномика

Ядром сравнительного геномного анализа является установление соответствия между генами ( анализ ортологии ) или другими геномными признаками у разных организмов. Межгеномные карты создаются для отслеживания эволюционных процессов, ответственных за расхождение двух геномов. Множество эволюционных событий, действующих на различных организационных уровнях, формируют эволюцию генома. На самом низком уровне точечные мутации затрагивают отдельные нуклеотиды. На более высоком уровне крупные хромосомные сегменты подвергаются дупликации, латеральному переносу, инверсии, транспозиции, делеции и вставке. ^[30] Целые геномы вовлечены в процессы гибридизации, полиплоидизации и эндосимбиоза, которые приводят к быстрому видообразованию. Сложность эволюции генома ставит множество захватывающих задач перед разработчиками математических моделей и алгоритмов, которым приходится прибегать к целому спектру алгоритмических, статистических и математических методов, начиная от точных, эвристических , алгоритмов с фиксированными параметрами и аппроксимационных алгоритмов для задач, основанных на моделях экономии, до алгоритмов Монте-Карло на основе цепей Маркова для байесовского анализа задач, основанных на вероятностных моделях.

Многие из этих исследований основаны на обнаружении гомологии последовательностей для назначения последовательностей семействам белков . ^[31]

Пангеномика

Пангеномика — это концепция, введенная в 2005 году Теттелином и Медини. Пангеном — это полный репертуар генов определенной монофилетической таксономической группы. Хотя изначально он применялся к близкородственным штаммам вида, его можно применять и в более широком контексте, например, к роду, типу и т. д. Он делится на две части: основной геном, набор генов, общих для всех изучаемых геномов (часто это гены домашнего хозяйства, жизненно важные для выживания), и необязательный/гибкий геном: набор генов, не присутствующих во всех, кроме одного или нескольких изучаемых геномов. Биоинформатический инструмент BPGA может использоваться для характеристики пангенома видов бактерий. ^[32]

Генетика болезней

По состоянию на 2013 год существование эффективной высокопроизводительной технологии секвенирования следующего поколения позволяет идентифицировать причины многих различных заболеваний человека. Простое менделевское наследование наблюдалось для более чем 3000 заболеваний, которые были идентифицированы в базе данных Online Mendelian Inheritance in Man , но сложные заболевания сложнее. Исследования ассоциаций обнаружили много отдельных генетических регионов, которые по отдельности слабо связаны со сложными заболеваниями (такими как бесплодие , ^[33] рак груди ^[34] и болезнь Альцгеймера ^[35] ), а не с одной причиной. ^[36]^[37] В настоящее время существует много проблем с использованием генов для диагностики и лечения, например, то, что мы не знаем, какие гены важны, или насколько стабильны варианты, предоставляемые алгоритмом. ^[38]

Исследования ассоциаций по всему геному успешно выявили тысячи общих генетических вариантов для сложных заболеваний и признаков; однако эти общие варианты объясняют лишь малую часть наследуемости. ^[39] Редкие варианты могут объяснять часть недостающей наследуемости . ^[40] Крупномасштабные исследования по секвенированию всего генома быстро секвенировали миллионы целых геномов, и такие исследования выявили сотни миллионов редких вариантов . ^[41] Функциональные аннотации предсказывают эффект или функцию генетического варианта и помогают расставить приоритеты среди редких функциональных вариантов, а включение этих аннотаций может эффективно повысить мощность анализа генетической ассоциации редких вариантов в исследованиях по секвенированию всего генома. ^[42] Были разработаны некоторые инструменты для обеспечения комплексного анализа ассоциаций редких вариантов для данных секвенирования всего генома, включая интеграцию данных генотипа и их функциональных аннотаций, анализ ассоциаций, сводку результатов и визуализацию. ^[43]^[44] Метаанализ исследований по секвенированию всего генома представляет собой привлекательное решение проблемы сбора больших выборок для обнаружения редких вариантов, связанных со сложными фенотипами. ^[45]

Анализ мутаций при раке

При раке геномы пораженных клеток перестраиваются сложным или непредсказуемым образом. В дополнение к массивам полиморфизма отдельных нуклеотидов, идентифицирующим точечные мутации , вызывающие рак, микромассивы олигонуклеотидов могут использоваться для идентификации хромосомных приобретений и потерь (так называемая сравнительная геномная гибридизация ). Эти методы обнаружения генерируют терабайты данных за эксперимент. Часто обнаруживается, что данные содержат значительную изменчивость или шум , и поэтому разрабатываются методы анализа скрытых марковских моделей и точек изменения для вывода реальных изменений числа копий . ^{[ необходима цитата ]}

Для определения рака по мутациям в экзоме можно использовать два важных принципа . Во-первых, рак — это болезнь накопленных соматических мутаций в генах. Во-вторых, рак содержит мутации-водители, которые необходимо отличать от мутаций-пассажиров. ^[46]

Дальнейшие усовершенствования в биоинформатике могут позволить классифицировать типы рака путем анализа мутаций в геноме, вызванных раком. Кроме того, отслеживание пациентов по мере прогрессирования заболевания может стать возможным в будущем с помощью последовательности образцов рака. Другим типом данных, требующим разработки новой информатики, является анализ поражений, которые , как обнаружено, являются рецидивирующими среди многих опухолей. ^[47]

Экспрессия генов и белков

Анализ экспрессии генов

Экспрессию многих генов можно определить, измерив уровни мРНК с помощью нескольких методов, включая микрочипы , секвенирование экспрессированной ДНК-последовательности (EST), последовательный анализ секвенирования тегов генной экспрессии (SAGE), массивное параллельное секвенирование сигнатур (MPSS), РНК-Seq , также известное как «секвенирование всего транскриптома методом дробовика» (WTSS), или различные приложения мультиплексной гибридизации in situ. Все эти методы чрезвычайно подвержены шуму и/или подвержены смещению в биологических измерениях, и основная область исследований в области вычислительной биологии включает разработку статистических инструментов для отделения сигнала от шума в высокопроизводительных исследованиях экспрессии генов. ^[48] Такие исследования часто используются для определения генов, вовлеченных в расстройство: можно сравнить данные микрочипов из раковых эпителиальных клеток с данными из нераковых клеток, чтобы определить транскрипты, которые активируются и деактивируются в определенной популяции раковых клеток.

Анализ экспрессии белка

Микрочипы белков и масс-спектрометрия высокой пропускной способности (ВТ) могут предоставить моментальный снимок белков, присутствующих в биологическом образце. Первый подход сталкивается с теми же проблемами, что и микрочипы, нацеленные на мРНК, последний включает проблему сопоставления больших объемов данных о массе с прогнозируемыми массами из баз данных последовательностей белков и сложный статистический анализ образцов, когда обнаруживаются несколько неполных пептидов из каждого белка. Локализация клеточного белка в контексте ткани может быть достигнута с помощью аффинной протеомики, отображаемой в виде пространственных данных на основе иммуногистохимии и тканевых микрочипов . ^[49]

Анализ регулирования

Регуляция генов — это сложный процесс, в котором сигнал, например внеклеточный сигнал, такой как гормон , в конечном итоге приводит к увеличению или уменьшению активности одного или нескольких белков . Для изучения различных этапов этого процесса были применены методы биоинформатики.

Например, экспрессия гена может регулироваться близлежащими элементами в геноме. Анализ промотора включает в себя идентификацию и изучение мотивов последовательности в ДНК, окружающей белок-кодирующий регион гена. Эти мотивы влияют на степень, в которой этот регион транскрибируется в мРНК. Элементы- усилители, удаленные от промотора, также могут регулировать экспрессию гена посредством трехмерных петлевых взаимодействий. Эти взаимодействия могут быть определены с помощью биоинформатического анализа экспериментов по захвату конформации хромосом .

Данные об экспрессии можно использовать для вывода о регуляции генов: можно сравнивать данные микрочипов из самых разных состояний организма, чтобы сформировать гипотезы о генах, участвующих в каждом состоянии. В одноклеточном организме можно сравнивать стадии клеточного цикла , а также различные стрессовые условия (тепловой шок, голодание и т. д.). Затем к данным об экспрессии можно применять алгоритмы кластеризации , чтобы определить, какие гены коэкспрессируются. Например, можно искать области выше по течению (промоторы) коэкспрессируемых генов на предмет перепредставленных регуляторных элементов . Примерами алгоритмов кластеризации, применяемых при кластеризации генов, являются кластеризация k-средних , самоорганизующиеся карты (SOM), иерархическая кластеризация и методы консенсусной кластеризации .

Анализ клеточной организации

Было разработано несколько подходов для анализа расположения органелл, генов, белков и других компонентов внутри клеток. Была разработана категория онтологии генов , клеточный компонент , для захвата субклеточной локализации во многих биологических базах данных .

Микроскопия и анализ изображений

Микроскопические изображения позволяют определить местонахождение органелл , а также молекул, которые могут быть источником отклонений при заболеваниях.

Локализация белка

Нахождение местоположения белков позволяет нам предсказать, что они делают. Это называется предсказанием функции белка . Например, если белок находится в ядре , он может участвовать в регуляции генов или сплайсинге . Напротив, если белок находится в митохондриях , он может участвовать в дыхании или других метаболических процессах . Существуют хорошо разработанные ресурсы для предсказания субклеточной локализации белка , включая базы данных субклеточного расположения белка и инструменты предсказания. ^[50]^[51]

Ядерная организация хроматина

Данные высокопроизводительных экспериментов по захвату конформации хромосом , таких как Hi-C (эксперимент) и ChIA-PET , могут предоставить информацию о трехмерной структуре и ядерной организации хроматина . Биоинформационные проблемы в этой области включают разделение генома на домены, такие как топологически ассоциированные домены (TAD), которые организованы вместе в трехмерном пространстве. ^[52]

Структурная биоинформатика

Нахождение структуры белков является важным приложением биоинформатики. Критическая оценка предсказания структуры белка (CASP) — это открытый конкурс, в котором исследовательские группы со всего мира представляют модели белков для оценки неизвестных моделей белков. ^[53]^[54]

Аминокислотная последовательность

Линейная аминокислотная последовательность белка называется первичной структурой . Первичную структуру можно легко определить из последовательности кодонов в гене ДНК, который ее кодирует. В большинстве белков первичная структура однозначно определяет трехмерную структуру белка в его естественной среде. Исключением является неправильно свернутый белок, участвующий в губчатой энцефалопатии крупного рогатого скота . Эта структура связана с функцией белка. Дополнительная структурная информация включает вторичную , третичную и четвертичную структуру. Жизнеспособное общее решение для предсказания функции белка остается открытой проблемой. До сих пор большинство усилий было направлено на эвристики, которые работают большую часть времени. ^{[ необходима цитата ]}

Гомология

В геномной ветви биоинформатики гомология используется для предсказания функции гена: если последовательность гена A , функция которого известна, гомологична последовательности гена B, функция которого неизвестна, можно сделать вывод, что B может разделять функцию A. В структурной биоинформатике гомология используется для определения того, какие части белка важны для формирования структуры и взаимодействия с другими белками. Моделирование гомологии используется для предсказания структуры неизвестного белка из существующих гомологичных белков.

Одним из примеров этого является гемоглобин у людей и гемоглобин в бобовых ( леггемоглобин ), которые являются дальними родственниками из одного и того же суперсемейства белков . Оба служат одной и той же цели — переносу кислорода в организме. Хотя оба этих белка имеют совершенно разные аминокислотные последовательности, их белковые структуры практически идентичны, что отражает их почти идентичные цели и общего предка. ^[55]

Другие методы прогнозирования структуры белка включают в себя белковое нитеобразование и физическое моделирование de novo (с нуля).

Другой аспект структурной биоинформатики включает использование структур белков для моделей виртуального скрининга , таких как модели количественной связи структуры и активности и протеохемометрические модели (PCM). Кроме того, кристаллическая структура белка может быть использована в моделировании, например, исследований связывания лигандов и исследований мутагенеза in silico .

Программное обеспечение AlphaFold , разработанное компанией DeepMind компании Google в 2021 году на основе алгоритмов глубокого обучения , значительно превосходит все другие методы прогнозирования программного обеспечения ^[56]^[^как?^] и опубликовало предсказанные структуры для сотен миллионов белков в базе данных структур белков AlphaFold. ^[57]

Сетевая и системная биология

Сетевой анализ стремится понять отношения внутри биологических сетей, таких как метаболические или белок-белковые сети взаимодействия . Хотя биологические сети могут быть построены из одного типа молекулы или сущности (например, генов), сетевая биология часто пытается интегрировать множество различных типов данных, таких как белки, малые молекулы, данные об экспрессии генов и другие, которые все связаны физически, функционально или и тем, и другим.

Системная биология включает в себя использование компьютерного моделирования клеточных подсистем (таких как сети метаболитов и ферментов , которые включают метаболизм , пути передачи сигналов и сети регуляции генов ) для анализа и визуализации сложных связей этих клеточных процессов. Искусственная жизнь или виртуальная эволюция пытается понять эволюционные процессы посредством компьютерного моделирования простых (искусственных) форм жизни.

Молекулярные сети взаимодействия

Десятки тысяч трехмерных структур белков были определены с помощью рентгеновской кристаллографии и спектроскопии ядерного магнитного резонанса белков (ЯМР белков), и центральным вопросом в структурной биоинформатике является вопрос о том, практично ли предсказывать возможные взаимодействия белок-белок только на основе этих трехмерных форм, без проведения экспериментов по взаимодействию белок-белок . Разработано множество методов для решения проблемы стыковки белок-белок , хотя, по-видимому, в этой области еще многое предстоит сделать.

Другие взаимодействия, встречающиеся в этой области, включают белок-лиганд (включая лекарство) и белок-пептид. Молекулярно-динамическое моделирование движения атомов вокруг вращающихся связей является фундаментальным принципом вычислительных алгоритмов , называемых алгоритмами стыковки, для изучения молекулярных взаимодействий .

Информатика биоразнообразия

Информатика биоразнообразия занимается сбором и анализом данных о биоразнообразии , таких как таксономические базы данных или данные микробиома . Примерами таких анализов являются филогенетика , моделирование ниш , картирование видового богатства , ДНК-штрихкодирование или инструменты идентификации видов . Растущей областью также является макроэкология , т. е. изучение того, как биоразнообразие связано с экологией и человеческим воздействием, таким как изменение климата .

Другие

Анализ литературы

Огромное количество опубликованной литературы делает практически невозможным для отдельных лиц читать каждую статью, что приводит к разрозненным подобластям исследований. Анализ литературы направлен на использование вычислительной и статистической лингвистики для добычи этой растущей библиотеки текстовых ресурсов. Например:

Распознавание сокращений – определение полных и сокращенных форм биологических терминов.
Распознавание именованных сущностей – распознавание биологических терминов, таких как названия генов
Взаимодействие белок-белок – определите, какие белки взаимодействуют с какими белками из текста

Область исследований охватывает статистику и компьютерную лингвистику .

Высокопроизводительный анализ изображений

Вычислительные технологии используются для автоматизации обработки, количественной оценки и анализа больших объемов биомедицинских изображений с высоким содержанием информации . Современные системы анализа изображений могут улучшить точность , объективность или скорость наблюдателя . Анализ изображений важен как для диагностики , так и для исследований. Вот несколько примеров:

высокопроизводительная и точная количественная оценка и субклеточная локализация ( высококонтентный скрининг , цитогистопатология, информатика биоизображений )
морфометрия
анализ и визуализация клинических изображений
определение в реальном времени схем воздушного потока в дышащих легких живых животных
Количественная оценка размера окклюзии на снимках в реальном времени при развитии и восстановлении после повреждения артерии
проведение поведенческих наблюдений с использованием расширенных видеозаписей лабораторных животных
инфракрасные измерения для определения метаболической активности
выведение перекрытий клонов при картировании ДНК , например, оценка Салстона

Высокопроизводительный анализ данных отдельных клеток

Вычислительные методы используются для анализа высокопроизводительных данных по отдельным клеткам с малыми измерениями, например, полученных с помощью проточной цитометрии . Эти методы обычно включают поиск популяций клеток, которые имеют отношение к определенному болезненному состоянию или экспериментальному состоянию.

Онтологии и интеграция данных

Биологические онтологии — это направленные ациклические графы контролируемых словарей . Они создают категории для биологических концепций и описаний, чтобы их можно было легко анализировать с помощью компьютеров. При такой классификации можно получить дополнительную ценность от целостного и комплексного анализа. ^{[ необходима цитата ]}

OBO Foundry была попыткой стандартизировать некоторые онтологии. Одной из самых распространенных является онтология Gene , которая описывает функцию гена. Существуют также онтологии, которые описывают фенотипы.

Базы данных

Базы данных необходимы для исследований и приложений в области биоинформатики. Существуют базы данных для множества различных типов информации, включая последовательности ДНК и белков, молекулярные структуры, фенотипы и биоразнообразие. Базы данных могут содержать как эмпирические данные (полученные непосредственно из экспериментов), так и прогнозируемые данные (полученные из анализа существующих данных). Они могут быть специфичными для конкретного организма, пути или молекулы, представляющих интерес. В качестве альтернативы они могут включать данные, собранные из нескольких других баз данных. Базы данных могут иметь различные форматы, механизмы доступа и быть публичными или частными.

Ниже перечислены некоторые из наиболее часто используемых баз данных:

Используется в анализе биологической последовательности: Genbank , UniProt
Используется в структурном анализе: Protein Data Bank (PDB)
Используется при поиске семейств белков и мотивов : InterPro , Pfam
Используется для секвенирования следующего поколения: архив прочтений последовательностей
Используется в сетевом анализе: базы данных метаболических путей ( KEGG , BioCyc ), базы данных анализа взаимодействий, функциональные сети
Используется при проектировании синтетических генетических цепей: GenoCAD ^{[ необходима ссылка ]}

Программное обеспечение и инструменты

Программные инструменты для биоинформатики включают простые инструменты командной строки, более сложные графические программы и автономные веб-сервисы. Они производятся биоинформатическими компаниями или государственными учреждениями.

Биоинформатическое программное обеспечение с открытым исходным кодом

Многие бесплатные и открытые программные инструменты существовали и продолжали расти с 1980-х годов. ^[59] Сочетание постоянной потребности в новых алгоритмах для анализа новых типов биологических показаний, потенциала инновационных экспериментов in silico и свободно доступных открытых баз кода создало возможности для исследовательских групп вносить вклад в биоинформатику независимо от финансирования . Инструменты с открытым исходным кодом часто выступают в качестве инкубаторов идей или поддерживаемых сообществом подключаемых модулей в коммерческих приложениях. Они также могут предоставлять фактические стандарты и общие объектные модели для оказания помощи в решении проблемы интеграции биоинформации.

Биоинформатическое программное обеспечение с открытым исходным кодом включает Bioconductor , BioPerl , Biopython , BioJava , BioJS , BioRuby , Bioclipse , EMBOSS , .NET Bio, Orange с его дополнением по биоинформатике, Apache Taverna , UGENE и GenoCAD .

Некоммерческий фонд Open Bioinformatics Foundation ^[59] и ежегодная конференция Bioinformatics Open Source Conference продвигают программное обеспечение для биоинформатики с открытым исходным кодом. ^[60]

Веб-сервисы в биоинформатике

Интерфейсы на основе SOAP и REST были разработаны для того, чтобы позволить клиентским компьютерам использовать алгоритмы, данные и вычислительные ресурсы с серверов в других частях мира. Главное преимущество заключается в том, что конечным пользователям не приходится иметь дело с накладными расходами на программное обеспечение и обслуживание баз данных.

Базовые биоинформатические сервисы классифицируются EBI на три категории: SSS (сервисы поиска последовательностей), MSA (множественное выравнивание последовательностей) и BSA (анализ биологических последовательностей). ^[61] Доступность этих сервисно-ориентированных биоинформатических ресурсов демонстрирует применимость веб-решений в области биоинформатики и варьируется от набора автономных инструментов с общим форматом данных в рамках единого веб-интерфейса до интегративных, распределенных и расширяемых систем управления рабочими процессами в области биоинформатики .

Системы управления рабочим процессом в биоинформатике

Система управления рабочим процессом биоинформатики — это специализированная форма системы управления рабочим процессом, разработанная специально для составления и выполнения ряда вычислительных или манипуляционных шагов данных или рабочего процесса в приложении биоинформатики. Такие системы предназначены для

предоставить простую в использовании среду для индивидуальных прикладных ученых, позволяющую им самим создавать свои собственные рабочие процессы,
предоставить ученым интерактивные инструменты, позволяющие им выполнять свои рабочие процессы и просматривать результаты в режиме реального времени,
упростить процесс обмена и повторного использования рабочих процессов между учеными, а также
позволяют ученым отслеживать происхождение результатов выполнения рабочего процесса и этапы его создания.

Некоторые платформы, предоставляющие эту услугу: Galaxy , Kepler , Taverna , UGENE , Anduril , HIVE .

Биокомпьютер и объекты биокомпьютера

В 2014 году Управление по контролю за продуктами и лекарствами США спонсировало конференцию, проведенную в кампусе Национального института здравоохранения в Бетесде, для обсуждения воспроизводимости в биоинформатике. ^[62] В течение следующих трех лет консорциум заинтересованных сторон регулярно встречался для обсуждения того, что станет парадигмой BioCompute. ^[63] В число этих заинтересованных сторон входили представители правительства, промышленности и академических организаций. Руководители сессий представляли многочисленные отделения институтов и центров FDA и NIH, некоммерческие организации, включая Human Variome Project и European Federation for Medical Informatics , а также научно-исследовательские институты, включая Стэнфорд , Нью-Йоркский геномный центр и Университет Джорджа Вашингтона .

Было решено, что парадигма BioCompute будет иметь форму цифровых «лабораторных блокнотов», которые позволяют воспроизводить, копировать, просматривать и повторно использовать протоколы биоинформатики. Это было предложено для обеспечения большей преемственности в исследовательской группе в ходе обычного кадрового потока, одновременно способствуя обмену идеями между группами. FDA США финансировало эту работу, чтобы информация о трубопроводах была более прозрачной и доступной для их регулирующего персонала. ^[64]

В 2016 году группа вновь собралась в NIH в Бетесде и обсудила потенциал объекта BioCompute , экземпляра парадигмы BioCompute. Эта работа была скопирована как документ «стандартного пробного использования» и как препринт, загруженный на bioRxiv. Объект BioCompute позволяет обмениваться записью в формате JSON между сотрудниками, соавторами и регулирующими органами. ^[65]^[66]

Образовательные платформы

Биоинформатика преподается не только как очная магистерская программа во многих университетах. Вычислительная природа биоинформатики позволяет использовать ее для компьютерного и онлайн-обучения . ^[67]^[68] Программные платформы, разработанные для обучения концепциям и методам биоинформатики, включают Rosalind и онлайн-курсы, предлагаемые через Швейцарский институт биоинформатики Учебный портал. Канадские семинары по биоинформатике предоставляют видео и слайды с обучающих семинаров на своем веб-сайте по лицензии Creative Commons . Проект 4273π или проект 4273pi ^[69] также предлагает бесплатные образовательные материалы с открытым исходным кодом. Курс работает на недорогих компьютерах Raspberry Pi и использовался для обучения взрослых и школьников. ^[70]^[71] 4273 активно разрабатывается консорциумом ученых и научных сотрудников, которые проводили исследовательскую биоинформатику с использованием компьютеров Raspberry Pi и операционной системы 4273π. ^[72]^[73]

Платформы MOOC также предлагают онлайн-сертификацию по биоинформатике и смежным дисциплинам, включая специализацию по биоинформатике Coursera в Калифорнийском университете в Сан-Диего , специализацию по геномным данным в Университете Джонса Хопкинса и специализацию по анализу данных для наук о жизни XSeries от EdX в Гарвардском университете .

Конференции

Существует несколько крупных конференций, посвященных биоинформатике. Некоторые из наиболее заметных примеров — Intelligent Systems for Molecular Biology (ISMB), European Conference on Computational Biology (ECCB) и Research in Computational Molecular Biology (RECOMB).

Смотрите также

Ссылки

^ Lesk AM (26 июля 2013 г.). «Биоинформатика». Encyclopaedia Britannica . Архивировано из оригинала 14 апреля 2021 г. Получено 17 апреля 2017 г.
^ ab Sim AY, Minary P, Levitt M (июнь 2012 г.). «Моделирование нуклеиновых кислот». Current Opinion in Structural Biology . 22 (3): 273–8. doi : 10.1016 /j.sbi.2012.03.012. PMC 4028509. PMID 22538125.
^ Доусон В.К., Мацейчик М., Янковска Э.Дж., Буйницкий Дж.М. (июль 2016 г.). «Крупнозернистое моделирование трехмерной структуры РНК». Методы . 103 : 138–56. дои : 10.1016/j.ymeth.2016.04.026 . ПМИД 27125734.
^ Кмиецик С., Гронт Д., Колински М., Витеска Л., Давид А.Е., Колински А. (июль 2016 г.). «Крупнозернистые белковые модели и их применение». Химические обзоры . 116 (14): 7898–936. doi : 10.1021/acs.chemrev.6b00163 . ПМИД 27333362.
^ Wong KC (2016). Вычислительная биология и биоинформатика: регуляция генов . CRC Press/Taylor & Francis Group. ISBN 978-1-4987-2497-5.
^ Джойс AP, Чжан C, Брэдли P, Хавранек JJ (январь 2015 г.). «Моделирование белка на основе структуры: специфичность ДНК». Briefings in Functional Genomics . 14 (1): 39–49. doi : 10.1093/bfgp/elu044 . PMC 4366589. PMID 25414269 .
^ Spiga E, Degiacomi MT, Dal Peraro M (2014). "Новые стратегии для интегративного динамического моделирования макромолекулярной сборки". В Karabencheva-Christova T (ред.). Биомолекулярное моделирование и симуляции . Достижения в области белковой химии и структурной биологии. Том 96. Academic Press. стр. 77–111. doi :10.1016/bs.apcsb.2014.06.008. ISBN 978-0-12-800013-7. PMID 25443955.
^ Ciemny M, Kurcinski M, Kamel K, Kolinski A, Alam N, Schueler-Furman O и др. (август 2018 г.). «Белково-пептидная стыковка: возможности и проблемы». Drug Discovery Today . 23 (8): 1530–1537. doi : 10.1016/j.drudis.2018.05.006 . PMID 29733895.
^ Ouzounis CA, Valencia A (2003). «Ранняя биоинформатика: рождение дисциплины — личный взгляд». Bioinformatics . 19 (17): 2176–2190. doi : 10.1093/bioinformatics/btg309 . PMID 14630646.
^ ab Hogeweg P (2011). «Корни биоинформатики в теоретической биологии». PLOS Computational Biology . 7 (3): e1002021. Bibcode : 2011PLSCB...7E2021H. doi : 10.1371/journal.pcbi.1002021 . PMC 3068925. PMID 21483479 .
^ Хеспер Б., Хогевег П. (1970). «БИОИНФОРМАТИКА: een werkconcept» [БИОИНФОРМАТИКА: рабочая концепция]. Хет Камелеон (на голландском языке). 1 (6): 28–29.
^ Хеспер Б., Хогевег П. (2021). «Биоинформатика: рабочая концепция. Перевод «Биоинформатики: een werkconcept» Б. Хеспера и П. Хогевега». arXiv : 2111.11832v1 [q-bio.OT].
^ Hogeweg P (1978). «Моделирование роста клеточных форм». Моделирование . 31 (3): 90–96. doi :10.1177/003754977803100305. S2CID 61206099.
^ Colby B (2022). "Стоимость секвенирования всего генома". Sequencing.com . Архивировано из оригинала 15 марта 2022 г. . Получено 8 апреля 2022 г. .
^ Sanger F, Tuppy H (1951). «Аминокислотная последовательность в фенилаланильной цепи инсулина. I. Идентификация низших пептидов из частичных гидролизатов». Biochemical Journal . 49 (4): 463–81. doi :10.1042/bj0490463. PMC 1197535. PMID 14886310 .
^ Sanger F, Thompson EO (1953). «Аминокислотная последовательность в глициловой цепи инсулина. I. Идентификация низших пептидов из частичных гидролизатов». Biochemical Journal . 53 (3): 353–66. doi :10.1042/bj0530353. PMC 1198157 . PMID 13032078.
^ Moody G (2004). Цифровой код жизни: как биоинформатика революционизирует науку, медицину и бизнес . Хобокен, Нью-Джерси, США: John Wiley & Sons. ISBN 978-0-471-32788-2.
^ Dayhoff MO, Eck RV, Chang MA, Sochard MR (1965). АТЛАС ПОСЛЕДОВАТЕЛЬНОСТИ И СТРУКТУРЫ БЕЛКОВ (PDF) . Silver Spring, MD, США: Национальный фонд биомедицинских исследований. LCCN 65-29342.
^ Eck RV, Dayhoff MO (апрель 1966). «Эволюция структуры ферредоксина на основе живых остатков примитивных аминокислотных последовательностей». Science . 152 (3720): 363–6. Bibcode :1966Sci...152..363E. doi :10.1126/science.152.3720.363. PMID 17775169. S2CID 23208558.
^ Джонсон Г, Ву ТТ (январь 2000). «База данных Kabat и ее применение: 30 лет после первого графика изменчивости». Nucleic Acids Research . 28 (1): 214–8. doi :10.1093/nar/28.1.214. PMC 102431. PMID 10592229 .
^ Эриксон Дж. В., Альтман Г. Г. (1979). «Поиск закономерностей в последовательности нуклеотидов генома MS2». Журнал математической биологии . 7 (3): 219–230. doi :10.1007/BF00275725. S2CID 85199492.
^ Shulman MJ, Steinberg CM, Westmoreland N (февраль 1981). «Кодирующая функция нуклеотидных последовательностей может быть определена с помощью статистического анализа». Журнал теоретической биологии . 88 (3): 409–20. Bibcode :1981JThBi..88..409S. doi :10.1016/0022-5193(81)90274-5. PMID 6456380.
^ Xiong J (2006). Essential Bioinformatics . Кембридж, Великобритания: Cambridge University Press. С. 4. ISBN 978-0-511-16815-4– через Интернет-архив.
^ Sanger F, Air GM, Barrell BG, Brown NL, Coulson AR, Fiddes CA и др. (февраль 1977 г.). «Нуклеотидная последовательность ДНК бактериофага phi X174». Nature . 265 (5596): 687–95. Bibcode :1977Natur.265..687S. doi :10.1038/265687a0. PMID 870828. S2CID 4206886.
^ Benson DA, Karsch-Mizrachi I, Lipman DJ, Ostell J, Wheeler DL (январь 2008 г.). "GenBank". Nucleic Acids Research . 36 (выпуск базы данных): D25-30. doi :10.1093/nar/gkm929. PMC 2238942. PMID 18073190 .
^ abc Fleischmann RD, Adams MD, White O, Clayton RA, Kirkness EF, Kerlavage AR и др. (июль 1995 г.). "Случайное секвенирование всего генома и сборка Haemophilus influenzae Rd". Science . 269 (5223): 496–512. Bibcode :1995Sci...269..496F. doi :10.1126/science.7542800. PMID 7542800.
^ Stein L (2001). «Аннотация генома: от последовательности к биологии». Nature . 2 (7): 493–503. doi :10.1038/35080529. PMID 11433356. S2CID 12044602.
^ Erdin S, Lisewski AM, Lichtarge O (апрель 2011 г.). «Прогнозирование функции белка: к интеграции метрик сходства». Current Opinion in Structural Biology . 21 (2): 180–8. doi :10.1016/j.sbi.2011.02.001. PMC 3120633. PMID 21353529 .
^ Карвахаль-Родригес А. (март 2010 г.). «Моделирование генов и геномов вперед во времени». Current Genomics . 11 (1): 58–61. doi :10.2174/138920210790218007. PMC 2851118. PMID 20808525 .
^ Brown TA (2002). «Мутация, репарация и рекомбинация». Геномы (2-е изд.). Манчестер (Великобритания): Оксфорд.
^ Carter NP, Fiegler H, Piper J (октябрь 2002 г.). «Сравнительный анализ технологий сравнительных геномных гибридизационных микрочипов: отчет о семинаре, спонсируемом Wellcome Trust». Цитометрия . 49 (2): 43–8. doi :10.1002/cyto.10153. PMID 12357458.
^ Чаудхари НМ, Гупта ВК, Дутта К (апрель 2016 г.). «BPGA — сверхбыстрый конвейер пангеномного анализа». Scientific Reports . 6 : 24373. Bibcode :2016NatSR...624373C. doi :10.1038/srep24373. PMC 4829868 . PMID 27071527.
^ Aston KI (май 2014). «Генетическая восприимчивость к мужскому бесплодию: новости из исследований ассоциаций по всему геному». Andrology . 2 (3): 315–21. doi : 10.1111/j.2047-2927.2014.00188.x . PMID 24574159. S2CID 206007180.
^ Верон А., Блейн С., Кокс Д.Г. (2014). «Исследования ассоциаций по всему геному и клиника: фокус на рак груди». Биомаркеры в медицине . 8 (2): 287–96. doi :10.2217/bmm.13.121. PMID 24521025.
^ Tosto G, Reitz C (октябрь 2013 г.). «Исследования ассоциаций по всему геному при болезни Альцгеймера: обзор». Current Neurology and Neuroscience Reports . 13 (10): 381. doi :10.1007/s11910-013-0381-0. PMC 3809844. PMID 23954969 .
^ Londin E, Yadav P, Surrey S, Kricka LJ, Fortina P (2013). «Использование анализа сцепления, исследований ассоциаций по всему геному и секвенирования следующего поколения для идентификации мутаций, вызывающих заболевания». Фармакогеномика . Методы в молекулярной биологии. Т. 1015. С. 127–46. doi :10.1007/978-1-62703-435-7_8. ISBN 978-1-62703-434-0. PMID 23824853.
^ Hindorff LA, Sethupathy P, Junkins HA, Ramos EM, Mehta JP, Collins FS и др. (июнь 2009 г.). «Потенциальные этиологические и функциональные последствия локусов ассоциаций на уровне генома для заболеваний и признаков человека». Труды Национальной академии наук Соединенных Штатов Америки . 106 (23): 9362–7. Bibcode : 2009PNAS..106.9362H. doi : 10.1073/pnas.0903103106 . PMC 2687147. PMID 19474294 .
^ Холл ЛО (2010). «Поиск правильных генов для предсказания болезней и прогноза». Международная конференция по системной науке и инжинирингу 2010 г. стр. 1–2. doi :10.1109/ICSSE.2010.5551766. ISBN 978-1-4244-6472-2. S2CID 21622726.
^ Manolio TA, Collins FS, Cox NJ, Goldstein DB, Hindorff LA, Hunter DJ и др. (октябрь 2009 г.). «Поиск недостающей наследуемости сложных заболеваний». Nature . 461 (7265): 747–753. Bibcode :2009Natur.461..747M. doi :10.1038/nature08494. PMC 2831613 . PMID 19812666.
^ Wainschtein P, Jain D, Zheng Z, Aslibekyan S, Becker D, Bi W и др. (март 2022 г.). «Оценка вклада редких вариантов в сложную наследуемость признаков на основе данных о последовательностях всего генома». Nature Genetics . 54 (3): 263–273. doi :10.1038/s41588-021-00997-7. PMC 9119698 . PMID 35256806.
^ Taliun D, Harris DN, Kessler MD, Carlson J, Szpiech ZA, Torres R и др. (февраль 2021 г.). «Секвенирование 53 831 разнообразных геномов из программы NHLBI TOPMed». Nature . 590 (7845): 290–299. Bibcode :2021Natur.590..290T. doi :10.1038/s41586-021-03205-y. PMC 7875770 . PMID 33568819. {{cite journal}}: CS1 maint: переопределенная настройка ( ссылка )
^ Li X, Li Z, Zhou H, Gaynor SM, Liu Y, Chen H и др. (сентябрь 2020 г.). «Динамическое включение множественных функциональных аннотаций in silico расширяет возможности анализа ассоциаций редких вариантов в масштабных исследованиях по секвенированию всего генома». Nature Genetics . 52 (9): 969–983. doi :10.1038/s41588-020-0676-4. PMC 7483769 . PMID 32839606.
^ Li Z, Li X, Zhou H, Gaynor SM, Selvaraj MS, Arapoglou T и др. (декабрь 2022 г.). «Структура для обнаружения некодирующих редких ассоциаций вариантов в крупномасштабных исследованиях по секвенированию всего генома». Nature Methods . 19 (12): 1599–1611. doi :10.1038/s41592-022-01640-x. PMC 10008172 . PMID 36303018. S2CID 243873361.
^ "STAARpipeline: универсальный инструмент для редких вариантов данных секвенирования всего генома в масштабе биобанка". Nature Methods . 19 (12): 1532–1533. Декабрь 2022. doi :10.1038/s41592-022-01641-w. PMID 36316564. S2CID 253246835.
^ Li X, Quick C, Zhou H, Gaynor SM, Liu Y, Chen H и др. (январь 2023 г.). «Мощный, масштабируемый и ресурсоэффективный метаанализ ассоциаций редких вариантов в крупных исследованиях по секвенированию всего генома». Nature Genetics . 55 (1): 154–164. doi :10.1038/s41588-022-01225-6. PMC 10084891 . PMID 36564505. S2CID 255084231.
^ Vazquez M, de la Torre V, Valencia A (27 декабря 2012 г.). "Глава 14: Анализ генома рака". PLOS Computational Biology . 8 (12): e1002824. Bibcode : 2012PLSCB...8E2824V. doi : 10.1371/journal.pcbi.1002824 . PMC 3531315. PMID 23300415 .
^ Hye-Jung EC, Jaswinder K, Martin K, Samuel AA, Marco AM (2014). «Second-Generation Sequencing for Cancer Genome Analysis». В Dellaire G, Berman JN, Arceci RJ (ред.). Cancer Genomics . Boston (US): Academic Press. стр. 13–30. doi :10.1016/B978-0-12-396967-5.00002-5. ISBN 978-0-12-396967-5.
^ Grau J, Ben-Gal I, Posch S, Grosse I (июль 2006 г.). "VOMBAT: прогнозирование сайтов связывания факторов транскрипции с использованием байесовских деревьев переменного порядка". Nucleic Acids Research . 34 (выпуск веб-сервера): W529-33. doi :10.1093/nar/gkl212. PMC 1538886 . PMID 16845064.
^ "The Human Protein Atlas". www.proteinatlas.org . Архивировано из оригинала 4 марта 2020 г. Получено 2 октября 2017 г.
^ "Человеческая клетка". www.proteinatlas.org . Архивировано из оригинала 2 октября 2017 г. Получено 2 октября 2017 г.
^ Тул П.Дж., Окессон Л., Викинг М., Махдессиан Д., Геладаки А., Айт Блал Х. и др. (май 2017 г.). «Субклеточная карта протеома человека». Наука . 356 (6340): eaal3321. doi : 10.1126/science.aal3321. PMID 28495876. S2CID 10744558.
^ Ay F, Noble WS (сентябрь 2015 г.). «Методы анализа для изучения трехмерной архитектуры генома». Genome Biology . 16 (1): 183. doi : 10.1186/s13059-015-0745-7 . PMC 4556012. PMID 26328929 .
^ Kryshtafovych A, Schwede T, Topf M, Fidelis K, Moult J (2019). «Критическая оценка методов прогнозирования структуры белка (CASP) – раунд XIII». Белки . 87 (12): 1011–1020. doi :10.1002/prot.25823. PMC 6927249 . PMID 31589781.
^ "Home - CASP14". predictcenter.org . Архивировано из оригинала 30 января 2023 г. Получено 12 июня 2023 г.
^ Hoy JA, Robinson H, Trent JT, Kakar S, Smagghe BJ, Hargrove MS (август 2007 г.). «Растительные гемоглобины: молекулярная ископаемая летопись эволюции транспорта кислорода». Журнал молекулярной биологии . 371 (1): 168–79. doi :10.1016/j.jmb.2007.05.029. PMID 17560601.
^ Jumper J, Evans R, Pritzel A, Green T, Figurnov M, Ronneberger O и др. (август 2021 г.). «Высокоточное предсказание структуры белка с помощью AlphaFold». Nature . 596 (7873): 583–589. Bibcode :2021Natur.596..583J. doi :10.1038/s41586-021-03819-2. ISSN 1476-4687. PMC 8371605 . PMID 34265844.
^ "База данных структур белков AlphaFold". alphafold.ebi.ac.uk . Архивировано из оригинала 24 июля 2021 г. . Получено 10 октября 2022 г. .
^ Titz B, Rajagopala SV, Goll J, Häuser R, McKevitt MT, Palzkill T и др. (май 2008 г.). Hall N (ред.). "Бинарный белковый интерактом Treponema pallidum — спирохета сифилиса". PLOS ONE . 3 (5): e2292. Bibcode : 2008PLoSO...3.2292T. doi : 10.1371/journal.pone.0002292 . PMC 2386257. PMID 18509523 .
^ ab "Open Bioinformatics Foundation: About us". Официальный сайт . Open Bioinformatics Foundation . Архивировано из оригинала 12 мая 2011 г. Получено 10 мая 2011 г.
^ "Open Bioinformatics Foundation: BOSC". Официальный сайт . Open Bioinformatics Foundation . Архивировано из оригинала 18 июля 2011 г. Получено 10 мая 2011 г.
^ Нисбет Р., Элдер IV Дж., Майнер Г. (2009). «Биоинформатика». Справочник по статистическому анализу и приложениям интеллектуального анализа данных . Academic Press. стр. 328. ISBN 978-0-08-091203-5.
^ Офис комиссара. «Advancing Regulatory Science – 24–25 сентября 2014 г., публичный семинар: стандарты секвенирования следующего поколения». www.fda.gov . Архивировано из оригинала 14 ноября 2017 г. . Получено 30 ноября 2017 г. .
^ Симонян В., Гёкс Дж., Мазумдер Р. (2017). «Биокомпьютерные объекты — шаг к оценке и валидации биомедицинских научных вычислений». PDA Journal of Pharmaceutical Science and Technology . 71 (2): 136–146. doi :10.5731/pdajpst.2016.006734. PMC 5510742. PMID 27974626 .
^ Офис комиссара. «Развитие науки регулирования – разработка на базе сообщества стандартов HTS для проверки данных и вычислений и поощрения взаимодействия». www.fda.gov . Архивировано из оригинала 26 января 2018 г. . Получено 30 ноября 2017 г. .
^ Alterovitz G, Dean D, Goble C, Crusoe MR, Soiland-Reyes S, Bell A и др. (декабрь 2018 г.). «Возможность точной медицины посредством стандартной передачи данных о происхождении, анализе и результатах HTS». PLOS Biology . 16 (12): e3000099. doi : 10.1371/journal.pbio.3000099 . PMC 6338479. PMID 30596645 .
^ Проект BioCompute Object (BCO) — это совместная и поддерживаемая сообществом структура для стандартизации вычислительных данных HTS. 1. Документ спецификации BCO: руководство пользователя для понимания и создания B., biocompute-objects, 3 сентября 2017 г., архивировано из оригинала 27 июня 2018 г. , извлечено 30 ноября 2017 г.
^ Campbell AM (1 июня 2003 г.). «Общественный доступ для преподавания геномики, протеомики и биоинформатики». Cell Biology Education . 2 (2): 98–111. doi :10.1187/cbe.03-02-0007. PMC 162192. PMID 12888845 .
^ Аренас М (сентябрь 2021 г.). «Общие соображения относительно практики онлайн-обучения по биоинформатике во время COVID-19». Биохимия и молекулярно-биологическое образование . 49 (5): 683–684. doi : 10.1002/bmb.21558. ISSN 1470-8175. PMC 8426940. PMID 34231941 .
^ Barker D, Ferrier DE, Holland PW, Mitchell JB, Plaisier H, Ritchie MG и др. (август 2013 г.). «4273π: образование в области биоинформатики на недорогом оборудовании ARM». BMC Bioinformatics . 13 : 522. doi : 10.1186/1471-2105-14-243 . PMC 3751261. PMID 23937194 .
^ Barker D, Alderson RG, McDonagh JL, Plaisier H, Comrie MM, Duncan L и др. (2015). «Практические занятия в области биоинформатики на университетском уровне приносят пользу добровольным группам учеников в последние 2 года обучения». Международный журнал STEM-образования . 2 (17). doi : 10.1186/s40594-015-0030-z . hdl : 10023/7704 . S2CID 256396656.
^ McDonagh JL, Barker D, Alderson RG (2016). «Вычислительная наука становится достоянием общественности». SpringerPlus . 5 (259): 259. doi : 10.1186/s40064-016-1856-7 . PMC 4775721 . PMID 27006868.
^ Robson JF, Barker D (октябрь 2015 г.). «Сравнение содержания генов, кодирующих белок, у Chlamydia trachomatis и Protochlamydia amoebophila с использованием компьютера Raspberry Pi». BMC Research Notes . 8 (561): 561. doi : 10.1186/s13104-015-1476-2 . PMC 4604092. PMID 26462790 .
^ Wreggelsworth KM, Barker D (октябрь 2015 г.). «Сравнение геномов, кодирующих белок, двух зеленых серных бактерий, Chlorobium tepidum TLS и Pelodictyon phaeoclathratiforme BU-1». BMC Research Notes . 8 (565): 565. doi : 10.1186/s13104-015-1535-8 . PMC 4606965. PMID 26467441 .

Дальнейшее чтение

Библиотечные ресурсы по
биоинформатике

Ресурсы в вашей библиотеке
Ресурсы в других библиотеках

Sehgal et al.: Структурные, филогенетические и стыковочные исследования активатора оксидазы D-аминокислот (DAOA), гена-кандидата шизофрении. Теоретическая биология и медицинское моделирование 2013 10:3.
Achuthsankar S Nair Computational Biology & Bioinformatics – A gentle Overview Архивировано 16 декабря 2008 г. в Wayback Machine , Communications of Computer Society of India, январь 2007 г.
Aluru, Srinivas , ред. Справочник по вычислительной молекулярной биологии . Chapman & Hall/Crc, 2006. ISBN 1-58488-406-1 (Серия компьютерных и информационных наук Chapman & Hall/Crc)
Балди, П. и Брунак, С., Биоинформатика: подход к машинному обучению , 2-е издание. MIT Press, 2001. ISBN 0-262-02506-X
Барнс, М. Р. и Грей, И. К., ред., Биоинформатика для генетиков , первое издание. Wiley, 2003. ISBN 0-470-84394-2
Баксеванис, А.Д. и Уэллетт, Б.Ф.Ф., ред., Биоинформатика: практическое руководство по анализу генов и белков , третье издание. Wiley, 2005. ISBN 0-471-47878-4
Баксеванис, А.Д., Петско, Г.А., Стайн, Л.Д., и Стормо, Г.Д., редакторы, Современные протоколы в биоинформатике . Wiley, 2007. ISBN 0-471-25093-7
Кристианини, Н. и Хан, М. Введение в вычислительную геномику Архивировано 4 января 2009 г. в Wayback Machine , Cambridge University Press, 2006. ( ISBN 9780521671910 | ISBN 0-521-67191-4 )
Дурбин, Р., С. Эдди, А. Крог и Г. Митчисон, Анализ биологической последовательности . Cambridge University Press, 1998. ISBN 0-521-62971-3
Gilbert D (сентябрь 2004 г.). "Ресурсы программного обеспечения для биоинформатики". Briefings in Bioinformatics . 5 (3): 300–4. doi : 10.1093/bib/5.3.300 . PMID 15383216.
Кидвелл, Э., Интеллектуальная биоинформатика: применение методов искусственного интеллекта к проблемам биоинформатики . Wiley, 2005. ISBN 0-470-02175-6
Кохане и др. Микрочипы для интегративной геномики. MIT Press, 2002. ISBN 0-262-11271-X
Лунд, О. и др. Иммунологическая биоинформатика. MIT Press, 2005. ISBN 0-262-12280-4
Пачтер, Лиор и Штурмфельс, Бернд . «Алгебраическая статистика для вычислительной биологии» Cambridge University Press, 2005. ISBN 0-521-85700-7
Певзнер, Павел А. Вычислительная молекулярная биология: алгоритмический подход. Издательство MIT, 2000. ISBN 0-262-16197-4
Сойнов, Л. Биоинформатика и распознавание образов объединяются. Архивировано 10 мая 2013 г. в Wayback Machine. Журнал исследований распознавания образов (JPRR Архивировано 8 сентября 2008 г. в Wayback Machine ), том 1 (1) 2006 г., стр. 37–41.
Стивенс, Халлам, Жизнь вне последовательности: история биоинформатики, основанная на данных , Чикаго: Издательство Чикагского университета, 2013, ISBN 9780226080208
Тисдалл, Джеймс. «Начало Perl для биоинформатики» О'Рейли, 2001. ISBN 0-596-00080-4
Катализатор исследований на стыке вычислений и биологии (2005) Отчет CSTB Архивировано 28 января 2007 г. в Wayback Machine
Вычисление секретов жизни: вклад математических наук и вычислений в молекулярную биологию (1995) Архивировано 6 июля 2008 г. на Wayback Machine
Основы вычислительной и системной биологии, курс Массачусетского технологического института
Вычислительная биология: геномы, сети, эволюция Бесплатный курс Массачусетского технологического института Архивировано 8 апреля 2013 г. на Wayback Machine

Внешние ссылки

Послушайте эту статью ( 37 минут )

Этот аудиофайл был создан на основе редакции этой статьи от 20 сентября 2013 года и не отражает последующие правки.

Найдите информацию о биоинформатике в Викисловаре, бесплатном словаре.

Викиверситет содержит обучающие ресурсы по биоинформатике

На Викискладе есть медиафайлы по теме «Биоинформатика» .

Портал ресурсов биоинформатики (SIB)