Биологические данные относятся к соединениям или информации, полученной из живых организмов и их продуктов. Лекарственное соединение, полученное из живых организмов, такое как сыворотка или вакцина, можно охарактеризовать как биологические данные. Биологические данные очень сложны по сравнению с другими формами данных. Существует множество форм биологических данных, включая текст, данные о последовательностях, структуру белка, геномные данные и аминокислоты, а также ссылки среди прочего.
Биологические данные тесно взаимодействуют с биоинформатикой — новой дисциплиной, ориентированной на необходимость анализа и интерпретации огромных объемов геномных данных.
За последние несколько десятилетий скачки в геномных исследованиях привели к получению огромных объемов биологических данных. В результате была создана биоинформатика как объединение геномики, биотехнологии и информационных технологий с упором на биологические данные.
Биологические данные также сложно определить, поскольку биоинформатика является обширной областью. Кроме того, вопрос о том, что представляет собой живой организм, был спорным, поскольку «живой» представляет собой расплывчатый термин, охватывающий молекулярную эволюцию, биологическое моделирование, биофизику и системную биологию. Начиная с прошлого десятилетия, биоинформатика и анализ биологических данных процветают в результате скачков в технологиях, необходимых для управления и интерпретации данных. В настоящее время это процветающая область, поскольку общество все больше концентрируется на приобретении, передаче и использовании биоинформатики и биологических данных.
Биологические данные могут быть извлечены для использования в областях омики , биовизуализации и медицинской визуализации . Ученые-биологи ценят биологические данные, чтобы предоставить молекулярные детали живых организмов. Инструменты для секвенирования ДНК, экспрессии генов (GE), биовизуализации, нейровизуализации и интерфейсов «мозг-машина» — все это области, которые используют биологические данные и моделируют биологические системы с высокой размерностью. [1]
Более того, необработанные данные о биологических последовательностях обычно относятся к ДНК , РНК и аминокислотам . [1]
Биологические данные также можно охарактеризовать как данные о биологических объектах. [2] Например, такие характеристики, как последовательности, графики, геометрическая информация, скалярные и векторные поля, шаблоны, ограничения, изображения и пространственная информация, могут быть охарактеризованы как биологические данные, поскольку они описывают особенности биологических существ. Во многих случаях биологические данные связаны с несколькими из этих категорий. Например, как описано в отчете Национального института здравоохранения « Катализация исследований на стыке вычислений и биологии», структура белка может быть связана с одномерной последовательностью, двухмерным изображением и трехмерной структурой, и, таким образом, на. [2]
Биомедицинские базы данных часто называют базами данных электронных медицинских карт (EHR) , геномных данных в децентрализованных федеральных системах баз данных и биологических данных, включая геномные данные, собранные в ходе крупномасштабных клинических исследований. [3] [4]
Биокомпьютерные атаки стали более распространенными, поскольку недавние исследования показали, что обычные инструменты могут позволить злоумышленнику синтезировать биологическую информацию, которая может быть использована для кражи информации из анализа ДНК. [5] Угроза биохакинга стала более очевидной по мере того, как анализ ДНК становится все более распространенным в таких областях, как судебная медицина, клинические исследования и геномика.
Биохакинг может осуществляться путем синтеза вредоносной ДНК и ее внедрения в биологические образцы. Исследователи установили сценарии, демонстрирующие угрозу биохакинга, например, когда хакер получает биологический образец, скрывая вредоносную ДНК на обычных поверхностях, таких как лабораторные халаты, скамейки или резиновые перчатки, которые затем загрязняют генетические данные. [5]
Однако угрозу биохакинга можно снизить, используя методы, аналогичные тем, которые используются для предотвращения обычных инъекционных атак. Клиницисты и исследователи могут смягчить последствия биохака, извлекая генетическую информацию из биологических образцов и сравнивая образцы для выявления неизвестных материалов. Исследования показали, что сравнение генетической информации с биологическими образцами для выявления кода биохакинга дает эффективность до 95% при обнаружении вредоносных вставок ДНК при биохакерских атаках. [5]
Проблемы конфиденциальности в геномных исследованиях возникают в связи с вопросом о том, содержат ли геномные образцы личные данные или их следует рассматривать как физическую материю. [6] Более того, возникают опасения, поскольку некоторые страны признают геномные данные персональными данными (и применяют правила защиты данных), в то время как другие страны рассматривают образцы как физическую материю и не применяют те же законы о защите данных к геномным образцам. Предстоящий Общий регламент по защите данных ( GDPR ) был назван потенциальным правовым инструментом, который может лучше обеспечить соблюдение правил конфиденциальности в биобанкинге и геномных исследованиях. [6]
Однако двусмысленность определения «персональных данных» в тексте GDPR, особенно в отношении биологических данных, привела к сомнениям относительно того, будет ли применяться регулирование в отношении генетических образцов. Статья 4(1) гласит, что персональные данные определяются как «Любая информация, относящаяся к идентифицированному или идентифицируемому физическому лицу («субъекту данных»)» [7]
В результате быстрого прогресса в области науки о данных и вычислительной мощности ученые-биологи смогли применять методы машинного обучения с интенсивным использованием данных к биологическим данным, такие как глубокое обучение (DL), обучение с подкреплением (RL) и их комбинация (глубокое RL). ). Эти методы, наряду с увеличением объемов хранения и вычислений данных, позволили ученым-биологам извлекать биологические данные и анализировать наборы данных, которые ранее были слишком большими или сложными. Глубокое обучение (DL) и обучение с подкреплением (RL) использовались в области омических исследований [1] (которые включают геномику, протеомику или метаболомику). Обычно это необработанные данные о биологических последовательностях (таких как ДНК, РНК и аминокислоты). ) извлекается и используется для анализа особенностей, функций, структур и молекулярной динамики биологических данных. С этого момента могут быть выполнены различные анализы, такие как прогнозирование сплайсинговых соединений GE-профилирования, а также оценка белок-белкового взаимодействия. [1]
Обучение с подкреплением — термин, пришедший из поведенческой психологии, — это метод решения проблем путем изучения вещей методом проб и ошибок. Обучение с подкреплением можно применить к биологическим данным в области омики, используя RL для прогнозирования бактериальных геномов. [8]
Другие исследования показали, что обучение с подкреплением можно использовать для точного прогнозирования аннотаций биологических последовательностей. [9]
Архитектуры глубокого обучения (DL) также полезны при обучении биологических данных. Например, архитектуры DL, нацеленные на уровни пикселей биологических изображений, использовались для идентификации процесса митоза на гистологических изображениях молочной железы. Архитектуры DL также использовались для идентификации ядер на изображениях клеток рака молочной железы. [10]
Основной проблемой, с которой сталкиваются модели биомедицинских данных, обычно является сложность, поскольку ученые-биологи в клинических условиях и биомедицинских исследованиях сталкиваются с возможностью информационной перегрузки. Однако информационная перегрузка часто является обсуждаемым явлением в области медицины. [11] Вычислительные достижения позволили сформироваться отдельным сообществам, придерживающимся разных философий. Например, исследователи данных и машинного обучения ищут соответствующие закономерности в биологических данных, и архитектура не зависит от вмешательства человека. Однако существуют риски, связанные с моделированием артефактов, когда вмешательство человека, такое как понимание и контроль конечного пользователя, уменьшается. [12]
Исследователи отмечают, что в условиях растущих затрат на здравоохранение и огромных объемов недостаточно используемых данных информационные технологии здравоохранения могут стать ключом к повышению эффективности и качества здравоохранения. [11]
Электронные медицинские карты (ЭМК) могут содержать геномные данные миллионов пациентов, и создание этих баз данных вызвало как похвалу, так и беспокойство. [4]
Ученые-правоведы указали на три основные проблемы, связанные с увеличением количества судебных разбирательств, касающихся биомедицинских баз данных. Во-первых, данные, содержащиеся в биомедицинских базах данных, могут быть неверными или неполными. Во-вторых, системные предубеждения, которые могут возникнуть из-за предубеждений исследователей или характера биологических данных, могут поставить под угрозу достоверность результатов исследований. В-третьих, наличие интеллектуального анализа данных в биологических базах данных может облегчить людям с политическими, социальными или экономическими интересами манипулирование результатами исследований с целью повлиять на общественное мнение. [13] [4]
Пример неправильного использования базы данных произошел в 2009 году, когда Журнал психиатрических исследований опубликовал исследование, в котором аборты связывались с психическими расстройствами. [14] Целью исследования было проанализировать связь между абортами в анамнезе и психическими расстройствами, такими как тревожные расстройства (включая паническое расстройство, посттравматическое стрессовое расстройство и агорафобию), а также расстройства, связанные со злоупотреблением психоактивными веществами и расстройствами настроения.
Однако исследование было дискредитировано в 2012 году, когда ученые тщательно изучили методологию исследования и нашли ее серьезно ошибочной. [15] Для получения своих выводов исследователи использовали «национальные наборы данных с переменными репродуктивного анамнеза и психического здоровья» [14] . Однако исследователям не удалось сравнить женщин (имевших незапланированную беременность и сделавших аборты) с группой женщин, не делавших абортов, сосредоточив внимание на психиатрических проблемах, возникших после прерывания беременности. В результате выводы, которые, казалось, имели научную достоверность, привели к тому, что несколько штатов приняли законы [16] , которые требовали от женщин обращаться за консультацией перед абортом из-за потенциальных долгосрочных последствий для психического здоровья.
Другая статья, опубликованная в New York Times, продемонстрировала, как врачи могут манипулировать системами электронных медицинских карт (EHR) с целью преувеличить объем предоставляемой ими помощи в целях возмещения расходов по программе Medicare. [17] [4]
Обмен биомедицинскими данными рекламируется как эффективный способ повышения воспроизводимости исследований и научных открытий. [13] [18]
В то время как исследователи борются с технологическими проблемами при обмене данными, социальные проблемы также являются препятствием для обмена биологическими данными. Например, врачи и исследователи сталкиваются с уникальными проблемами при обмене биологическими или медицинскими данными в своих медицинских сообществах, такими как проблемы конфиденциальности и законы о конфиденциальности пациентов, такие как HIPAA. [19]
Согласно исследованию 2015 года [19] , посвященному отношениям врачей и научно-исследовательских сотрудников, большинство респондентов сообщили, что обмен данными важен для их работы, но отметили, что их знания в этом вопросе были низкими. Из 190 респондентов, принявших участие в опросе, 135 назвали себя учеными-клиниками или фундаментальными исследователями, а в состав опрошенных вошли ученые-клиницисты и фундаменталисты, участвующие в программе очных исследований в Национальном институте здравоохранения. Исследование также показало, что среди респондентов обмен данными напрямую с другими врачами был обычной практикой, но субъекты исследования имели мало практики загрузки данных в хранилище.
В области биомедицинских исследований обмен данными пропагандируется [20] как важный способ для исследователей обмениваться и повторно использовать данные, чтобы в полной мере воспользоваться преимуществами персонализированной и точной медицины . [19]
Обмен данными в здравоохранении остается проблемой по нескольким причинам. Несмотря на достижения исследований в области обмена данными в здравоохранении, многие организации здравоохранения по-прежнему неохотно или не желают раскрывать медицинские данные из-за законов о конфиденциальности, таких как Закон о переносимости и подотчетности медицинского страхования (HIPAA) . Более того, обмен биологическими данными между учреждениями требует защиты конфиденциальности данных, которые могут охватывать несколько организаций. Достижение синтаксиса данных и семантической неоднородности при одновременном соблюдении разнообразных требований конфиденциальности — все это факторы, которые создают препятствия для обмена данными. [21]