stringtranslate.com

Биологические данные

Биологические данные относятся к соединениям или информации, полученной из живых организмов и их продуктов. Лекарственное соединение, полученное из живых организмов, такое как сыворотка или вакцина, можно охарактеризовать как биологические данные. Биологические данные очень сложны по сравнению с другими формами данных. Существует множество форм биологических данных, включая текст, данные о последовательностях, структуру белка, геномные данные и аминокислоты, а также ссылки среди прочего.

РНК-полимераза (фиолетовый) — сложный фермент, лежащий в основе транскрипции. Во время этого процесса фермент раскручивает двойную спираль ДНК и использует одну цепь (темно-оранжевый) в качестве матрицы для создания одноцепочечной информационной РНК (зеленый), позже используемой рибосомами для синтеза белка.

Биологические данные и биоинформатика

Биологические данные тесно взаимодействуют с биоинформатикой — новой дисциплиной, ориентированной на необходимость анализа и интерпретации огромных объемов геномных данных.

За последние несколько десятилетий скачки в геномных исследованиях привели к получению огромных объемов биологических данных. В результате была создана биоинформатика как объединение геномики, биотехнологии и информационных технологий с упором на биологические данные.

Биологические данные также сложно определить, поскольку биоинформатика является обширной областью. Кроме того, вопрос о том, что представляет собой живой организм, был спорным, поскольку «живой» представляет собой расплывчатый термин, охватывающий молекулярную эволюцию, биологическое моделирование, биофизику и системную биологию. Начиная с прошлого десятилетия, биоинформатика и анализ биологических данных процветают в результате скачков в технологиях, необходимых для управления и интерпретации данных. В настоящее время это процветающая область, поскольку общество все больше концентрируется на приобретении, передаче и использовании биоинформатики и биологических данных.

Типы биологических данных

Биологические данные могут быть извлечены для использования в областях омики , биовизуализации и медицинской визуализации . Ученые-биологи ценят биологические данные, чтобы предоставить молекулярные детали живых организмов. Инструменты для секвенирования ДНК, экспрессии генов (GE), биовизуализации, нейровизуализации и интерфейсов «мозг-машина» — все это области, которые используют биологические данные и моделируют биологические системы с высокой размерностью. [1]

Более того, необработанные данные о биологических последовательностях обычно относятся к ДНК , РНК и аминокислотам . [1]

Биологические данные также можно охарактеризовать как данные о биологических объектах. [2] Например, такие характеристики, как последовательности, графики, геометрическая информация, скалярные и векторные поля, шаблоны, ограничения, изображения и пространственная информация, могут быть охарактеризованы как биологические данные, поскольку они описывают особенности биологических существ. Во многих случаях биологические данные связаны с несколькими из этих категорий. Например, как описано в отчете Национального института здравоохранения « Катализация исследований на стыке вычислений и биологии», структура белка может быть связана с одномерной последовательностью, двухмерным изображением и трехмерной структурой, и, таким образом, на. [2]

CATH - База данных классификации структуры белков

Биомедицинские базы данных

Биомедицинские базы данных часто называют базами данных электронных медицинских карт (EHR) , геномных данных в децентрализованных федеральных системах баз данных и биологических данных, включая геномные данные, собранные в ходе крупномасштабных клинических исследований. [3] [4]

Биохакинг и угрозы конфиденциальности

Биохакинг

Биокомпьютерные атаки стали более распространенными, поскольку недавние исследования показали, что обычные инструменты могут позволить злоумышленнику синтезировать биологическую информацию, которая может быть использована для кражи информации из анализа ДНК. [5] Угроза биохакинга стала более очевидной по мере того, как анализ ДНК становится все более распространенным в таких областях, как судебная медицина, клинические исследования и геномика.

Биохакинг может осуществляться путем синтеза вредоносной ДНК и ее внедрения в биологические образцы. Исследователи установили сценарии, демонстрирующие угрозу биохакинга, например, когда хакер получает биологический образец, скрывая вредоносную ДНК на обычных поверхностях, таких как лабораторные халаты, скамейки или резиновые перчатки, которые затем загрязняют генетические данные. [5]

Однако угрозу биохакинга можно снизить, используя методы, аналогичные тем, которые используются для предотвращения обычных инъекционных атак. Клиницисты и исследователи могут смягчить последствия биохака, извлекая генетическую информацию из биологических образцов и сравнивая образцы для выявления неизвестных материалов. Исследования показали, что сравнение генетической информации с биологическими образцами для выявления кода биохакинга дает эффективность до 95% при обнаружении вредоносных вставок ДНК при биохакерских атаках. [5]

Генетические образцы как персональные данные

Проблемы конфиденциальности в геномных исследованиях возникают в связи с вопросом о том, содержат ли геномные образцы личные данные или их следует рассматривать как физическую материю. [6] Более того, возникают опасения, поскольку некоторые страны признают геномные данные персональными данными (и применяют правила защиты данных), в то время как другие страны рассматривают образцы как физическую материю и не применяют те же законы о защите данных к геномным образцам. Предстоящий Общий регламент по защите данных ( GDPR ) был назван потенциальным правовым инструментом, который может лучше обеспечить соблюдение правил конфиденциальности в биобанкинге и геномных исследованиях. [6]

Однако двусмысленность определения «персональных данных» в тексте GDPR, особенно в отношении биологических данных, привела к сомнениям относительно того, будет ли применяться регулирование в отношении генетических образцов. Статья 4(1) гласит, что персональные данные определяются как «Любая информация, относящаяся к идентифицированному или идентифицируемому физическому лицу («субъекту данных»)» [7]

Применение глубокого обучения к биологическим данным

В результате быстрого прогресса в области науки о данных и вычислительной мощности ученые-биологи смогли применять методы машинного обучения с интенсивным использованием данных к биологическим данным, такие как глубокое обучение (DL), обучение с подкреплением (RL) и их комбинация (глубокое RL). ). Эти методы, наряду с увеличением объемов хранения и вычислений данных, позволили ученым-биологам извлекать биологические данные и анализировать наборы данных, которые ранее были слишком большими или сложными. Глубокое обучение (DL) и обучение с подкреплением (RL) использовались в области омических исследований [1] (которые включают геномику, протеомику или метаболомику). Обычно это необработанные данные о биологических последовательностях (таких как ДНК, РНК и аминокислоты). ) извлекается и используется для анализа особенностей, функций, структур и молекулярной динамики биологических данных. С этого момента могут быть выполнены различные анализы, такие как прогнозирование сплайсинговых соединений GE-профилирования, а также оценка белок-белкового взаимодействия. [1]

Обучение с подкреплением — термин, пришедший из поведенческой психологии, — это метод решения проблем путем изучения вещей методом проб и ошибок. Обучение с подкреплением можно применить к биологическим данным в области омики, используя RL для прогнозирования бактериальных геномов. [8]

Другие исследования показали, что обучение с подкреплением можно использовать для точного прогнозирования аннотаций биологических последовательностей. [9]

Архитектуры глубокого обучения (DL) также полезны при обучении биологических данных. Например, архитектуры DL, нацеленные на уровни пикселей биологических изображений, использовались для идентификации процесса митоза на гистологических изображениях молочной железы. Архитектуры DL также использовались для идентификации ядер на изображениях клеток рака молочной железы. [10]

Проблемы интеллектуального анализа данных в биомедицинской информатике

Сложность

Основной проблемой, с которой сталкиваются модели биомедицинских данных, обычно является сложность, поскольку ученые-биологи в клинических условиях и биомедицинских исследованиях сталкиваются с возможностью информационной перегрузки. Однако информационная перегрузка часто является обсуждаемым явлением в области медицины. [11] Вычислительные достижения позволили сформироваться отдельным сообществам, придерживающимся разных философий. Например, исследователи данных и машинного обучения ищут соответствующие закономерности в биологических данных, и архитектура не зависит от вмешательства человека. Однако существуют риски, связанные с моделированием артефактов, когда вмешательство человека, такое как понимание и контроль конечного пользователя, уменьшается. [12]

Исследователи отмечают, что в условиях растущих затрат на здравоохранение и огромных объемов недостаточно используемых данных информационные технологии здравоохранения могут стать ключом к повышению эффективности и качества здравоохранения. [11]

Ошибки базы данных и злоупотребления

Электронные медицинские карты (ЭМК) могут содержать геномные данные миллионов пациентов, и создание этих баз данных вызвало как похвалу, так и беспокойство. [4]

Ученые-правоведы указали на три основные проблемы, связанные с увеличением количества судебных разбирательств, касающихся биомедицинских баз данных. Во-первых, данные, содержащиеся в биомедицинских базах данных, могут быть неверными или неполными. Во-вторых, системные предубеждения, которые могут возникнуть из-за предубеждений исследователей или характера биологических данных, могут поставить под угрозу достоверность результатов исследований. В-третьих, наличие интеллектуального анализа данных в биологических базах данных может облегчить людям с политическими, социальными или экономическими интересами манипулирование результатами исследований с целью повлиять на общественное мнение. [13] [4]

Пример неправильного использования базы данных произошел в 2009 году, когда Журнал психиатрических исследований опубликовал исследование, в котором аборты связывались с психическими расстройствами. [14] Целью исследования было проанализировать связь между абортами в анамнезе и психическими расстройствами, такими как тревожные расстройства (включая паническое расстройство, посттравматическое стрессовое расстройство и агорафобию), а также расстройства, связанные со злоупотреблением психоактивными веществами и расстройствами настроения.

Однако исследование было дискредитировано в 2012 году, когда ученые тщательно изучили методологию исследования и нашли ее серьезно ошибочной. [15] Для получения своих выводов исследователи использовали «национальные наборы данных с переменными репродуктивного анамнеза и психического здоровья» [14] . Однако исследователям не удалось сравнить женщин (имевших незапланированную беременность и сделавших аборты) с группой женщин, не делавших абортов, сосредоточив внимание на психиатрических проблемах, возникших после прерывания беременности. В результате выводы, которые, казалось, имели научную достоверность, привели к тому, что несколько штатов приняли законы [16] , которые требовали от женщин обращаться за консультацией перед абортом из-за потенциальных долгосрочных последствий для психического здоровья.

Другая статья, опубликованная в New York Times, продемонстрировала, как врачи могут манипулировать системами электронных медицинских карт (EHR) с целью преувеличить объем предоставляемой ими помощи в целях возмещения расходов по программе Medicare. [17] [4]

Отчет Исследовательской службы Конгресса о безопасности медицинской информации в соответствии с HIPAA.

Обмен биомедицинскими данными

Обмен биомедицинскими данными рекламируется как эффективный способ повышения воспроизводимости исследований и научных открытий. [13] [18]

В то время как исследователи борются с технологическими проблемами при обмене данными, социальные проблемы также являются препятствием для обмена биологическими данными. Например, врачи и исследователи сталкиваются с уникальными проблемами при обмене биологическими или медицинскими данными в своих медицинских сообществах, такими как проблемы конфиденциальности и законы о конфиденциальности пациентов, такие как HIPAA. [19]

Отношение к обмену данными

Согласно исследованию 2015 года [19] , посвященному отношениям врачей и научно-исследовательских сотрудников, большинство респондентов сообщили, что обмен данными важен для их работы, но отметили, что их знания в этом вопросе были низкими. Из 190 респондентов, принявших участие в опросе, 135 назвали себя учеными-клиниками или фундаментальными исследователями, а в состав опрошенных вошли ученые-клиницисты и фундаменталисты, участвующие в программе очных исследований в Национальном институте здравоохранения. Исследование также показало, что среди респондентов обмен данными напрямую с другими врачами был обычной практикой, но субъекты исследования имели мало практики загрузки данных в хранилище.

В области биомедицинских исследований обмен данными пропагандируется [20] как важный способ для исследователей обмениваться и повторно использовать данные, чтобы в полной мере воспользоваться преимуществами персонализированной и точной медицины . [19]

Проблемы обмена данными

Обмен данными в здравоохранении остается проблемой по нескольким причинам. Несмотря на достижения исследований в области обмена данными в здравоохранении, многие организации здравоохранения по-прежнему неохотно или не желают раскрывать медицинские данные из-за законов о конфиденциальности, таких как Закон о переносимости и подотчетности медицинского страхования (HIPAA) . Более того, обмен биологическими данными между учреждениями требует защиты конфиденциальности данных, которые могут охватывать несколько организаций. Достижение синтаксиса данных и семантической неоднородности при одновременном соблюдении разнообразных требований конфиденциальности — все это факторы, которые создают препятствия для обмена данными. [21]

Рекомендации

  1. ^ abcd Махмуд, муфтий; Кайзер, Мохаммед Шамим; Хусейн, Амир; Вассанелли, Стефано (июнь 2018 г.). «Применение глубокого обучения и обучения с подкреплением к биологическим данным». Транзакции IEEE в нейронных сетях и системах обучения . 29 (6): 2063–2079. дои : 10.1109/tnnls.2018.2790388. hdl : 1893/26814 . ISSN  2162-237Х. PMID  29771663. S2CID  9823884.
  2. ^ аб Вули, Джон К.; Лин, Герберт С.; Биология, Комитет Национального исследовательского совета (США) по границам компьютерного интерфейса и (2005). О природе биологических данных. Издательство национальных академий (США).
  3. ^ Надкарни, премьер-министр; Брандт, К.; Фроули, С.; Сэйворд, ФГ; Эйнбиндер, Р.; Зельтерман, Д.; Шахтер, Л.; Миллер, Польша (1 марта 1998 г.). «Управление данными клинических исследований с использованием атрибутивных значений с использованием системы базы данных клиент-сервер ACT/DB». Журнал Американской ассоциации медицинской информатики . 5 (2): 139–151. дои : 10.1136/jamia.1998.0050139. ISSN  1067-5027. ПМК 61285 . ПМИД  9524347. 
  4. ^ abcd Хоффман, Шарона; Подгурски, Энди (2013). «Использование и неправильное использование биомедицинских данных: чем больше, тем лучше?». Американский журнал права и медицины . 39 (4): 497–538. дои : 10.1177/009885881303900401. ISSN  0098-8588. PMID  24494442. S2CID  35371353.
  5. ^ abc Ислам, Мохд Сибли; Иванов С.; Робсон, Э.; Дули-Куллинан, Т.; Коффи, Л.; Дулин, К.; Баласубраманиам, С. (2019). «Генетическое сходство биологических образцов для противодействия биохакингу функциональности секвенирования ДНК». Научные отчеты . 9 (1): 8684. Бибкод : 2019NatSR...9.8684I. дои : 10.1038/s41598-019-44995-6. ПМК 6581904 . PMID  31213619. S2CID  190652460. 
  6. ^ аб Халлинан, Дара; Де Херт, Пол (2016), Миттельштадт, Брент Дэниел; Флориди, Лучано (ред.), «Многие ошибаются: образцы действительно содержат персональные данные: Положение о защите данных как превосходная основа для защиты интересов доноров в биобанкинге и геномных исследованиях», Этика больших биомедицинских данных , право, управление и Серия технологий, Cham: Springer International Publishing, vol. 29, стр. 119–137, номер документа : 10.1007/978-3-319-33525-4_6, ISBN. 978-3-319-33525-4, получено 9 декабря 2020 г.
  7. ^ "Statewatch.org" (PDF) . StateWatch.org . Проверено 3 июля 2015 г.
  8. ^ Чуанг, Ли-Йе; Цай, Джуй-Хунг; Ян, Ченг-Хонг (июль 2010 г.). «Оптимизация роя бинарных частиц для предсказания оперонов». Исследования нуклеиновых кислот . 38 (12): е128. дои : 10.1093/nar/gkq204. ISSN  0305-1048. ПМЦ 2896535 . ПМИД  20385582. 
  9. ^ Ралха, CG; Шнайдер, Х.В.; Уолтер, МЭМТ; Баззан, Алабама (октябрь 2010 г.). «Метод обучения с подкреплением для биоагентов». 2010 Одиннадцатый Бразильский симпозиум по нейронным сетям . стр. 109–114. дои :10.1109/СБРН.2010.27. ISBN 978-1-4244-8391-4. S2CID  14685651.
  10. ^ Сюй, Цзюнь; Сян, Лей; Лю, Циншань; Гилмор, Ханна; Ву, Цзяньчжун; Тан, Цзинхай; Мадабхуши, Анант (январь 2016 г.). «Сложенный разреженный автоэнкодер (SSAE) для обнаружения ядер на гистопатологических изображениях рака молочной железы». Транзакции IEEE по медицинской визуализации . 35 (1): 119–130. дои : 10.1109/TMI.2015.2458702. ISSN  0278-0062. ПМЦ 4729702 . ПМИД  26208307. 
  11. ^ Аб Хольцингер, Андреас; Юришица, Игорь (2014), Холцингер, Андреас; Юришица, Игорь (ред.), «Обнаружение знаний и интеллектуальный анализ данных в биомедицинской информатике: будущее за интегративными интерактивными решениями машинного обучения», Интерактивное обнаружение знаний и интеллектуальный анализ данных в биомедицинской информатике: современное состояние и проблемы будущего , Конспекты лекций по информатике, Берлин, Гейдельберг: Springer, vol. 8401, стр. 1–18, номер домена : 10.1007/978-3-662-43968-5_1, ISBN. 978-3-662-43968-5, получено 9 декабря 2020 г.
  12. ^ Шнейдерман, Бен (март 2002 г.). «Изобретение инструментов обнаружения: сочетание визуализации информации с интеллектуальным анализом данных». Визуализация информации . 1 (1): 5–12. doi : 10.1057/palgrave.ivs.9500006. hdl : 1903/6484 . ISSN  1473-8716. S2CID  208272047.
  13. ^ аб Миттельштадт, Брент Дэниел; Флориди, Лучано (апрель 2016 г.). «Этика больших данных: текущие и прогнозируемые проблемы в биомедицинском контексте». Наука и инженерная этика . 22 (2): 303–341. doi : 10.1007/s11948-015-9652-2. ISSN  1471-5546. PMID  26002496. S2CID  23142795.
  14. ^ аб Коулман, Присцилла К.; Койл, Кэтрин Т.; Шупинг, Марта; Рю, Винсент М. (май 2009 г.). «Индуцированный аборт и расстройства тревоги, настроения и злоупотребления психоактивными веществами: выделение последствий аборта в национальном обследовании сопутствующих заболеваний». Журнал психиатрических исследований . 43 (8): 770–776. doi :10.1016/j.jpsychires.2008.10.009. ISSN  1879-1379. ПМИД  19046750.
  15. ^ Кесслер, Рональд С.; Шацберг, Алан Ф. (март 2012 г.). «Комментарий Стейнберга и Файнера к исследованиям абортов (Social Science & Medicine 2011; 72:72–82) и Коулмана (Журнал психиатрических исследований 2009; 43:770–6 и Журнал психиатрических исследований 2011; 45:1133–4)» . Журнал психиатрических исследований . 46 (3): 410–411. doi :10.1016/j.jpsychires.2012.01.021.
  16. ^ «Консультирование и периоды ожидания аборта». Институт Гутмахера . 14 марта 2016 г. Проверено 9 декабря 2020 г.
  17. ^ Абельсон, Рид; Кресвелл, Джули; Палмер, Грифф (22 сентября 2012 г.). «Счета за медицинскую помощь растут, поскольку записи становятся электронными (опубликовано в 2012 г.)». Нью-Йорк Таймс . ISSN  0362-4331 . Проверено 9 декабря 2020 г.
  18. ^ Калькман, Шона; Мостерт, Менно; Герлингер, Кристоф; ван Делден, Йоханнес Дж.М.; ван Тиль, Гислен JMW (28 марта 2019 г.). «Ответственный обмен данными в международных исследованиях в области здравоохранения: систематический обзор принципов и норм». Медицинская этика BMC . 20 (1): 21. дои : 10.1186/s12910-019-0359-9 . ISSN  1472-6939. ПМК 6437875 . ПМИД  30922290. 
  19. ^ abc Федерер, Лиза М.; Лу, Я-Лин; Жубер, Дуглас Дж.; Валлийский, Джудит; Брэндис, Барбара (24 июня 2015 г.). Канунго, Джьотшна (ред.). «Обмен и повторное использование биомедицинских данных: взгляды и практика сотрудников клинических и научных исследований». ПЛОС ОДИН . 10 (6): e0129506. Бибкод : 2015PLoSO..1029506F. дои : 10.1371/journal.pone.0129506 . ISSN  1932-6203. ПМЦ 4481309 . ПМИД  26107811. 
  20. ^ Шнейдерман, Бен (21 июля 2016 г.). «Изобретение инструментов обнаружения: сочетание визуализации информации с интеллектуальным анализом данных1». Визуализация информации . 1 :5–12. doi : 10.1057/palgrave.ivs.9500006. hdl : 1903/6484 . S2CID  208272047.
  21. ^ Виммер, Хайден; Юн, Виктория Ю.; Сугумаран, Виджаян (01 августа 2016 г.). «Мультиагентная система для поддержки доказательной медицины и принятия клинических решений посредством обмена данными и конфиденциальности данных». Системы поддержки принятия решений . 88 : 51–66. дои : 10.1016/j.dss.2016.05.008. ISSN  0167-9236.