Биомедицинская наука о данных — это междисциплинарная область, которая использует большие объемы данных для продвижения биомедицинских инноваций и открытий. Биомедицинская наука о данных черпает вдохновение из различных областей, включая биостатистику , биомедицинскую информатику и машинное обучение , с целью понимания биологических и медицинских данных. Ее можно рассматривать как изучение и применение науки о данных для решения биомедицинских проблем. [1] Современные биомедицинские наборы данных часто имеют особые характеристики, которые затрудняют их анализ, в том числе:
Многие проекты по биомедицинской науке о данных применяют машинное обучение к таким наборам данных. [2] [3] Эти характеристики, хотя и присутствуют во многих приложениях по биомедицинской науке о данных в более общем плане, делают биомедицинскую науку о данных особой областью. Примеры исследований в области биомедицинской науки о данных включают:
Национальная медицинская библиотека Национальных институтов здравоохранения США ( NIH) определила ключевые характеристики специалиста по биомедицинским данным в обзоре, охватывающем весь NIH: общие знания в области биомедицинских предметов; опыт работы с языками программирования; прогностическая аналитика , моделирование и машинное обучение; командная наука и коммуникация; ответственное управление данными. [6]
Первый журнал, посвященный биомедицинской науке о данных, появился в 2018 году — Annual Review of Biomedical Data Science .
« Ежегодный обзор науки о биомедицинских данных предоставляет комплексные экспертные обзоры в области науки о биомедицинских данных, уделяя особое внимание передовым методам хранения, извлечения, анализа и организации биомедицинских данных и знаний. Область применения журнала охватывает информатику, вычислительные и статистические подходы к биомедицинским данным, включая подобласти биоинформатики, вычислительной биологии, биомедицинской информатики, клинической и исследовательской информатики, биостатистики и визуализационной информатики. Миссия журнала — выявить как новые, так и устоявшиеся области науки о биомедицинских данных и лидеров в этих областях». [7]
Другие журналы имеют более общую тематику, чем биомедицинская наука о данных, но регулярно публикуют исследования в области биомедицинских данных, такие как Health Data Science [8] и Nature Machine Intelligence. [9] Наука о данных не могла бы существовать без курируемых наборов данных, и в этой области наблюдается рост числа журналов, посвященных описанию и проверке таких наборов данных, некоторые из которых полезны для биомедицинских приложений, включая Scientific Data, [10] Biomedical Data, [11] и Data. [12]
Проект «Геном человека» (HGP), который раскрыл последовательности ДНК, составляющие гены человека, был бы невозможен без науки о биомедицинских данных. Для обработки данных в HGP требовались значительные вычислительные ресурсы, поскольку геном человека содержит более 6 миллиардов пар оснований ДНК . [13] Ученые построили геном, соединив небольшие фрагменты ДНК, и только для вычисления перекрытий между этими последовательностями потребовалось более 10 000 часов ЦП. При таком огромном масштабе данных ученые полагались на передовые алгоритмы для выполнения этапов обработки данных, таких как сборка и выравнивание последовательностей для контроля качества. [14] Некоторые из этих алгоритмов, такие как BLAST , до сих пор используются в современной биоинформатике. Ученым в HGP также приходилось решать сложности, часто связанные с биомедицинскими данными, включая зашумленные данные, такие как ошибки чтения ДНК , и права на конфиденциальность субъектов исследования. [15] Проект HGP, завершенный в 2004 году, оказал огромное влияние как в биологическом плане, пролив свет на эволюцию человека , так и в медицинском плане, положив начало развитию области биоинформатики и приведя к таким технологиям, как генетический скрининг и генная терапия .