Хемометрика — это наука об извлечении информации из химических систем с помощью средств, управляемых данными. Хемометрика по своей сути является междисциплинарной, использующей методы, часто применяемые в основных дисциплинах анализа данных, таких как многомерная статистика , прикладная математика и информатика , для решения проблем в химии , биохимии , медицине , биологии и химической инженерии . Таким образом, она отражает другие междисциплинарные области, такие как психометрия и эконометрика .
Хемометрика применяется для решения как описательных, так и предсказательных задач в экспериментальных естественных науках, особенно в химии. В описательных приложениях свойства химических систем моделируются с целью изучения базовых взаимосвязей и структуры системы (т. е. понимания и идентификации модели). В предсказательных приложениях свойства химических систем моделируются с целью предсказания новых свойств или интересующего поведения. В обоих случаях наборы данных могут быть небольшими, но часто большими и сложными, включающими сотни и тысячи переменных и сотни и тысячи случаев или наблюдений.
Хемометрические методы особенно активно используются в аналитической химии и метаболомике , а разработка усовершенствованных хемометрических методов анализа также продолжает продвигать современное состояние аналитического оборудования и методологии. Это дисциплина, ориентированная на применение, и, таким образом, в то время как стандартные хемометрические методологии очень широко используются в промышленности, академические группы посвящают себя постоянному развитию хемометрической теории, метода и разработки приложений.
Хотя можно утверждать, что даже самые ранние аналитические эксперименты в химии включали в себя форму хемометрики, общепризнано, что эта область возникла в 1970-х годах, когда компьютеры стали все больше использоваться для научных исследований. Термин «хемометрика» был придуман Сванте Волдом в заявке на грант 1971 года [1] , и Международное общество хемометрики было сформировано вскоре после этого Сванте Волдом и Брюсом Ковальски , двумя пионерами в этой области. Волд был профессором органической химии в Университете Умео , Швеция, а Ковальски был профессором аналитической химии в Университете Вашингтона, Сиэтл. [2]
Многие ранние приложения включали многомерную классификацию, за ней последовали многочисленные количественные прогностические приложения, а к концу 1970-х и началу 1980-х годов появилось множество различных химических анализов, основанных на данных и компьютерах.
Многомерный анализ был критически важным аспектом даже в самых ранних приложениях хемометрики. Данные инфракрасной и УФ/видимой спектроскопии часто подсчитываются в тысячах измерений на образец. Масс-спектрометрия, ядерный магнитный резонанс, атомная эмиссия/абсорбция и хроматографические эксперименты также по своей природе являются высоко многомерными. Было обнаружено, что структура этих данных благоприятствует использованию таких методов, как анализ главных компонентов (PCA), частичные наименьшие квадраты (PLS), ортогональные частичные наименьшие квадраты (OPLS) и двухсторонние ортогональные частичные наименьшие квадраты (O2PLS). [3] Это в первую очередь потому, что, хотя наборы данных могут быть высоко многомерными, в них присутствует сильная и часто линейная структура низкого ранга. Со временем PCA и PLS показали свою высокую эффективность в эмпирическом моделировании более химически интересной структуры низкого ранга, использовании взаимосвязей или «скрытых переменных» в данных и предоставлении альтернативных компактных систем координат для дальнейшего численного анализа, такого как регрессия , кластеризация и распознавание образов . В частности, метод частичных наименьших квадратов активно использовался в хемометрических приложениях в течение многих лет, прежде чем он начал регулярно применяться в других областях.
В течение 1980-х годов появились три специализированных журнала в этой области: Journal of Chemometrics , Chemometrics and Intelligent Laboratory Systems и Journal of Chemical Information and Modeling . Эти журналы продолжают освещать как фундаментальные, так и методологические исследования в области хемометрики. В настоящее время большинство рутинных приложений существующих хемометрических методов обычно публикуются в прикладных журналах (например, Applied Spectroscopy , Analytical Chemistry , Analytica Chimica Acta , Talanta ). Несколько важных книг/монографий по хемометрике также были впервые опубликованы в 1980-х годах, включая первое издание Factor Analysis in Chemistry Малиновского , [4] Charaf, Illman and Kowalski's Chemometrics , [5] Massart et al. Chemometrics: a textbook , [6] и Multivariate Calibration Мартенса и Наеса . [7]
Некоторые крупные области применения хемометрии впоследствии стали представлять новые области, такие как молекулярное моделирование и QSAR , хемоинформатика , «омические» области геномики , протеомика , метабономика и метаболомика , моделирование процессов и технология анализа процессов .
Отчет о ранней истории хемометрики был опубликован в виде серии интервью Гелади и Эсбенсена. [8] [9]
Многие химические проблемы и приложения хемометрики включают калибровку . Цель состоит в том, чтобы разработать модели, которые могут быть использованы для прогнозирования интересующих свойств на основе измеренных свойств химической системы, таких как давление, поток, температура, инфракрасные , Рамановские , [10] ЯМР-спектры и масс-спектры . Примеры включают разработку многомерных моделей, связывающих 1) многоволновой спектральный отклик с концентрацией аналита, 2) молекулярные дескрипторы с биологической активностью, 3) многомерные условия/состояния процесса с конечными атрибутами продукта. Процесс требует набора данных калибровки или обучения, который включает эталонные значения для интересующих свойств для прогнозирования и измеренные атрибуты, которые, как полагают, соответствуют этим свойствам. Например, для случая 1) можно собрать данные из ряда образцов, включая концентрации интересующего аналита для каждого образца (эталона) и соответствующий инфракрасный спектр этого образца. Затем методы многомерной калибровки, такие как регрессия с использованием метода частичных наименьших квадратов или регрессия главных компонентов (и почти бесчисленное множество других методов), используются для построения математической модели, которая связывает многомерный отклик (спектр) с концентрацией интересующего аналита, и такую модель можно использовать для эффективного прогнозирования концентраций новых образцов.
Методы многомерной калибровки часто в широком смысле подразделяются на классические или обратные методы. [7] [11] Принципиальное различие между этими подходами заключается в том, что при классической калибровке модели решаются таким образом, что они оптимальны для описания измеренных аналитических откликов (например, спектров) и, следовательно, могут считаться оптимальными дескрипторами, тогда как при обратных методах модели решаются так, чтобы быть оптимальными для прогнозирования интересующих свойств (например, концентраций, оптимальных предикторов). [12] Обратные методы обычно требуют меньших физических знаний о химической системе и, по крайней мере, в теории обеспечивают превосходные прогнозы в смысле среднеквадратической ошибки, [13] [14] [15] и, следовательно, обратные подходы, как правило, чаще применяются в современной многомерной калибровке.
Главным преимуществом использования методов многомерной калибровки является то, что быстрые, дешевые или неразрушающие аналитические измерения (такие как оптическая спектроскопия) могут использоваться для оценки свойств образца, которые в противном случае потребовали бы трудоемкого, дорогостоящего или разрушающего тестирования (такого как ЖХ-МС ). Не менее важно то, что многомерная калибровка позволяет проводить точный количественный анализ при наличии сильных помех со стороны других аналитов. Селективность аналитического метода обеспечивается как математической калибровкой, так и аналитическими модальностями измерений. Например, спектры ближнего инфракрасного диапазона, которые являются чрезвычайно широкими и неселективными по сравнению с другими аналитическими методами (такими как инфракрасные или рамановские спектры), часто могут успешно использоваться в сочетании с тщательно разработанными методами многомерной калибровки для прогнозирования концентраций аналитов в очень сложных матрицах.
Методы контролируемой многомерной классификации тесно связаны с методами многомерной калибровки, поскольку калибровочный или обучающий набор используется для разработки математической модели, способной классифицировать будущие образцы. Методы, используемые в хемометрике, аналогичны тем, которые используются в других областях — многомерный дискриминантный анализ, логистическая регрессия, нейронные сети, деревья регрессии/классификации. Использование методов снижения ранга в сочетании с этими традиционными методами классификации является рутинным в хемометрике, например, дискриминантный анализ на главных компонентах или оценки частичных наименьших квадратов .
Семейство методов, называемых моделированием классов или одноклассовыми классификаторами , способно строить модели для отдельного интересующего класса. [16] Такие методы особенно полезны в случае контроля качества и проверки подлинности продуктов.
Неконтролируемая классификация (также называемая кластерным анализом ) также широко используется для обнаружения закономерностей в сложных наборах данных, и снова многие из основных методов, используемых в хемометрике, являются общими для других областей, таких как машинное обучение и статистическое обучение.
На языке хемометрии многомерное разрешение кривой направлено на деконструкцию наборов данных с ограниченной или отсутствующей справочной информацией и системными знаниями. Некоторые из самых ранних работ по этим методам были выполнены Лоутоном и Сильвестром в начале 1970-х годов. [17] [18] Эти подходы также называются анализом самомоделирующейся смеси, слепым разделением источника/сигнала и спектральным разделением. Например, из набора данных, включающего спектры флуоресценции из серии образцов, каждый из которых содержит несколько флуорофоров, можно использовать методы многомерного разрешения кривой для извлечения спектров флуоресценции отдельных флуорофоров вместе с их относительными концентрациями в каждом из образцов, по сути разделяя общий спектр флуоресценции на вклады отдельных компонентов. Проблема обычно плохо определена из-за вращательной неоднозначности (многие возможные решения могут эквивалентно представлять измеренные данные), поэтому часто применяется применение дополнительных ограничений, таких как неотрицательность, унимодальность или известные взаимосвязи между отдельными компонентами (например, кинетические или масс-балансовые ограничения). [19] [20]
Экспериментальное проектирование остается основной областью изучения хемометрики, и несколько монографий специально посвящены экспериментальному проектированию в химических приложениях. [21] [22] Надежные принципы экспериментального проектирования широко приняты в сообществе хемометрики, хотя многие сложные эксперименты являются чисто наблюдательными, и контроль свойств и взаимосвязей образцов, а также свойств образцов может быть незначительным.
Обработка сигнала также является критически важным компонентом почти всех хемометрических приложений, в частности, использование предварительной обработки сигнала для кондиционирования данных перед калибровкой или классификацией. Методы, обычно используемые в хемометрике, часто тесно связаны с методами, используемыми в смежных областях. [23] Предварительная обработка сигнала может повлиять на то, каким образом можно интерпретировать результаты окончательной обработки данных. [24]
Характеристика производительности и показатели качества Как и большинство областей физических наук, хемометрика количественно ориентирована, поэтому значительное внимание уделяется характеристике производительности, выбору модели, верификации и валидации, а также показателям качества . Производительность количественных моделей обычно определяется среднеквадратической ошибкой в прогнозировании интересующего атрибута и производительностью классификаторов как пар истинно-положительная скорость/ложно-положительная скорость (или полной кривой ROC). Недавний отчет Оливери и др. дает всесторонний обзор показателей качества и оценки неопределенности в многомерной калибровке, включая многомерные определения селективности, чувствительности, SNR и оценки интервала прогнозирования. [25] Выбор хемометрической модели обычно включает использование таких инструментов, как повторная выборка (включая бутстреп, перестановку, перекрестную проверку).
Многомерный статистический контроль процесса (MSPC) , моделирование и оптимизация составляют значительную часть исторического развития хемометрии. [26] [27] [28] Спектроскопия успешно использовалась для онлайн-мониторинга производственных процессов в течение 30–40 лет, и эти данные процесса в значительной степени поддаются хемометрическому моделированию. В частности, с точки зрения MSPC, многофакторное моделирование периодических и непрерывных процессов становится все более распространенным в промышленности и остается активной областью исследований в хемометрике и химической инженерии. Процессно-аналитическая химия, как ее первоначально называли, [29] или более новый термин процессно-аналитическая технология продолжает в значительной степени опираться на хемометрические методы и MSPC.
Многоканальные методы широко используются в хемометрических приложениях. [30] [31] Это расширения более высокого порядка более широко используемых методов. Например, в то время как анализ таблицы (матрицы или массива второго порядка) данных является рутинной процедурой в нескольких областях, многоканальные методы применяются к наборам данных, которые включают 3-й, 4-й или более высокие порядки. Данные этого типа очень распространены в химии, например, система жидкостной хроматографии/масс-спектрометрии (ЖХ-МС) генерирует большую матрицу данных (время элюирования против m/z) для каждого анализируемого образца. Таким образом, данные по нескольким образцам составляют куб данных . Моделирование пакетного процесса включает наборы данных, которые имеют время против переменных процесса против номера партии. Многоканальные математические методы, применяемые к этим видам задач, включают PARAFAC , трилинейное разложение и многоканальный PLS и PCA.