Хемометрика

Хемометрика — это наука об извлечении информации из химических систем с помощью средств, управляемых данными. Хемометрика по своей сути является междисциплинарной, использующей методы, часто применяемые в основных дисциплинах анализа данных, таких как многомерная статистика , прикладная математика и информатика , для решения проблем в химии , биохимии , медицине , биологии и химической инженерии . Таким образом, она отражает другие междисциплинарные области, такие как психометрия и эконометрика .

Фон

Хемометрика применяется для решения как описательных, так и предсказательных задач в экспериментальных естественных науках, особенно в химии. В описательных приложениях свойства химических систем моделируются с целью изучения базовых взаимосвязей и структуры системы (т. е. понимания и идентификации модели). В предсказательных приложениях свойства химических систем моделируются с целью предсказания новых свойств или интересующего поведения. В обоих случаях наборы данных могут быть небольшими, но часто большими и сложными, включающими сотни и тысячи переменных и сотни и тысячи случаев или наблюдений.

Хемометрические методы особенно активно используются в аналитической химии и метаболомике , а разработка усовершенствованных хемометрических методов анализа также продолжает продвигать современное состояние аналитического оборудования и методологии. Это дисциплина, ориентированная на применение, и, таким образом, в то время как стандартные хемометрические методологии очень широко используются в промышленности, академические группы посвящают себя постоянному развитию хемометрической теории, метода и разработки приложений.

Происхождение

Хотя можно утверждать, что даже самые ранние аналитические эксперименты в химии включали в себя форму хемометрики, общепризнано, что эта область возникла в 1970-х годах, когда компьютеры стали все больше использоваться для научных исследований. Термин «хемометрика» был придуман Сванте Волдом в заявке на грант 1971 года ^[1] , и Международное общество хемометрики было сформировано вскоре после этого Сванте Волдом и Брюсом Ковальски , двумя пионерами в этой области. Волд был профессором органической химии в Университете Умео , Швеция, а Ковальски был профессором аналитической химии в Университете Вашингтона, Сиэтл. ^[2]

Многие ранние приложения включали многомерную классификацию, за ней последовали многочисленные количественные прогностические приложения, а к концу 1970-х и началу 1980-х годов появилось множество различных химических анализов, основанных на данных и компьютерах.

Многомерный анализ был критически важным аспектом даже в самых ранних приложениях хемометрики. Данные инфракрасной и УФ/видимой спектроскопии часто подсчитываются в тысячах измерений на образец. Масс-спектрометрия, ядерный магнитный резонанс, атомная эмиссия/абсорбция и хроматографические эксперименты также по своей природе являются высоко многомерными. Было обнаружено, что структура этих данных благоприятствует использованию таких методов, как анализ главных компонентов (PCA), частичные наименьшие квадраты (PLS), ортогональные частичные наименьшие квадраты (OPLS) и двухсторонние ортогональные частичные наименьшие квадраты (O2PLS). ^[3] Это в первую очередь потому, что, хотя наборы данных могут быть высоко многомерными, в них присутствует сильная и часто линейная структура низкого ранга. Со временем PCA и PLS показали свою высокую эффективность в эмпирическом моделировании более химически интересной структуры низкого ранга, использовании взаимосвязей или «скрытых переменных» в данных и предоставлении альтернативных компактных систем координат для дальнейшего численного анализа, такого как регрессия , кластеризация и распознавание образов . В частности, метод частичных наименьших квадратов активно использовался в хемометрических приложениях в течение многих лет, прежде чем он начал регулярно применяться в других областях.

В течение 1980-х годов появились три специализированных журнала в этой области: Journal of Chemometrics , Chemometrics and Intelligent Laboratory Systems и Journal of Chemical Information and Modeling . Эти журналы продолжают освещать как фундаментальные, так и методологические исследования в области хемометрики. В настоящее время большинство рутинных приложений существующих хемометрических методов обычно публикуются в прикладных журналах (например, Applied Spectroscopy , Analytical Chemistry , Analytica Chimica Acta , Talanta ). Несколько важных книг/монографий по хемометрике также были впервые опубликованы в 1980-х годах, включая первое издание Factor Analysis in Chemistry Малиновского , ^[4] Charaf, Illman and Kowalski's Chemometrics , ^[5] Massart et al. Chemometrics: a textbook , ^[6] и Multivariate Calibration Мартенса и Наеса . ^[7]

Некоторые крупные области применения хемометрии впоследствии стали представлять новые области, такие как молекулярное моделирование и QSAR , хемоинформатика , «омические» области геномики , протеомика , метабономика и метаболомика , моделирование процессов и технология анализа процессов .

Отчет о ранней истории хемометрики был опубликован в виде серии интервью Гелади и Эсбенсена. ^[8]^[9]

Методы

Многомерная калибровка

Многие химические проблемы и приложения хемометрики включают калибровку . Цель состоит в том, чтобы разработать модели, которые могут быть использованы для прогнозирования интересующих свойств на основе измеренных свойств химической системы, таких как давление, поток, температура, инфракрасные , Рамановские , ^[10] ЯМР-спектры и масс-спектры . Примеры включают разработку многомерных моделей, связывающих 1) многоволновой спектральный отклик с концентрацией аналита, 2) молекулярные дескрипторы с биологической активностью, 3) многомерные условия/состояния процесса с конечными атрибутами продукта. Процесс требует набора данных калибровки или обучения, который включает эталонные значения для интересующих свойств для прогнозирования и измеренные атрибуты, которые, как полагают, соответствуют этим свойствам. Например, для случая 1) можно собрать данные из ряда образцов, включая концентрации интересующего аналита для каждого образца (эталона) и соответствующий инфракрасный спектр этого образца. Затем методы многомерной калибровки, такие как регрессия с использованием метода частичных наименьших квадратов или регрессия главных компонентов (и почти бесчисленное множество других методов), используются для построения математической модели, которая связывает многомерный отклик (спектр) с концентрацией интересующего аналита, и такую модель можно использовать для эффективного прогнозирования концентраций новых образцов.

Методы многомерной калибровки часто в широком смысле подразделяются на классические или обратные методы. ^[7]^[11] Принципиальное различие между этими подходами заключается в том, что при классической калибровке модели решаются таким образом, что они оптимальны для описания измеренных аналитических откликов (например, спектров) и, следовательно, могут считаться оптимальными дескрипторами, тогда как при обратных методах модели решаются так, чтобы быть оптимальными для прогнозирования интересующих свойств (например, концентраций, оптимальных предикторов). ^[12] Обратные методы обычно требуют меньших физических знаний о химической системе и, по крайней мере, в теории обеспечивают превосходные прогнозы в смысле среднеквадратической ошибки, ^[13]^[14]^[15] и, следовательно, обратные подходы, как правило, чаще применяются в современной многомерной калибровке.

Главным преимуществом использования методов многомерной калибровки является то, что быстрые, дешевые или неразрушающие аналитические измерения (такие как оптическая спектроскопия) могут использоваться для оценки свойств образца, которые в противном случае потребовали бы трудоемкого, дорогостоящего или разрушающего тестирования (такого как ЖХ-МС ). Не менее важно то, что многомерная калибровка позволяет проводить точный количественный анализ при наличии сильных помех со стороны других аналитов. Селективность аналитического метода обеспечивается как математической калибровкой, так и аналитическими модальностями измерений. Например, спектры ближнего инфракрасного диапазона, которые являются чрезвычайно широкими и неселективными по сравнению с другими аналитическими методами (такими как инфракрасные или рамановские спектры), часто могут успешно использоваться в сочетании с тщательно разработанными методами многомерной калибровки для прогнозирования концентраций аналитов в очень сложных матрицах.

Классификация, распознавание образов, кластеризация

Методы контролируемой многомерной классификации тесно связаны с методами многомерной калибровки, поскольку калибровочный или обучающий набор используется для разработки математической модели, способной классифицировать будущие образцы. Методы, используемые в хемометрике, аналогичны тем, которые используются в других областях — многомерный дискриминантный анализ, логистическая регрессия, нейронные сети, деревья регрессии/классификации. Использование методов снижения ранга в сочетании с этими традиционными методами классификации является рутинным в хемометрике, например, дискриминантный анализ на главных компонентах или оценки частичных наименьших квадратов .

Семейство методов, называемых моделированием классов или одноклассовыми классификаторами , способно строить модели для отдельного интересующего класса. ^[16] Такие методы особенно полезны в случае контроля качества и проверки подлинности продуктов.

Неконтролируемая классификация (также называемая кластерным анализом ) также широко используется для обнаружения закономерностей в сложных наборах данных, и снова многие из основных методов, используемых в хемометрике, являются общими для других областей, таких как машинное обучение и статистическое обучение.

Разрешение многомерной кривой

На языке хемометрии многомерное разрешение кривой направлено на деконструкцию наборов данных с ограниченной или отсутствующей справочной информацией и системными знаниями. Некоторые из самых ранних работ по этим методам были выполнены Лоутоном и Сильвестром в начале 1970-х годов. ^[17]^[18] Эти подходы также называются анализом самомоделирующейся смеси, слепым разделением источника/сигнала и спектральным разделением. Например, из набора данных, включающего спектры флуоресценции из серии образцов, каждый из которых содержит несколько флуорофоров, можно использовать методы многомерного разрешения кривой для извлечения спектров флуоресценции отдельных флуорофоров вместе с их относительными концентрациями в каждом из образцов, по сути разделяя общий спектр флуоресценции на вклады отдельных компонентов. Проблема обычно плохо определена из-за вращательной неоднозначности (многие возможные решения могут эквивалентно представлять измеренные данные), поэтому часто применяется применение дополнительных ограничений, таких как неотрицательность, унимодальность или известные взаимосвязи между отдельными компонентами (например, кинетические или масс-балансовые ограничения). ^[19]^[20]

Другие методы

Экспериментальное проектирование остается основной областью изучения хемометрики, и несколько монографий специально посвящены экспериментальному проектированию в химических приложениях.^[21]^[22] Надежные принципы экспериментального проектирования широко приняты в сообществе хемометрики, хотя многие сложные эксперименты являются чисто наблюдательными, и контроль свойств и взаимосвязей образцов, а также свойств образцов может быть незначительным.

Обработка сигнала также является критически важным компонентом почти всех хемометрических приложений, в частности, использование предварительной обработки сигнала для кондиционирования данных перед калибровкой или классификацией. Методы, обычно используемые в хемометрике, часто тесно связаны с методами, используемыми в смежных областях.^[23] Предварительная обработка сигнала может повлиять на то, каким образом можно интерпретировать результаты окончательной обработки данных.^[24]

Характеристика производительности и показатели качества Как и большинство областей физических наук, хемометрика количественно ориентирована, поэтому значительное внимание уделяется характеристике производительности, выбору модели, верификации и валидации, а также показателям качества . Производительность количественных моделей обычно определяется среднеквадратической ошибкой в прогнозировании интересующего атрибута и производительностью классификаторов как пар истинно-положительная скорость/ложно-положительная скорость (или полной кривой ROC). Недавний отчет Оливери и др. дает всесторонний обзор показателей качества и оценки неопределенности в многомерной калибровке, включая многомерные определения селективности, чувствительности, SNR и оценки интервала прогнозирования. ^[25] Выбор хемометрической модели обычно включает использование таких инструментов, как повторная выборка (включая бутстреп, перестановку, перекрестную проверку).

Многомерный статистический контроль процесса (MSPC) , моделирование и оптимизация составляют значительную часть исторического развития хемометрии. ^[26]^[27]^[28] Спектроскопия успешно использовалась для онлайн-мониторинга производственных процессов в течение 30–40 лет, и эти данные процесса в значительной степени поддаются хемометрическому моделированию. В частности, с точки зрения MSPC, многофакторное моделирование периодических и непрерывных процессов становится все более распространенным в промышленности и остается активной областью исследований в хемометрике и химической инженерии. Процессно-аналитическая химия, как ее первоначально называли, ^[29] или более новый термин процессно-аналитическая технология продолжает в значительной степени опираться на хемометрические методы и MSPC.

Многоканальные методы широко используются в хемометрических приложениях. ^[30]^[31] Это расширения более высокого порядка более широко используемых методов. Например, в то время как анализ таблицы (матрицы или массива второго порядка) данных является рутинной процедурой в нескольких областях, многоканальные методы применяются к наборам данных, которые включают 3-й, 4-й или более высокие порядки. Данные этого типа очень распространены в химии, например, система жидкостной хроматографии/масс-спектрометрии (ЖХ-МС) генерирует большую матрицу данных (время элюирования против m/z) для каждого анализируемого образца. Таким образом, данные по нескольким образцам составляют куб данных . Моделирование пакетного процесса включает наборы данных, которые имеют время против переменных процесса против номера партии. Многоканальные математические методы, применяемые к этим видам задач, включают PARAFAC , трилинейное разложение и многоканальный PLS и PCA.

Ссылки

^ Как изложено в Wold, S. (1995). «Хемометрика: что мы подразумеваем под этим и чего мы хотим от нее?». Хемометрика и интеллектуальные лабораторные системы . 30 (1): 109–115. doi :10.1016/0169-7439(95)00042-9.
^ Ковальски, Брюс Р. (1975). «Хемометрика: взгляды и предложения». J. Chem. Inf. Comput. Sci . 15 (4): 201–203. doi :10.1021/ci60004a002.
^ Trygg, J.; Wold, S. (2003). "O2-PLS, метод двухблочной (X–Y) регрессии скрытых переменных (LVR) с интегральным фильтром OSC". Journal of Chemometrics . 17 : 53–64. doi :10.1002/cem.775. S2CID 123071521.
^ Малиновский, Э. Р.; Ховери, Д. Г. (1980). Факторный анализ в химии . Нью-Йорк: Wiley. ISBN 978-0471058816.(другие издания последовали в 1989, 1991 и 2002 годах).
^ Шараф, Массачусетс; Иллман, Д.Л.; Ковальский, Б.Р., ред. (1986). Хемометрика . Нью-Йорк: Уайли. ISBN 978-0471831068.
^ Массарт, DL; Вандегинсте, BGM; Деминг, SM; Мишотт, Y.; Кауфман, L. (1988). Хемометрика: учебник . Амстердам: Elsevier. ISBN 978-0444426604.
^ ab Martens, H.; Naes, T. (1989). Многомерная калибровка . Нью-Йорк: Wiley. ISBN 978-0471909798.
^ Гелади, П.; Эсбенсен, К. (2005). «Начало и ранняя история хемометрики: избранные интервью. Часть 1». J. Chemometrics . 4 (5): 337–354. doi :10.1002/cem.1180040503. S2CID 120490459.
^ Эсбенсен, К.; Гелади, П. (2005). «Начало и ранняя история хемометрики: избранные интервью. Часть 2». J. Chemometrics . 4 (6): 389–412. doi :10.1002/cem.1180040604. S2CID 221546473.
^ Бартон, Бастиан; Томсон, Джеймс; Лосано Диз, Энрике; Портела, Ракель (сентябрь 2022 г.). «Хемометрика для гармонизации спектроскопии Рамана». Прикладная спектроскопия . 76 (9): 1021–1041. Bibcode : 2022ApSpe..76.1021B. doi : 10.1177/00037028221094070. ISSN 0003-7028. PMID 35622984. S2CID 249129065.
^ Франке, Дж. (2002). "Обратные наименьшие квадраты и классические методы наименьших квадратов для количественной колебательной спектроскопии". В Чалмерсе, Джон М. (ред.). Справочник по колебательной спектроскопии . Нью-Йорк: Wiley. doi :10.1002/0470027320.s4603. ISBN 978-0471988472.
^ Браун, CD (2004). «Несоответствие между теорией сигнала чистого аналита и практической многомерной калибровкой». Аналитическая химия . 76 (15): 4364–4373. doi :10.1021/ac049953w. PMID 15283574.
^ Кручков, РГ (1969). «Классические и обратные регрессионные методы калибровки при экстраполяции». Технометрика . 11 (3): 11–15. doi :10.1080/00401706.1969.10490714.
^ Хантер, WG (1984). "Статистика и химия, и проблема линейной калибровки". В Kowalski, BR (ред.). Хемометрика: математика и статистика в химии . Бостон: Riedel. ISBN 978-9027718464.
^ Tellinghuisen, J. (2000). «Обратная и классическая калибровка для небольших наборов данных». Fresenius' J. Anal. Chem . 368 (6): 585–588. doi :10.1007/s002160000556. PMID 11228707. S2CID 21166415.
^ Оливери, Паоло (2017). «Моделирование классов в аналитической химии пищевых продуктов: вопросы разработки, отбора проб, оптимизации и валидации – Учебное пособие». Analytica Chimica Acta . 982 : 9–19. Bibcode : 2017AcAC..982....9O. doi : 10.1016/j.aca.2017.05.013. hdl : 11567/881059 . PMID 28734370. S2CID 10119515.
^ Лоутон, WH; Сильвестр, EA (1971). «Разрешение кривой самомоделирования». Technometrics . 13 (3): 617–633. doi :10.1080/00401706.1971.10488823.
^ Сильвестр, EA; Лоутон, WH; Маджио, MS (1974). «Разрешение кривой с использованием постулированной химической реакции». Technometrics . 16 (3): 353–368. doi :10.1080/00401706.1974.10489204.
^ де Хуан, А.; Таулер, Р. (2003). «Применение хемометрики для раскрытия многокомпонентных процессов и смесей. Возвращаясь к последним тенденциям в многомерном разрешении». Analytica Chimica Acta . 500 (1–2): 195–210. Bibcode : 2003AcAC..500..195D. doi : 10.1016/S0003-2670(03)00724-4.
^ де Хуан, А.; Таулер, Р. (2006). «Разрешение многомерной кривой (MCR) с 2000 года: прогресс в концепциях и приложениях». Критические обзоры по аналитической химии . 36 (3–4): 163–176. doi :10.1080/10408340600970005. S2CID 95309963.
^ Деминг, С. Н.; Морган, С. Л. (1987). Экспериментальный дизайн: хемометрический подход . Elsevier. ISBN 978-0444427342.
^ Брунс, RE; Скарминио, Исландия; де Баррос Нето, Б. (2006). Статистический расчет – хемометрика . Амстердам: Эльзевир. ISBN 978-0444521811.
^ Вентцелл, PD; Браун, CD (2000). «Обработка сигналов в аналитической химии». В Meyers, RA (ред.). Энциклопедия аналитической химии . Wiley. стр. 9764–9800.
^ Оливери, Паоло; Малегори, Кристина; Симонетти, Ремо; Касале, Моника (2019). «Влияние предварительной обработки сигнала на окончательную интерпретацию аналитических результатов – Учебное пособие». Analytica Chimica Acta . 1058 : 9–17. Bibcode : 2019AcAC.1058....9O. doi : 10.1016/j.aca.2018.10.055. PMID 30851858. S2CID 73727614.
^ Оливери, А.С.; Фабер, Н.М.; Ферре, Дж.; Бок, Р.; Каливас, Дж.Х.; Марк, Х. (2006). «Руководящие принципы калибровки в аналитической химии. Часть 3. Оценка неопределенности и показатели качества для многомерной калибровки». Чистая и прикладная химия . 78 (3): 633–650. doi : 10.1351/pac200678030633 . S2CID 50546210.
^ Иллман, DL; Каллис, JB; Ковальски, BR (1986). «Процессно-аналитическая химия: новая парадигма для химиков-аналитиков». Американская лаборатория . 18 : 8–10.
^ МакГрегор, Дж. Ф.; Курти, Т. (1995). «Статистический контроль многомерных процессов». Control Engineering Practice . 3 (3): 403–414. doi :10.1016/0967-0661(95)00014-L.
^ Мартин, Э. Б.; Моррис, А. Дж. (1996). «Обзор многомерного статистического управления процессами в непрерывном и пакетном мониторинге производительности процесса». Труды Института измерений и управления . 18 (1): 51–60. Bibcode : 1996TIMC...18...51M. doi : 10.1177/014233129601800107. S2CID 120516715.
^ Хиршфельд, Т.; Каллис, Дж. Б.; Ковальски, БР (1984). «Химическое зондирование в анализе процессов». Science . 226 (4672): 312–318. Bibcode :1984Sci...226..312H. doi :10.1126/science.226.4672.312. PMID 17749872. S2CID 38093353.
^ Смилде, АК; Бро, Р.; Гелади, П. (2004). Многофакторный анализ с приложениями в химических науках . Wiley.
^ Бро, Р.; Воркман, Дж. Дж.; Мобли, П. Р.; Ковальски, Б. Р. (1997). «Обзор хемометрики, применяемой в спектроскопии: 1985–95, Часть 3 — Многоканальный анализ». Applied Spectroscopy Reviews . 32 (3): 237–261. Bibcode : 1997ApSRv..32..237B. doi : 10.1080/05704929708003315.

Дальнейшее чтение

Биби, К. Р.; Пелл, Р. Дж.; Сишольц, М. Б. (1998). Хемометрика: практическое руководство . Wiley.
Бреретон, Р. Г. (2007). Прикладная хемометрика для ученых . Wiley.
Браун, SD; Таулер, Р.; Вальчак, Б., ред. (2009). Комплексная хемометрика: химический и биохимический анализ данных . 4 тома. Elsevier.
Gemperline, PJ , ред. (2006). Практическое руководство по хемометрике (2-е изд.). CRC Press.
Крамер, Р. (1998). Хемометрические методы количественного анализа . CRC Press.
Мейдер, М.; Нойхольд, Й.-М. (2007). Практический анализ данных в химии . Elsevier.
Марк, Х.; Воркман, Дж. (2007). Хемометрика в спектроскопии . Academic Press-Elsevier.
Мартенс, Х.; Наес, Т. (1989). Многомерная калибровка . Wiley.
Массарт, Д. Л.; Вандегинсте, Б. Г. М.; Деминг, С. М.; Мишотт, И.; Кауфман, Л. (1988). Хемометрика: Учебник . Elsevier.
Отто, М. (2007). Хемометрика: статистика и применение компьютеров в аналитической химии (2-е изд.). Wiley-VCH.
Вандегинсте, Б. Г. М. М.; Массарт, Д. Л.; Байденс, Л. М. К.; Де Йонг, С.; Льюи, П. Дж.; Смейерс-Вербеке, Дж. (1998). Справочник по хемометрике и квалиметрике: Часть A и Часть B. Elsevier.

Внешние ссылки

Введение в хемометрику (архив сайта)
Глоссарий ИЮПАК по хемометрике
Домашняя страница Chemometrics, Швеция Архивировано 2016-01-20 на Wayback Machine
Домашняя страница Chemometrics (отправная точка)
Хемометрический анализ для спектроскопии
Общий ресурс по передовым хемометрическим методам и последним разработкам Архивировано 22.09.2017 на Wayback Machine