stringtranslate.com

Количественная связь структуры и активности

Количественные модели связи структура–активность ( модели QSAR ) являются регрессионными или классификационными моделями, используемыми в химических и биологических науках и инженерии. Как и другие регрессионные модели, регрессионные модели QSAR связывают набор «предикторных» переменных (X) с эффективностью ответной переменной (Y), в то время как классификационные модели QSAR связывают предикторные переменные с категориальным значением ответной переменной.

В моделировании QSAR предикторы состоят из физико-химических свойств или теоретических молекулярных дескрипторов [1] [2] химических веществ; переменная ответа QSAR может быть биологической активностью химических веществ. Модели QSAR сначала суммируют предполагаемую связь между химическими структурами и биологической активностью в наборе данных химических веществ. Во-вторых, модели QSAR предсказывают активность новых химических веществ. [3] [4]

Связанные термины включают количественные соотношения структура-свойство ( QSPR ), когда химическое свойство моделируется как переменная отклика. [5] [6] "Различные свойства или поведение химических молекул были исследованы в области QSPR. Некоторые примеры - количественные соотношения структура-реакционная способность (QSRR), количественные соотношения структура-хроматография (QSCR) и количественные соотношения структура-токсичность (QSTR), количественные соотношения структура-электрохимия (QSER) и количественные соотношения структура- биоразлагаемость (QSBR)". [7]

Например, биологическая активность может быть выражена количественно как концентрация вещества, необходимая для получения определенного биологического ответа. Кроме того, когда физико-химические свойства или структуры выражаются числами, можно найти математическую связь или количественную связь структура-активность между ними. Математическое выражение, если оно тщательно проверено, [8] [9] [10] [11] затем может быть использовано для прогнозирования смоделированного ответа других химических структур. [12]

QSAR имеет форму математической модели :

Ошибка включает в себя ошибку модели ( смещение ) и изменчивость наблюдений, то есть изменчивость наблюдений даже при правильной модели.

Основные этапы исследований QSAR

Основные этапы QSAR/QSPR включают в себя: [7]

  1. Выбор набора данных и извлечение структурных/эмпирических дескрипторов
  2. Выбор переменной
  3. Модельное строительство
  4. Оценка валидности

SAR и парадокс SAR

Основное предположение для всех гипотез, основанных на молекулах , заключается в том, что подобные молекулы имеют подобные действия. Этот принцип также называется соотношением структуры и активности ( SAR ). Таким образом, основная проблема заключается в том, как определить небольшое различие на молекулярном уровне, поскольку каждый вид активности, например, способность к реакции , способность к биотрансформации , растворимость , целевая активность и т. д., может зависеть от другого различия. Примеры были приведены в обзорах биоизостеризма Патани/ЛаВуа [13] и Брауна. [14]

В целом, больше интересуют сильные тенденции . Созданные гипотезы обычно опираются на конечное число химических веществ, поэтому следует проявлять осторожность, чтобы избежать переобучения : создания гипотез, которые очень точно соответствуют тренировочным данным, но плохо работают при применении к новым данным.

Парадокс SAR заключается в том, что не все схожие молекулы обладают схожей активностью [ необходима ссылка ] .

Типы

На основе фрагментов (групповой вклад)

Аналогично, « коэффициент распределения » — измерение дифференциальной растворимости и сам по себе компонент предсказаний QSAR — может быть предсказан либо атомными методами (известными как «XLogP» или «ALogP»), либо методами химических фрагментов (известными как «CLogP» и другими вариациями). Было показано, что logP соединения может быть определен суммой его фрагментов; методы, основанные на фрагментах, обычно принимаются как лучшие предикторы, чем методы, основанные на атомах. [15] Фрагментарные значения были определены статистически, на основе эмпирических данных для известных значений logP. Этот метод дает неоднозначные результаты и, как правило, не считается имеющим точность более ±0,1 единицы. [16]

Групповой или фрагментный QSAR также известен как GQSAR. [17] GQSAR обеспечивает гибкость в изучении различных молекулярных фрагментов, представляющих интерес, в отношении вариации биологического ответа. Молекулярные фрагменты могут быть заместителями в различных местах замещения в однородных наборах молекул или могут быть на основе предопределенных химических правил в случае неоднородных наборов. GQSAR также учитывает дескрипторы фрагментов перекрестных терминов, которые могут быть полезны для идентификации ключевых взаимодействий фрагментов при определении вариации активности. [17] Обнаружение лидов с использованием фрагментомики является новой парадигмой. В этом контексте FB-QSAR оказывается многообещающей стратегией для проектирования библиотеки фрагментов и в попытках идентификации фрагментов в лидирующие. [18]

Разработан продвинутый подход к QSAR на основе фрагментов или групп, основанный на концепции фармакофорного сходства. [19] Этот метод, QSAR на основе фармакофорного сходства (PS-QSAR), использует топологические фармакофорные дескрипторы для разработки моделей QSAR. Это предсказание активности может помочь вкладу определенных фармакофорных характеристик, закодированных соответствующими фрагментами, в улучшение активности и/или пагубные эффекты. [19]

3D-QSAR

Аббревиатура 3D-QSAR или 3-D QSAR относится к применению расчетов силового поля , требующих трехмерных структур заданного набора малых молекул с известными видами деятельности (тренировочный набор). Учебный набор должен быть наложен (выровнен) либо экспериментальными данными (например, на основе кристаллографии лиганд-белок ), либо программным обеспечением для суперпозиции молекул . Он использует вычисленные потенциалы, например, потенциал Леннарда-Джонса , а не экспериментальные константы и касается всей молекулы, а не отдельного заместителя. Первый 3-D QSAR был назван Крамером и др. Сравнительным анализом молекулярного поля (CoMFA). Он исследовал стерические поля (форму молекулы) и электростатические поля [20] , которые были коррелированы с помощью регрессии с использованием частичных наименьших квадратов (PLS).

Созданное пространство данных затем обычно сокращается путем последующего извлечения признаков (см. также уменьшение размерности ). Следующий метод обучения может быть любым из уже упомянутых методов машинного обучения , например, машины опорных векторов . [21] Альтернативный подход использует обучение с несколькими экземплярами путем кодирования молекул как наборов экземпляров данных, каждый из которых представляет собой возможную молекулярную конформацию. Каждому набору присваивается метка или ответ, соответствующий активности молекулы, которая, как предполагается, определяется по крайней мере одним экземпляром в наборе (т. е. некоторой конформацией молекулы). [22]

18 июня 2011 года патент на Сравнительный анализ молекулярного поля (CoMFA) снял все ограничения на использование технологий GRID и частично наименьших квадратов (PLS). [ необходима ссылка ]

На основе химического дескриптора

В этом подходе дескрипторы, количественно определяющие различные электронные, геометрические или стерические свойства молекулы, вычисляются и используются для разработки QSAR. [23] Этот подход отличается от подхода фрагментов (или группового вклада) тем, что дескрипторы вычисляются для системы в целом, а не из свойств отдельных фрагментов. Этот подход отличается от подхода 3D-QSAR тем, что дескрипторы вычисляются из скалярных величин (например, энергий, геометрических параметров), а не из 3D-полей.

Примером такого подхода являются QSAR, разработанные для полимеризации олефинов с помощью полусэндвич-соединений . [24] [25]

На основе строк

Было показано, что прогнозирование активности возможно даже на основе исключительно строки SMILES . [26] [27] [28]

На основе графика

Подобно методам на основе строк, молекулярный граф может быть напрямую использован в качестве входных данных для моделей QSAR, [29] [30], но обычно дает худшую производительность по сравнению с моделями QSAR на основе дескрипторов. [31] [32]

Моделирование

В литературе часто можно встретить утверждения, что химики отдают предпочтение методам частичных наименьших квадратов (PLS), [ требуется ссылка ], поскольку они позволяют извлечь признаки и индуцирование за один шаг.

Подход к анализу данных

Компьютерные модели SAR обычно вычисляют относительно большое количество признаков. Поскольку им не хватает структурной интерпретационной способности, этапы предварительной обработки сталкиваются с проблемой выбора признаков (т. е. какие структурные признаки следует интерпретировать для определения связи структура-активность). Выбор признаков может быть выполнен путем визуального осмотра (качественный выбор человеком); путем добычи данных; или путем добычи молекул.

Типичное прогнозирование на основе интеллектуального анализа данных использует, например, машины опорных векторов , деревья решений , искусственные нейронные сети для создания модели предиктивного обучения.

Подходы к добыче молекул , частный случай подходов к добыче структурированных данных , применяют прогнозирование на основе матрицы сходства или схему автоматической фрагментации в молекулярные подструктуры. Кроме того, существуют также подходы, использующие поиск максимального общего подграфа или ядра графа . [33] [34]

QSAR-протокол

Анализ пар молекулярных пар

Обычно модели QSAR, полученные из нелинейного машинного обучения , рассматриваются как «черный ящик», который не может служить руководством для химиков-медиков. Недавно появилась относительно новая концепция анализа пар молекул [35] или MMPA, основанного на прогнозировании, которая связана с моделью QSAR для определения обрывов активности. [36]

Оценка качества моделей QSAR

Моделирование QSAR создает прогностические модели, полученные с помощью применения статистических инструментов, коррелирующих биологическую активность (включая желаемый терапевтический эффект и нежелательные побочные эффекты) или физико-химические свойства в моделях QSPR химических веществ (лекарств/токсикантов/загрязнителей окружающей среды) с дескрипторами, представляющими молекулярную структуру или свойства . QSAR применяются во многих дисциплинах, например: оценка риска , прогнозирование токсичности и нормативные решения [37] в дополнение к открытию лекарств и оптимизации свинца . [38] Получение модели QSAR хорошего качества зависит от многих факторов, таких как качество входных данных, выбор дескрипторов и статистических методов для моделирования и проверки. Любое моделирование QSAR должно в конечном итоге привести к статистически надежным и прогностическим моделям, способным делать точные и надежные прогнозы смоделированной реакции новых соединений.

Для проверки моделей QSAR обычно применяются различные стратегии: [39]

  1. внутренняя проверка или перекрестная проверка (на самом деле, при извлечении данных перекрестная проверка является мерой надежности модели: чем надежнее модель (выше q2), тем меньше извлечение данных искажает исходную модель);
  2. внешняя проверка путем разделения имеющегося набора данных на обучающий набор для разработки модели и прогнозный набор для проверки предсказательной способности модели;
  3. слепая внешняя проверка путем применения модели к новым внешним данным и
  4. Рандомизация данных или Y-скремблирование для проверки отсутствия случайной корреляции между ответом и дескрипторами моделирования.

Успех любой модели QSAR зависит от точности входных данных, выбора соответствующих дескрипторов и статистических инструментов и, что наиболее важно, валидации разработанной модели. Валидация — это процесс, посредством которого надежность и релевантность процедуры устанавливаются для определенной цели; для моделей QSAR валидация должна быть в основном направлена ​​на надежность, производительность прогнозирования и область применимости (AD) моделей. [8] [9] [11] [40] [41]

Некоторые методологии валидации могут быть проблематичными. Например, перекрестная проверка с исключением одного элемента обычно приводит к переоценке предсказательной способности. Даже при внешней валидации сложно определить, был ли выбор обучающих и тестовых наборов изменен для максимизации предсказательной способности публикуемой модели.

Различные аспекты проверки моделей QSAR, которые требуют внимания, включают методы выбора соединений обучающего набора, [42] установку размера обучающего набора [43] и влияние выбора переменных [44] для моделей обучающего набора для определения качества прогнозирования. Разработка новых параметров проверки для оценки качества моделей QSAR также важна. [11] [45] [46]

Приложение

Химический

Одним из первых исторических применений QSAR было предсказание точек кипения . [47]

Например, хорошо известно, что в пределах определенного семейства химических соединений , особенно органической химии , существуют сильные корреляции между структурой и наблюдаемыми свойствами. Простым примером является связь между числом атомов углерода в алканах и их точками кипения . Существует четкая тенденция к увеличению точки кипения с увеличением числа атомов углерода, и это служит средством для прогнозирования точек кипения высших алканов .

Еще очень интересным приложением являются уравнения Гаммета , уравнения Тафта и методы прогнозирования pKa . [48]

Биологический

Биологическая активность молекул обычно измеряется в анализах для установления уровня ингибирования определенной сигнальной трансдукции или метаболических путей . Открытие лекарств часто включает использование QSAR для идентификации химических структур, которые могут иметь хорошие ингибирующие эффекты на определенные цели и иметь низкую токсичность (неспецифическую активность). Особый интерес представляет прогнозирование коэффициента распределения log P , который является важной мерой, используемой для определения « подобия лекарству » в соответствии с правилом пяти Липински . [ требуется цитата ]

В то время как многие количественные анализы взаимосвязи структуры и активности включают взаимодействия семейства молекул с сайтом связывания фермента или рецептора , QSAR также может быть использован для изучения взаимодействий между структурными доменами белков. Взаимодействия белок-белок могут быть количественно проанализированы для структурных изменений, полученных в результате направленного мутагенеза . [49]

Это часть метода машинного обучения , чтобы уменьшить риск парадокса SAR, особенно принимая во внимание, что доступно только конечное количество данных (см. также MVUE ). В целом, все проблемы QSAR можно разделить на кодирование [50] и обучение . [51]

Приложения

Модели (Q)SAR использовались для управления рисками . QSARS предлагаются регулирующими органами; в Европейском Союзе QSAR предлагаются регламентом REACH , где «REACH» означает «Регистрация, оценка, разрешение и ограничение химических веществ». Нормативное применение методов QSAR включает в себя токсикологическую оценку in silico генотоксичных примесей. [52] Обычно используемое программное обеспечение для оценки QSAR, такое как DEREK или CASE Ultra (MultiCASE), используется для генотоксичности примесей в соответствии с ICH M7. [53]

Пространство химических дескрипторов, выпуклая оболочка которого генерируется определенным обучающим набором химических веществ, называется областью применимости обучающего набора . Прогнозирование свойств новых химических веществ, которые находятся за пределами области применимости, использует экстраполяцию , и поэтому менее надежно (в среднем), чем прогнозирование в пределах области применимости. Оценка надежности предсказаний QSAR остается темой исследования. [ необходима цитата ]

Уравнения QSAR можно использовать для прогнозирования биологической активности новых молекул до их синтеза.

Примеры инструментов машинного обучения для моделирования QSAR включают: [54]

Смотрите также

Ссылки

  1. ^ Тодескини, Роберто; Консонни, Вивиана (2009). Молекулярные дескрипторы для хемоинформатики. Методы и принципы медицинской химии. Т. 41. Wiley. doi :10.1002/9783527628766. ISBN 978-3-527-31852-0.
  2. ^ Маури, Андреа; Консонни, Вивиана; Тодескини, Роберто (2017). «Молекулярные дескрипторы». Справочник по вычислительной химии. Springer International Publishing. стр. 2065–2093. doi :10.1007/978-3-319-27282-5_51. ISBN 978-3-319-27282-5.
  3. ^ Рой К, Кар С, Дас РН (2015). "Глава 1.2: Что такое QSAR? Определения и формализм". Учебник по моделированию QSAR/QSPR: основные концепции . Нью-Йорк: Springer-Verlag Inc. стр. 2–6. ISBN 978-3-319-17281-1.
  4. ^ Гасеми, Перес-Санчес; Мехри, Перес-Гарридо (2018). «Нейронные сети и алгоритмы глубокого обучения, используемые в исследованиях QSAR: достоинства и недостатки». Drug Discovery Today . 23 (10): 1784–1790. doi :10.1016/j.drudis.2018.06.016. PMID  29936244. S2CID  49418479.
  5. ^ Нантасенамат С, Исаранкура-На-Аюдхья С, Наэнна Т, Прачаяситтикул V (2009). «Практический обзор количественной связи структура-активность». Эксклюзивный журнал . 8 : 74–88. дои : 10.17877/DE290R-690.
  6. ^ Nantasenamat C, Isarankura-Na-Ayudhya C, Prachayasittikul V (июль 2010 г.). «Достижения в вычислительных методах прогнозирования биологической активности соединений». Мнение эксперта по открытию лекарств . 5 (7): 633–54. doi :10.1517/17460441.2010.492827. PMID  22823204. S2CID  17622541.
  7. ^ ab Yousefinejad S, Hemmateenejad B (2015). «Инструменты хемометрики в исследованиях QSAR/QSPR: историческая перспектива». Хемометрика и интеллектуальные лабораторные системы . 149, часть B: 177–204. doi :10.1016/j.chemolab.2015.06.016.
  8. ^ ab Tropsha A , Gramatica P, Gombar VJ (2003). «Важность серьезности: валидация — абсолютная необходимость для успешного применения и интерпретации моделей QSPR». QSAR Comb. Sci . 22 : 69–77. doi :10.1002/qsar.200390007.
  9. ^ ab Gramatica P (2007). «Принципы проверки моделей QSAR: внутренние и внешние». QSAR Comb. Sci . 26 (5): 694–701. doi :10.1002/qsar.200610151. hdl : 11383/1668881 .
  10. ^ Руусманн, В.; Силд, С.; Маран, У. (2015). «Репозиторий QSAR DataBank: открытые и связанные качественные и количественные модели взаимосвязи структуры и активности». Журнал химинформатики . 7 : 32. doi : 10.1186/s13321-015-0082-6 . PMC 4479250. PMID  26110025 . 
  11. ^ abc Chirico N, Gramatica P (август 2012 г.). «Реальная внешняя предсказательная способность моделей QSAR. Часть 2. Новые сопоставимые пороговые значения для различных критериев проверки и необходимость проверки диаграммы рассеяния». Журнал химической информации и моделирования . 52 (8): 2044–58. doi :10.1021/ci300084j. PMID  22721530.
  12. ^ Тропша, Александр (2010). «Лучшие практики разработки, проверки и эксплуатации моделей QSAR». Молекулярная информатика . 29 (6–7): 476–488. doi :10.1002/minf.201000061. ISSN  1868-1743. PMID  27463326. S2CID  23564249.
  13. ^ Патани GA, ЛаВуа EJ (декабрь 1996 г.). «Биоизостеризм: рациональный подход к разработке лекарств». Chemical Reviews . 96 (8): 3147–3176. doi :10.1021/cr950066q. PMID  11848856.
  14. ^ Браун Н. (2012). Биоизостеры в медицинской химии . Вайнхайм: Wiley-VCH. ISBN 978-3-527-33015-7.
  15. ^ Thompson SJ, Hattotuwagama CK, Holliday JD, Flower DR (2006). «О гидрофобности пептидов: сравнение эмпирических предсказаний значений log P пептидов». Bioinformation . 1 (7): 237–41. doi :10.6026/97320630001237. PMC 1891704 . PMID  17597897. 
  16. ^ Wildman SA, Crippen GM (1999). «Прогнозирование физико-химических параметров по атомным вкладам». J. Chem. Inf. Comput. Sci . 39 (5): 868–873. doi :10.1021/ci990307l.
  17. ^ аб Аджмани С., Джадхав К., Кулкарни С.А., QSAR на групповой основе (G-QSAR)
  18. ^ Manoharan P, Vijayan RS, Ghoshal N (октябрь 2010 г.). «Рационализация фрагментного открытия лекарств для BACE1: идеи из исследований FB-QSAR, FB-QSSR, многоцелевых (MO-QSPR) и MIF». Журнал компьютерного молекулярного дизайна . 24 (10): 843–64. Bibcode : 2010JCAMD..24..843M. doi : 10.1007/s10822-010-9378-9. PMID  20740315. S2CID  1171860.
  19. ^ ab Prasanth Kumar S, Jasrai YT, Pandya HA, Rawal RM (ноябрь 2013 г.). "QSAR на основе сходства фармакофоров (PS-QSAR) для предсказаний биологической активности, специфичных для группы". Journal of Biomolecular Structure & Dynamics . 33 (1): 56–69. doi :10.1080/07391102.2013.849618. PMID  24266725. S2CID  45364247.
  20. ^ Leach AR (2001). Молекулярное моделирование: принципы и приложения . Englewood Cliffs, NJ: Prentice Hall. ISBN 978-0-582-38210-7.
  21. ^ Верт Дж. П., Шёлкопф Б., Цуда К. (2004). Ядерные методы в вычислительной биологии . Кембридж, Массачусетс: MIT Press. ISBN 978-0-262-19509-6.
  22. ^ Dietterich TG, Lathrop RH, Lozano-Pérez T (1997). «Решение проблемы множественных экземпляров с помощью прямоугольников, параллельных осям». Искусственный интеллект . 89 (1–2): 31–71. doi :10.1016/S0004-3702(96)00034-3.
  23. ^ Caruthers JM, Lauterbach JA, Thomson KT, Venkatasubramanian V, Snively CM, Bhan A, Katare S, Oskarsdottir G (2003). «Проектирование катализатора: извлечение знаний из высокопроизводительного эксперимента». J. Catal . 216 (1–2): 3776–3777. doi :10.1016/S0021-9517(02)00036-2.
  24. ^ Manz TA, Phomphrai K, Медведев G, Krishnamurthy BB, Sharma S, Haq J, Novstrup KA, Thomson KT, Delgass WN, Caruthers JM, Abu-Omar MM (апрель 2007 г.). «Корреляция структуры и активности в катализаторах полимеризации олефинов с одним центром на основе титана, содержащих смешанную циклопентадиенил/арилоксидную лигацию». Журнал Американского химического общества . 129 (13): 3776–7. doi :10.1021/ja0640849. PMID  17348648.
  25. ^ Manz TA, Caruthers JM, Sharma S, Phomphrai K, Thomson KT, Delgass WN, Abu-Omar MM (2012). «Структура–Активная корреляция для относительного инициирования цепи и скорости роста в одноцентровом катализе полимеризации олефинов». Organometallics . 31 (2): 602–618. doi :10.1021/om200884x.
  26. ^ Ястржебский, Станислав; Лесняк, Дамиан; Чарнецкий, Войцех Мариан (8 марта 2018 г.). «Учимся УЛЫБАТЬСЯ(И)». arXiv : 1602.06289 [cs.CL].
  27. ^ Бьеррум, Эсбен Янник (17 мая 2017 г.). «Перечисление SMILES как дополнение данных для моделирования молекул с помощью нейронных сетей». arXiv : 1703.07076 [cs.LG].
  28. ^ Mayr, Andreas; Klambauer, Günter; Unterthiner, Thomas; Steijaert, Marvin; Wegner, Jörg K.; Ceulemans, Hugo; Clevert, Djork-Arné; Hochreiter, Sepp (20 июня 2018 г.). «Масштабное сравнение методов машинного обучения для прогнозирования целевых лекарственных препаратов на ChEMBL». Chemical Science . 9 (24): 5441–5451. doi :10.1039/c8sc00148k. PMC 6011237 . PMID  30155234. 
  29. ^ Мерквирт, Кристиан; Ленгауэр, Томас (1 сентября 2005 г.). «Автоматическая генерация дополнительных дескрипторов с помощью сетей молекулярных графов». Журнал химической информации и моделирования . 45 (5): 1159–1168. doi :10.1021/ci049613b. PMID  16180893.
  30. ^ Кирнс, Стивен; Макклоски, Кевин; Берндл, Марк; Панде, Виджай; Райли, Патрик (1 августа 2016 г.). «Свертки молекулярных графов: выход за рамки отпечатков пальцев». Журнал компьютерного молекулярного проектирования . 30 (8): 595–608. arXiv : 1603.00856 . Bibcode : 2016JCAMD..30..595K. doi : 10.1007/s10822-016-9938-8. PMC 5028207. PMID  27558503 . 
  31. ^ Цзян, Дэцзюнь; У, Чжэньсин; Сье, Чан-Ю; Чэнь, Гуанъюн; Ляо, Бен; Ван, Чжэ; Шэнь, Чао; Цао, Дуншэн; У, Цзянь; Хоу, Тинцзюнь (17 февраля 2021 г.). «Могут ли графовые нейронные сети лучше изучить молекулярное представление для открытия лекарств? Сравнительное исследование моделей на основе дескрипторов и графов». Журнал химинформатики . 13 (1): 12. doi : 10.1186/s13321-020-00479-8 . PMC 7888189. PMID  33597034 . 
  32. ^ ван Тилборг, Дерек; Аленичева, Алиса; Гризони, Франческа (12 декабря 2022 г.). «Раскрытие ограничений молекулярного машинного обучения с помощью обрывов активности». Журнал химической информации и моделирования . 62 (23): 5938–5951. doi :10.1021/acs.jcim.2c01073. PMC 9749029. PMID  36456532 . 
  33. ^ Gusfield D (1997). Алгоритмы на строках, деревьях и последовательностях: компьютерная наука и вычислительная биология . Кембридж, Великобритания: Cambridge University Press. ISBN 978-0-521-58519-4.
  34. ^ Helma C (2005). Предиктивная токсикология . Вашингтон, округ Колумбия: Taylor & Francis. ISBN 978-0-8247-2397-2.
  35. ^ Dossetter AG, Griffen EJ, Leach AG (2013). «Анализ парных молекулярных соединений при открытии лекарств». Drug Discovery Today . 18 (15–16): 724–31. doi :10.1016/j.drudis.2013.03.003. PMID  23557664.
  36. ^ Сушко Y, Новотарский S, Кёрнер R, Фогт J, Абдельазиз A, Тетко IV (2014). "Предсказание-управляемые согласованные молекулярные пары для интерпретации QSAR и содействия процессу молекулярной оптимизации". Журнал Cheminformatics . 6 (1): 48. doi : 10.1186/s13321-014-0048-0 . PMC 4272757 . PMID  25544551. 
  37. ^ Tong W, Hong H, Xie Q, Shi L, Fang H, Perkins R (апрель 2005 г.). «Оценка ограничений QSAR – нормативно-правовая перспектива». Current Computer-Aided Drug Design . 1 (2): 195–205. doi :10.2174/1573409053585663.
  38. ^ Dearden JC (2003). «Прогнозирование токсичности лекарств in silico». Журнал компьютерного молекулярного дизайна . 17 (2–4): 119–27. Bibcode : 2003JCAMD..17..119D. doi : 10.1023/A:1025361621494. PMID  13677480. S2CID  21518449.
  39. ^ Wold S, Eriksson L (1995). "Статистическая проверка результатов QSAR". В Waterbeemd, Han van de (ред.). Хемометрические методы в молекулярном дизайне . Weinheim: VCH. стр. 309–318. ISBN 978-3-527-30044-0.
  40. ^ Рой К (декабрь 2007 г.). «О некоторых аспектах проверки предсказательных количественных моделей взаимосвязи структуры и активности». Мнение эксперта по открытию лекарств . 2 (12): 1567–77. doi :10.1517/17460441.2.12.1567. PMID  23488901. S2CID  21305783.
  41. ^ Сахигара, Файзан; Мансури, Камель; Баллабио, Давиде; Маури, Андреа; Консонни, Вивиана; Тодескини, Роберто (2012). «Сравнение различных подходов к определению области применимости моделей QSAR». Молекулы . 17 (5): 4791–4810. дои : 10.3390/molecules17054791 . ПМК 6268288 . ПМИД  22534664. 
  42. ^ Леонард Дж. Т., Рой К. (2006). «О выборе обучающих и тестовых наборов для разработки предсказательных моделей QSAR». QSAR и комбинаторная наука . 25 (3): 235–251. doi :10.1002/qsar.200510161.
  43. ^ Рой PP, Леонард JT, Рой K (2008). «Изучение влияния размера обучающих наборов на разработку предиктивных моделей QSAR». Хемометрика и интеллектуальные лабораторные системы . 90 (1): 31–42. doi :10.1016/j.chemolab.2007.07.004.
  44. ^ Put R, Vander Heyden Y (октябрь 2007 г.). «Обзор аспектов моделирования в количественной структуре-удержании в обращенно-фазовой жидкостной хроматографии». Analytica Chimica Acta . 602 (2): 164–72. doi :10.1016/j.aca.2007.09.014. PMID  17933600.
  45. ^ Pratim Roy P, Paul S, Mitra I, Roy K (2009). «О двух новых параметрах для проверки предсказательных моделей QSAR». Molecules . 14 (5): 1660–701. doi : 10.3390/molecules14051660 . PMC 6254296 . PMID  19471190. 
  46. ^ Chirico N, Gramatica P (сентябрь 2011 г.). «Реальная внешняя предсказательная способность моделей QSAR: как ее оценить? Сравнение различных критериев проверки и предложение об использовании коэффициента корреляции конкордации». Journal of Chemical Information and Modeling . 51 (9): 2320–35. doi :10.1021/ci200211n. PMID  21800825.
  47. ^ Rouvray DH, Bonchev D (1991). Химическая теория графов: введение и основы . Tunbridge Wells, Кент, Англия: Abacus Press. ISBN 978-0-85626-454-2.
  48. ^ Fraczkiewicz, R (2013). "In Silico Prediction of Ionization". В Reedijk, J (ред.). Reference Module in Chemistry, Molecular Sciences and Chemical Engineering . Reference Module in Chemistry, Molecular Sciences and Chemical Engineering [Онлайн] . Том 5. Амстердам, Нидерланды: Elsevier. doi : 10.1016/B978-0-12-409547-2.02610-X. ISBN 9780124095472.
  49. ^ Freyhult EK, Andersson K, Gustafsson MG (апрель 2003 г.). «Структурное моделирование расширяет QSAR-анализ взаимодействий антитела-лизоцима до 3D-QSAR». Biophysical Journal . 84 (4): 2264–72. Bibcode :2003BpJ....84.2264F. doi :10.1016/S0006-3495(03)75032-2. PMC 1302793 . PMID  12668435. 
  50. ^ Тиммерман Х, Тодескини Р, Консонни В, Маннхольд Р, Кубини Х (2002). Справочник молекулярных дескрипторов . Вайнхайм: Wiley-VCH. ISBN 978-3-527-29913-3.
  51. ^ Duda RO, Hart PW, Stork DG (2001). Классификация узоров . Чичестер: John Wiley & Sons. ISBN 978-0-471-05669-0.
  52. ^ Фиораванцо, Э.; Бассан, А.; Паван, М.; Мостраг-Шлихтинг, А.; Ворт, А. П. (2012-04-01). «Роль инструментов генотоксичности in silico в нормативной оценке фармацевтических примесей». SAR и QSAR в исследованиях окружающей среды . 23 (3–4): 257–277. doi :10.1080/1062936X.2012.657236. ISSN  1062-936X. PMID  22369620. S2CID  2714861.
  53. ^ ICH M7 Оценка и контроль ДНК-реактивных (мутагенных) примесей в фармацевтических препаратах для ограничения потенциального канцерогенного риска - Научное руководство [1]
  54. ^ Lavecchia A (март 2015 г.). «Подходы к машинному обучению в разработке лекарств: методы и приложения». Drug Discovery Today . 20 (3): 318–31. doi :10.1016/j.drudis.2014.10.012. PMID  25448759.
  55. ^ Stålring JC, Carlsson LA, Almeida P, Boyer S (2011). "AZOrange - Высокопроизводительное машинное обучение с открытым исходным кодом для моделирования QSAR в графической среде программирования". Journal of Cheminformatics . 3 : 28. doi : 10.1186/1758-2946-3-28 . PMC 3158423. PMID  21798025 . 
  56. ^ Маури, Андреа; Бертола, Маттео (2022). «Alvascience: новый программный пакет для рабочего процесса QSAR, применяемый к проницаемости гематоэнцефалического барьера». Международный журнал молекулярных наук . 23 (12882): 12882. doi : 10.3390/ijms232112882 . PMC 9655980. PMID  36361669 . 
  57. ^ Фабиан Педрегоса; Гаэль Варокво; Александр Грамфор; Винсент Мишель; Бертран Тирион; Оливье Гризель; Матье Блондель; Питер Преттенхофер; Рон Вайс; Винсент Дюбур; Джейк Вандерплас; Александр Пассос; Дэвид Курнапо; Матье Перро; Эдуард Дюшенэ (2011). «scikit-learn: машинное обучение на Python». Журнал исследований машинного обучения . 12 : 28:25–28:30.

Дальнейшее чтение

Внешние ссылки