метод ГКР

Метод GOR (сокращение от Garnier–Osguthorpe–Robson) — это основанный на теории информации метод для прогнозирования вторичных структур в белках . ^[1] Он был разработан в конце 1970-х годов вскоре после более простого метода Chou–Fasman . Как и метод Chou–Fasman, метод GOR основан на вероятностных параметрах, полученных из эмпирических исследований известных третичных структур белков, решенных с помощью рентгеновской кристаллографии . Однако, в отличие от метода Chou–Fasman, метод GOR учитывает не только склонность отдельных аминокислот образовывать определенные вторичные структуры, но и условную вероятность аминокислоты образовать вторичную структуру, учитывая, что ее непосредственные соседи уже образовали эту структуру. Таким образом, метод по сути является байесовским в своем анализе. ^[2]

Метод

Метод GOR анализирует последовательности для прогнозирования вторичной структуры альфа-спирали , бета-слоя , поворота или случайной спирали в каждой позиции на основе окон последовательности из 17 аминокислот. Первоначальное описание метода включало четыре матрицы оценки размером 17×20, где столбцы соответствуют логарифмической оценке шансов, которая отражает вероятность нахождения данной аминокислоты в каждой позиции в последовательности из 17 остатков. Четыре матрицы отражают вероятности того, что центральная, девятая аминокислота находится в спиральной, листовой, поворотной или спиральной конформации. В последующих пересмотрах метода матрица поворота была исключена из-за высокой изменчивости последовательностей в областях поворота (особенно в таком большом окне). Метод считался наилучшим, требующим по крайней мере четырех смежных остатков для оценки как альфа-спиралей для классификации области как спиральной и по крайней мере двух смежных остатков для бета-слоя. ^[3]

Алгоритм

Математика и алгоритм метода GOR были основаны на более ранней серии исследований Робсона и коллег, опубликованных в основном в Journal of Molecular Biology и The Biochemical Journal . ^[4]^[5] Последний описывает информационные теоретические расширения в терминах условных информационных мер. Использование слова «простой» в названии статьи GOR отражало тот факт, что вышеупомянутые более ранние методы предоставляли доказательства и методы, несколько пугающие, будучи довольно незнакомыми в науке о белках в начале 1970-х годов; даже методы Байеса были тогда незнакомыми и противоречивыми. Важной особенностью этих ранних исследований, которые сохранились в методе GOR, была обработка разреженных данных о последовательностях белков начала 1970-х годов с помощью ожидаемых информационных мер. То есть, ожидания на байесовской основе, учитывающие распределение правдоподобных значений информационной меры с учетом фактических частот (количества наблюдений). Меры ожидания, полученные в результате интегрирования по этому и подобным распределениям, теперь можно рассматривать как состоящие из «неполных» или расширенных дзета-функций, например, z(s, наблюдаемая частота) − z(s, ожидаемая частота) с неполной дзета-функцией z(s, n) = 1 + (1/2) ^s + (1/3) ^s + (1/4) ^s + …. +(1/ n ) ^s . Метод GOR использовал s=1. Кроме того, в методе GOR и более ранних методах мера для противоположного состояния, например, спирали H, т. е. ~H, вычиталась из меры для H, и аналогично для бета-слоя, поворотов и катушки или петли. Таким образом, метод можно рассматривать как использующий оценку дзета-функции логарифмических предсказательных шансов. Также можно применять регулируемую константу решения, что, таким образом, подразумевает подход теории решений; метод GOR позволял использовать константы решения для оптимизации предсказаний для различных классов белков. Ожидаемая информационная мера, используемая в качестве основы для информационного расширения, была менее важна к моменту публикации метода GOR, поскольку данные о белковой последовательности стали более обильными, по крайней мере для рассматриваемых в то время терминов. Затем, для s=1, выражение z(s, наблюдаемая частота) − z(s, ожидаемая частота) приближается к натуральному логарифму (наблюдаемая частота / ожидаемая частота) по мере увеличения частот. Однако эта мера (включая использование других значений s) остается важной в более поздних более общих приложениях с данными высокой размерности, где данные для более сложных терминов в информационном расширении неизбежно разрежены. ^[6]

Смотрите также

Список программного обеспечения для прогнозирования структуры белка

Ссылки

^ Гарнье, Дж.; Жибрат, Дж. Ф.; Робсон, Б. (1996). "Метод GOR для прогнозирования вторичной структуры белка из аминокислотной последовательности". Компьютерные методы анализа макромолекулярной последовательности . Методы энзимологии. Т. 266. С. 540–53. doi :10.1016/S0076-6879(96)66034-0. ISBN 978-0-12-182167-8. PMID 8743705.
^ Гарнье, Дж.; Осгуторп, Дж.; Робсон, Б. (1978). «Анализ точности и последствий простых методов прогнозирования вторичной структуры глобулярных белков». J Mol Biol . 120 (1): 97–120. doi :10.1016/0022-2836(78)90297-8. PMID 642007.
^ Маунт, Д. М. (2004). Биоинформатика: Анализ последовательностей и генома . Том 2. Cold Spring Harbor Laboratory Press. ISBN 0-87969-712-1.
^ Робсон, Б.; Пейн, Р. Х. (1971). «Анализ кода, связывающего последовательность с конформацией в глобулярных белках: возможные последствия для механизма формирования спиральных областей». J. Mol. Biol . 58 (1): 237–256. doi :10.1016/0022-2836(78)90297-8. PMID 642007.
^ Робсон, Б. (1974). «Анализ кода, связывающего последовательность с конформацией в глобулярных белках: теория и применение ожидаемой информации». Биохимический журнал . 141 (3): 853–867. doi :10.1042/bj1410853. PMC 1168191. PMID 4463965 .
^ например, Робсон, Б. (2005). «Клинический и фармакогеномный интеллектуальный анализ данных: 3. Дзета-теория как общая тактика для клинической биоинформатики». J. Proteome Res . 4 (2). Am. Chem. Soc.: 445–455. doi : 10.1021/pr049800p. PMID 15822921.