stringtranslate.com

метод газового фактора

Метод GOR (сокращение от Гарнье-Осгуторпа-Робсона) — это метод, основанный на теории информации, для предсказания вторичных структур в белках . [1] Он был разработан в конце 1970-х годов, вскоре после более простого метода Чоу-Фасмана . Как и Чоу-Фасмана, метод GOR основан на вероятностных параметрах, полученных в результате эмпирических исследований известных третичных структур белков , решенных с помощью рентгеновской кристаллографии . Однако в отличие от Чжоу–Фасмана метод ГОР учитывает не только склонность отдельных аминокислот к образованию тех или иных вторичных структур, но и условную вероятность образования аминокислотой вторичной структуры при условии, что ее непосредственные соседи уже сформировали такую ​​структуру. состав. Таким образом, этот метод по существу является байесовским в своем анализе. [2]

Метод

Метод GOR анализирует последовательности для прогнозирования вторичной структуры альфа-спирали , бета-листа , поворота или случайной катушки в каждой позиции на основе окон последовательностей из 17 аминокислот. Первоначальное описание метода включало четыре оценочные матрицы размером 17×20, где столбцы соответствуют шкале логарифмических шансов , которая отражает вероятность обнаружения данной аминокислоты в каждой позиции в последовательности из 17 остатков. Четыре матрицы отражают вероятность того, что центральная девятая аминокислота находится в спиральной, листовой, витой или спиральной конформации. В последующих версиях метода матрица поворотов была исключена из-за высокой вариабельности последовательностей в областях поворотов (особенно в таком большом окне). Этот метод считался лучшим, требующим, чтобы по крайней мере четыре смежных остатка считались альфа-спиралями, чтобы классифицировать область как спиральную, и по крайней мере два смежных остатка для бета-листа. [3]

Алгоритм

Математика и алгоритм метода GOR были основаны на более ранней серии исследований Робсона и его коллег, опубликованных в основном в журналах «Молекулярная биология» и «Биохимический журнал» . [4] [5] Последний описывает расширения теории информации с точки зрения условных информационных мер. Использование слова «простой» в названии статьи GOR отражает тот факт, что вышеупомянутые более ранние методы предоставили доказательства и методы, которые были несколько устрашающими, поскольку они были довольно незнакомы в науке о белках в начале 1970-х годов; даже методы Байеса были тогда незнакомы и противоречивы. Важной особенностью этих ранних исследований, сохранившихся в методе GOR, была обработка данных о редких последовательностях белков начала 1970-х годов с помощью ожидаемых информационных мер. То есть ожидания на байесовской основе, учитывающие распределение вероятных значений информационной меры с учетом фактических частот (количества наблюдений). Меры ожидания, полученные в результате интегрирования по этому и подобным распределениям, теперь можно рассматривать как состоящие из «неполных» или расширенных дзета-функций, например, z(s, наблюдаемая частота) − z(s, ожидаемая частота) с неполной дзета-функцией z(s, п) = 1 + (1/2) с + (1/3) с + (1/4) с + …. +(1/ n ) с . В методе ГФ использовалось s=1. Кроме того, в методе GOR и более ранних методах мера состояния, противоположного, например, спирали H, т.е. ~H, вычиталась из меры для H, и аналогично для бета-листа, витков и катушки или петли. Таким образом, этот метод можно рассматривать как использование оценки дзета-функции логарифмических шансов прогнозирования. Также можно применить регулируемую константу решения, что, таким образом, подразумевает подход теории принятия решений; метод GOR позволил использовать константы решения для оптимизации прогнозов для различных классов белков. Ожидаемая информационная мера, используемая в качестве основы для расширения информации, была менее важна ко времени публикации метода GOR, поскольку данных о последовательностях белков стало больше, по крайней мере, для терминов, рассматриваемых в то время. Затем, для s=1, выражение z(s,наблюдаемая частота) − z(s,ожидаемая частота) приближается к натуральному логарифму (наблюдаемая частота/ожидаемая частота) по мере увеличения частот. Однако эта мера (включая использование других значений s) остается важной в более поздних более общих приложениях с многомерными данными, где данные для более сложных условий информационного расширения неизбежно скудны. [6]

Смотрите также

Рекомендации

  1. ^ Гарнье, Дж.; Гибрат, Дж. Ф.; Робсон, Б. (1996). «Метод GOR для предсказания вторичной структуры белка по аминокислотной последовательности». Компьютерные методы анализа макромолекулярных последовательностей . Методы Энзимол. Том. 266. стр. 540–53. дои : 10.1016/S0076-6879(96)66034-0. ISBN 978-0-12-182167-8. ПМИД  8743705.
  2. ^ Гарнье, Дж.; Осгуторп, диджей; Робсон, Б. (1978). «Анализ точности и применения простых методов предсказания вторичной структуры глобулярных белков». Дж Мол Биол . 120 (1): 97–120. дои : 10.1016/0022-2836(78)90297-8. ПМИД  642007.
  3. ^ Маунт, DM (2004). Биоинформатика: анализ последовательностей и генома . Том. 2. Лабораторный пресс Колд-Спринг-Харбор. ISBN 0-87969-712-1.
  4. ^ Робсон, Б.; Боль, Р.Х. (1971). «Анализ кода, связывающего последовательность с конформацией в глобулярных белках: возможные последствия для механизма формирования спиральных областей». Дж. Мол. Биол . 58 (1): 237–256. дои : 10.1016/0022-2836(78)90297-8. ПМИД  642007.
  5. ^ Робсон, Б. (1974). «Анализ кода, связывающего последовательность с конформацией в глобулярных белках: теория и применение ожидаемой информации». Биохимический журнал . 141 (3): 853–867. дои : 10.1042/bj1410853. ПМК 1168191 . ПМИД  4463965. 
  6. ^ например, Робсон, Б. (2005). «Клинический и фармакогеномный анализ данных: 3. Дзета-теория как общая тактика клинической биоинформатики». J. Протеом Рез . 4 (2). Являюсь. хим. Соц.: 445–455. дои : 10.1021/pr049800p. ПМИД  15822921.