Метод GOR (сокращение от Garnier–Osguthorpe–Robson) — это основанный на теории информации метод для прогнозирования вторичных структур в белках . [1] Он был разработан в конце 1970-х годов вскоре после более простого метода Chou–Fasman . Как и метод Chou–Fasman, метод GOR основан на вероятностных параметрах, полученных из эмпирических исследований известных третичных структур белков, решенных с помощью рентгеновской кристаллографии . Однако, в отличие от метода Chou–Fasman, метод GOR учитывает не только склонность отдельных аминокислот образовывать определенные вторичные структуры, но и условную вероятность аминокислоты образовать вторичную структуру, учитывая, что ее непосредственные соседи уже образовали эту структуру. Таким образом, метод по сути является байесовским в своем анализе. [2]
Метод GOR анализирует последовательности для прогнозирования вторичной структуры альфа-спирали , бета-слоя , поворота или случайной спирали в каждой позиции на основе окон последовательности из 17 аминокислот. Первоначальное описание метода включало четыре матрицы оценки размером 17×20, где столбцы соответствуют логарифмической оценке шансов, которая отражает вероятность нахождения данной аминокислоты в каждой позиции в последовательности из 17 остатков. Четыре матрицы отражают вероятности того, что центральная, девятая аминокислота находится в спиральной, листовой, поворотной или спиральной конформации. В последующих пересмотрах метода матрица поворота была исключена из-за высокой изменчивости последовательностей в областях поворота (особенно в таком большом окне). Метод считался наилучшим, требующим по крайней мере четырех смежных остатков для оценки как альфа-спиралей для классификации области как спиральной и по крайней мере двух смежных остатков для бета-слоя. [3]
Математика и алгоритм метода GOR были основаны на более ранней серии исследований Робсона и коллег, опубликованных в основном в Journal of Molecular Biology и The Biochemical Journal . [4] [5] Последний описывает информационные теоретические расширения в терминах условных информационных мер. Использование слова «простой» в названии статьи GOR отражало тот факт, что вышеупомянутые более ранние методы предоставляли доказательства и методы, несколько пугающие, будучи довольно незнакомыми в науке о белках в начале 1970-х годов; даже методы Байеса были тогда незнакомыми и противоречивыми. Важной особенностью этих ранних исследований, которые сохранились в методе GOR, была обработка разреженных данных о последовательностях белков начала 1970-х годов с помощью ожидаемых информационных мер. То есть, ожидания на байесовской основе, учитывающие распределение правдоподобных значений информационной меры с учетом фактических частот (количества наблюдений). Меры ожидания, полученные в результате интегрирования по этому и подобным распределениям, теперь можно рассматривать как состоящие из «неполных» или расширенных дзета-функций, например, z(s, наблюдаемая частота) − z(s, ожидаемая частота) с неполной дзета-функцией z(s, n) = 1 + (1/2) s + (1/3) s + (1/4) s + …. +(1/ n ) s . Метод GOR использовал s=1. Кроме того, в методе GOR и более ранних методах мера для противоположного состояния, например, спирали H, т. е. ~H, вычиталась из меры для H, и аналогично для бета-слоя, поворотов и катушки или петли. Таким образом, метод можно рассматривать как использующий оценку дзета-функции логарифмических предсказательных шансов. Также можно применять регулируемую константу решения, что, таким образом, подразумевает подход теории решений; метод GOR позволял использовать константы решения для оптимизации предсказаний для различных классов белков. Ожидаемая информационная мера, используемая в качестве основы для информационного расширения, была менее важна к моменту публикации метода GOR, поскольку данные о белковой последовательности стали более обильными, по крайней мере для рассматриваемых в то время терминов. Затем, для s=1, выражение z(s, наблюдаемая частота) − z(s, ожидаемая частота) приближается к натуральному логарифму (наблюдаемая частота / ожидаемая частота) по мере увеличения частот. Однако эта мера (включая использование других значений s) остается важной в более поздних более общих приложениях с данными высокой размерности, где данные для более сложных терминов в информационном расширении неизбежно разрежены. [6]