PSI-blast based secondary structure PREDiction ( PSIPRED ) — это метод, используемый для исследования структуры белка . Он использует в своем алгоритме методы машинного обучения искусственных нейронных сетей . [2] [3] [4] Это серверная программа, в которой веб-сайт выступает в качестве интерфейса, который может предсказывать вторичную структуру белка ( бета-слои , альфа-спирали и спирали ) из первичной последовательности.
PSIPRED доступен как веб-сервис и как программное обеспечение. Программное обеспечение распространяется в виде исходного кода , технически лицензированного как фирменное программное обеспечение . Оно позволяет вносить изменения, но обеспечивает соблюдение положений бесплатного программного обеспечения , запрещая коммерческое распространение программного обеспечения и его результатов.
Вторичная структура — это общая трехмерная форма локальных сегментов биополимеров, таких как белки и нуклеиновые кислоты ( ДНК , РНК ). Однако она не описывает конкретные атомные позиции в трехмерном пространстве, которые считаются третичной структурой . Вторичная структура может быть формально определена водородными связями биополимера, как это наблюдается в структуре с атомным разрешением. В белках вторичная структура определяется моделями водородных связей между амино- и карбоксильными группами основной цепи . Напротив, для нуклеиновых кислот вторичная структура состоит из водородных связей между азотистыми основаниями . Модели водородных связей могут быть значительно искажены, что затрудняет автоматическое определение вторичной структуры. Попытки использовать компьютеры для прогнозирования вторичных структур белков , основанные только на их заданных последовательностях первичной структуры , продолжаются с 1970-х годов. [5]
Прогнозирование вторичной структуры включает в себя набор методов в биоинформатике , которые направлены на прогнозирование локальных вторичных структур белков и последовательностей РНК, основанных только на знании их первичной структуры — аминокислотной или нуклеотидной последовательности соответственно. Для белков прогнозирование состоит из назначения областей аминокислотной последовательности как высоковероятных альфа-спиралей , бета-нитей (часто обозначаемых как расширенные конформации ) или поворотов. Успех прогнозирования определяется путем сравнения его с результатами алгоритма DSSP, примененного к кристаллической структуре белка; для нуклеиновых кислот он может быть определен по паттерну водородных связей. Были разработаны специализированные алгоритмы для обнаружения определенных четко определенных паттернов, таких как трансмембранные спирали и спиральные спирали в белках или канонические структуры микроРНК в РНК.
Идея этого метода заключается в использовании информации об эволюционно связанных белках для прогнозирования вторичной структуры новой аминокислотной последовательности. PSI BLAST используется для поиска связанных последовательностей и построения матрицы оценок, специфичной для позиции. Эта матрица обрабатывается искусственной нейронной сетью , [3] [6], которая была создана и обучена для прогнозирования вторичной структуры входной последовательности; [7] короче говоря, это метод машинного обучения . [8]
Метод или алгоритм прогнозирования делится на три этапа: генерация профиля последовательности , прогнозирование начальной вторичной структуры и фильтрация предсказанной структуры . [9] PSIPRED работает над нормализацией профиля последовательности, сгенерированного PSIBLAST. [3] Затем, используя нейронную сеть, прогнозируется начальная вторичная структура. Для каждой аминокислоты в последовательности нейронная сеть получает окно из 15 кислот. Прикрепляется дополнительная информация, указывающая, охватывает ли окно N- или C-конец цепи. Это приводит к конечному входному слою из 315 входных единиц, разделенных на 15 групп по 21 единице. Сеть имеет один скрытый слой из 75 единиц и 3 выходных узла (по одному для каждого элемента вторичной структуры: спирали, листа, катушки). [6]
Вторая нейронная сеть используется для фильтрации предсказанной структуры первой сети. Эта сеть также получает окно из 15 позиций. Индикатор возможного положения окна на конце цепи также передается. Это приводит к 60 входным единицам, разделенным на 15 групп по четыре. Сеть имеет один скрытый слой из 60 единиц и приводит к трем выходным узлам (по одному для каждого элемента вторичной структуры: спираль, лист, катушка). [9]
Три последних выходных узла выдают оценку для каждого элемента вторичной структуры для центральной позиции окна. Используя вторичную структуру с наивысшей оценкой, PSIPRED генерирует предсказание белка. [9] Значение Q3 — это доля остатков, предсказанных правильно в состояниях вторичной структуры, а именно спирали, нити и клубка. [9]