В теоретической лингвистике и компьютерной лингвистике вероятностные контекстно-свободные грамматики ( PCFG ) расширяют контекстно-свободные грамматики , подобно тому, как скрытые марковские модели расширяют регулярные грамматики . Каждой продукции назначается вероятность. Вероятность вывода (анализа) является произведением вероятностей продукций, используемых в этом выводе. Эти вероятности можно рассматривать как параметры модели, и для больших задач удобно изучать эти параметры с помощью машинного обучения . Валидность вероятностной грамматики ограничена контекстом ее обучающего набора данных.
PCFGs возникли из теории грамматики и применяются в таких разнообразных областях, как обработка естественного языка для изучения структуры молекул РНК и проектирования языков программирования . Проектирование эффективных PCFGs должно учитывать факторы масштабируемости и общности. Необходимо решить такие проблемы, как неоднозначность грамматики. Проектирование грамматики влияет на точность результатов. Алгоритмы анализа грамматики имеют различные требования к времени и памяти.
Вывод: процесс рекурсивной генерации строк из грамматики.
Синтаксический анализ : нахождение допустимого вывода с использованием автомата.
Дерево синтаксического анализа: выравнивание грамматики в последовательность.
Примером парсера для грамматик PCFG является pushdown-автомат . Алгоритм анализирует нетерминалы грамматики слева направо в стековой манере. Этот подход грубой силы не очень эффективен. В РНК-вариациях предсказания вторичной структуры алгоритма Кока-Янгера-Касами (CYK) обеспечивают более эффективные альтернативы парсингу грамматики, чем pushdown-автоматы. [1] Другим примером парсера PCFG является Stanford Statistical Parser, который был обучен с помощью Treebank . [2]
Подобно CFG , вероятностная контекстно-свободная грамматика G может быть определена пятеркой:
где
Модели PCFG расширяют контекстно-свободные грамматики так же, как скрытые марковские модели расширяют обычные грамматики .
Алгоритм Inside-Outside является аналогом алгоритма Forward-Backward . Он вычисляет общую вероятность всех выводов, которые согласуются с заданной последовательностью, на основе некоторой PCFG. Это эквивалентно вероятности того, что PCFG сгенерирует последовательность, и интуитивно является мерой того, насколько последовательность согласуется с заданной грамматикой. Алгоритм Inside-Outside используется в параметризации модели для оценки предшествующих частот, наблюдаемых из обучающих последовательностей в случае РНК.
Варианты динамического программирования алгоритма CYK находят синтаксический анализ Витерби последовательности РНК для модели PCFG. Этот синтаксический анализ является наиболее вероятным выводом последовательности заданной PCFG.
Контекстно-свободные грамматики представлены как набор правил, вдохновленных попытками моделирования естественных языков. [3] [4] [5] Правила являются абсолютными и имеют типичное синтаксическое представление, известное как форма Бэкуса–Наура . Правила производства состоят из терминальных и нетерминальных символов S , а пробел также может использоваться в качестве конечной точки. В правилах производства CFG и PCFG левая часть имеет только один нетерминал, тогда как правая часть может быть любой строкой терминальных или нетерминальных символов. В PCFG нулевые значения исключены. [1] Пример грамматики:
Эту грамматику можно сократить с помощью символа «|» («или») до:
Терминалы в грамматике — это слова, и посредством правил грамматики нетерминальный символ преобразуется в строку либо терминалов, либо нетерминалов. Вышеприведенная грамматика читается как «начиная с нетерминала S эмиссия может генерировать либо a, либо b, либо ». Ее вывод:
Неоднозначная грамматика может привести к неоднозначному разбору, если применяется к омографам , поскольку одна и та же последовательность слов может иметь более одной интерпретации. Каламбурные предложения , такие как газетный заголовок «Иракская голова ищет оружие», являются примером неоднозначного разбора.
Одна из стратегий работы с неоднозначными разборами (возникшая еще у грамматистов, начиная с Панини ) заключается в добавлении еще большего количества правил или в расстановке их приоритетов так, чтобы одно правило имело приоритет над другими. Однако это имеет недостаток в виде разрастания правил, часто до такой степени, что ими становится трудно управлять. Другая трудность — это перегенерация, когда также генерируются нелицензированные структуры.
Вероятностные грамматики обходят эти проблемы, ранжируя различные произведения по частотным весам, что приводит к "наиболее вероятной" (победитель получает все) интерпретации. Поскольку модели использования изменяются в диахронических сдвигах, эти вероятностные правила могут быть заново изучены, тем самым обновляя грамматику.
Назначение вероятности производственным правилам создает PCFG. Эти вероятности получаются путем наблюдения распределений на обучающем наборе, состав которого схож с составом моделируемого языка. На большинстве образцов широкого языка вероятностные грамматики, в которых вероятности оцениваются по данным, обычно превосходят грамматики, созданные вручную. CFG, в отличие от PCFG, неприменимы к предсказанию структуры РНК, поскольку, хотя они и включают связь последовательность-структура, им не хватает метрик оценки, которые раскрывают потенциал структуры последовательности [6]
Взвешенная контекстно-свободная грамматика ( WCFG ) — это более общая категория контекстно-свободной грамматики , где каждая продукция имеет числовой вес, связанный с ней. Вес конкретного дерева разбора в WCFG — это произведение [7] (или сумма [8] ) всех весов правил в дереве. Каждый вес правила включается так часто, как правило используется в дереве. Особым случаем WCFG являются PCFG, где веса — это ( логарифмы [ 9] [10] ) вероятностей .
Расширенную версию алгоритма CYK можно использовать для поиска «самого легкого» (с наименьшим весом) вывода строки по некоторому WCFG.
Когда вес дерева является произведением весов правил, WCFG и PCFG могут выражать один и тот же набор распределений вероятностей . [7]
С 1990-х годов PCFG применяется для моделирования структур РНК . [11] [12] [13] [14] [15]
Минимизация энергии [16] [17] и PCFG предоставляют способы предсказания вторичной структуры РНК с сопоставимой производительностью. [11] [12] [1] Однако предсказание структуры с помощью PCFG оценивается вероятностно, а не путем расчета минимальной свободной энергии. Параметры модели PCFG напрямую выводятся из частот различных признаков, наблюдаемых в базах данных структур РНК [6], а не путем экспериментального определения, как в случае с методами минимизации энергии. [18] [19]
Типы различных структур, которые могут быть смоделированы PCFG, включают дальние взаимодействия, попарную структуру и другие вложенные структуры. Однако псевдоузлы не могут быть смоделированы. [11] [12] [1] PCFG расширяют CFG, назначая вероятности каждому правилу производства. Дерево анализа максимальной вероятности из грамматики подразумевает структуру максимальной вероятности. Поскольку РНК сохраняют свои структуры по своей первичной последовательности, предсказание структуры РНК может руководствоваться объединением эволюционной информации из сравнительного анализа последовательностей с биофизическими знаниями о правдоподобии структуры, основанными на таких вероятностях. Также результаты поиска структурных гомологов с использованием правил PCFG оцениваются в соответствии с вероятностями вывода PCFG. Поэтому построение грамматики для моделирования поведения пар оснований и одноцепочечных областей начинается с изучения особенностей структурного множественного выравнивания последовательностей родственных РНК. [1]
Вышеуказанная грамматика генерирует строку в стиле снаружи внутрь, то есть пара оснований на самых дальних концах терминала выводится первой. Таким образом, строка, такая как выводится сначала путем генерации дистальных a с обеих сторон, прежде чем двигаться внутрь:
Расширяемость модели PCFG позволяет ограничить предсказание структуры путем включения ожиданий относительно различных характеристик РНК. Такое ожидание может отражать, например, склонность РНК предполагать определенную структуру. [6] Однако включение слишком большого количества информации может увеличить пространство PCFG и сложность памяти, и желательно, чтобы модель на основе PCFG была как можно проще. [6] [20]
Каждой возможной строке x, которую генерирует грамматика, присваивается вес вероятности, заданный моделью PCFG . Из этого следует, что сумма всех вероятностей для всех возможных производных грамматики равна . Оценки для каждого парного и непарного остатка объясняют вероятность образования вторичной структуры. Правила производства также позволяют оценивать длину цикла, а также порядок укладки пар оснований, поэтому можно исследовать диапазон всех возможных генераций, включая субоптимальные структуры из грамматики, и принимать или отклонять структуры на основе пороговых значений оценок. [1] [6]
Реализации вторичной структуры РНК, основанные на подходах PCFG, могут быть использованы в:
Существуют различные реализации этих подходов. Например, Pfold используется для предсказания вторичной структуры из группы связанных последовательностей РНК, [20] ковариационные модели используются для поиска в базах данных гомологичных последовательностей, а также для аннотации и классификации РНК, [11] [24] RNApromo, CMFinder и TEISER используются для поиска стабильных структурных мотивов в РНК. [25] [26] [27]
Проектирование PCFG влияет на точность предсказания вторичной структуры. Любая полезная вероятностная модель предсказания структуры, основанная на PCFG, должна поддерживать простоту без особого ущерба для точности предсказания. Слишком сложная модель с превосходной производительностью на одной последовательности может не масштабироваться. [1] Модель на основе грамматики должна уметь:
Получение нескольких деревьев разбора на грамматику указывает на неоднозначность грамматики. Это может быть полезно для выявления всех возможных структур пар оснований для грамматики. Однако оптимальной структурой является та, в которой существует одно и только одно соответствие между деревом разбора и вторичной структурой.
Можно выделить два типа неоднозначностей. Неоднозначность дерева синтаксического анализа и структурная неоднозначность. Структурная неоднозначность не влияет на термодинамические подходы, поскольку оптимальный выбор структуры всегда осуществляется на основе наименьших оценок свободной энергии. [6] Неоднозначность дерева синтаксического анализа касается существования нескольких деревьев синтаксического анализа на последовательность. Такая неоднозначность может выявить все возможные структуры пар оснований для последовательности, генерируя все возможные деревья синтаксического анализа, а затем находя оптимальное. [28] [29] [30] В случае структурной неоднозначности несколько деревьев синтаксического анализа описывают одну и ту же вторичную структуру. Это скрывает решение алгоритма CYK о поиске оптимальной структуры, поскольку соответствие между деревом синтаксического анализа и структурой не является уникальным. [31] Неоднозначность грамматики может быть проверена с помощью условно-внутреннего алгоритма. [1] [6]
Вероятностная контекстно-свободная грамматика состоит из терминальных и нетерминальных переменных. Каждому моделируемому признаку присваивается производственное правило, которому назначается вероятность, оцененная по обучающему набору структур РНК. Производственные правила применяются рекурсивно до тех пор, пока не останутся только терминальные остатки.
Начальный нетерминал производит циклы. Остальная часть грамматики продолжается с параметром , который определяет, является ли цикл началом стебля или одноцепочечной области s , и параметром , который производит парные основания.
Формализм этой простой PCFG выглядит следующим образом:
Применение PCFG в прогнозировании структур является многоэтапным процессом. Кроме того, сам PCFG может быть включен в вероятностные модели, которые рассматривают историю эволюции РНК или ищут гомологичные последовательности в базах данных. В контексте эволюционной истории включение предшествующих распределений структур РНК структурного выравнивания в правила производства PCFG способствует хорошей точности прогнозирования. [21]
Краткое изложение общих шагов по использованию PCFG в различных сценариях:
Существует несколько алгоритмов, работающих с аспектами вероятностных моделей на основе PCFG в прогнозировании структуры РНК. Например, алгоритм «внутри-снаружи» и алгоритм CYK. Алгоритм «внутри-снаружи» — это рекурсивный алгоритм динамического программирования, который может следовать парадигмам максимизации ожиданий . Он вычисляет общую вероятность всех выводов, которые согласуются с заданной последовательностью, на основе некоторого PCFG. Внутренняя часть оценивает поддеревья из дерева разбора и, следовательно, вероятности подпоследовательностей, заданные PCFG. Внешняя часть оценивает вероятность полного дерева разбора для полной последовательности. [32] [33] CYK изменяет оценку «внутри-снаружи». Обратите внимание, что термин «алгоритм CYK» описывает вариант CYK внутреннего алгоритма, который находит оптимальное дерево разбора для последовательности с использованием PCFG. Он расширяет фактический алгоритм CYK, используемый в невероятностных CFG. [1]
Внутренний алгоритм вычисляет вероятности для всех поддеревьев синтаксического анализа с корнем для подпоследовательности . Внешний алгоритм вычисляет вероятности полного дерева синтаксического анализа для последовательности x из корня, исключая вычисление . Переменные α и β уточняют оценку параметров вероятности PCFG. Можно переоценить алгоритм PCFG, найдя ожидаемое количество раз, когда состояние используется в выводе, путем суммирования всех произведений α и β, деленных на вероятность для последовательности x, заданной моделью . Также можно найти ожидаемое количество раз, когда правило производства используется максимизацией ожидания, которая использует значения α и β . [32] [33] Алгоритм CYK вычисляет , чтобы найти наиболее вероятное дерево синтаксического анализа и выдает . [1]
Сложность памяти и времени для общих алгоритмов PCFG в предсказаниях структуры РНК составляет и соответственно. Ограничение PCFG может изменить это требование, как в случае с методами поиска в базе данных.
Ковариационные модели (КМ) представляют собой особый тип PCFG с приложениями для поиска в базах данных гомологов, аннотации и классификации РНК. С помощью КМ можно построить профили РНК на основе PCFG, где связанные РНК могут быть представлены консенсусной вторичной структурой. [11] [12] Пакет анализа РНК Infernal использует такие профили для вывода выравниваний РНК. [34] База данных Rfam также использует КМ для классификации РНК в семейства на основе их структуры и информации о последовательности. [24]
CM разрабатываются на основе консенсусной структуры РНК. CM допускает индели неограниченной длины в выравнивании. Терминалы представляют собой состояния в CM, а вероятности перехода между состояниями равны 1, если индели не учитываются. [1] Грамматики в CM следующие:
Модель имеет 6 возможных состояний, и каждая грамматика состояний включает различные типы вероятностей вторичной структуры нетерминалов. Состояния связаны переходами. В идеале текущие состояния узлов связаны со всеми состояниями вставки, а последующие состояния узлов связаны с состояниями невставки. Чтобы разрешить вставку более чем одной базы, состояния вставки связаны с собой. [1]
Для оценки модели CM используются алгоритмы «изнутри-снаружи». CM используют немного иную реализацию CYK. Оценки эмиссии логарифмических шансов для оптимального дерева разбора - - вычисляются из состояний эмиссии . Поскольку эти оценки являются функцией длины последовательности, более дискриминантная мера для восстановления оценки вероятности оптимального дерева разбора - - достигается путем ограничения максимальной длины последовательности, подлежащей выравниванию, и вычисления логарифмических шансов относительно нуля. Время вычисления этого шага линейно зависит от размера базы данных, а сложность памяти алгоритма составляет . [1]
Алгоритм KH-99 Кнудсена и Хайна закладывает основу подхода Pfold к прогнозированию вторичной структуры РНК. [20] В этом подходе параметризация требует информации об эволюционной истории, полученной из дерева выравнивания в дополнение к вероятностям столбцов и мутаций. Вероятности грамматики наблюдаются из обучающего набора данных.
В структурном выравнивании вероятности столбцов непарных оснований и столбцов парных оснований не зависят от других столбцов. Подсчитывая основания в одиночных и парных позициях оснований, можно получить частоты оснований в петлях и стеблях. Для пар оснований X и Y появление также считается появлением . Идентичные пары оснований, такие как , подсчитываются дважды.
Спаривая последовательности всеми возможными способами, оцениваются общие скорости мутаций. Для того чтобы восстановить правдоподобные мутации, следует использовать порог идентичности последовательности, чтобы сравнение проводилось между похожими последовательностями. Этот подход использует порог идентичности 85% между парными последовательностями. Первые различия в позициях отдельных оснований — за исключением столбцов с пробелами — между парами последовательностей подсчитываются таким образом, что если одна и та же позиция в двух последовательностях имела разные основания X, Y, то счет разницы увеличивается для каждой последовательности.
в то время как первая пара последовательности вторая пара последовательности
Рассчитайте частоту мутаций. Пусть мутация основания X в основание Y. Пусть отрицательная частота мутации X в другие основания — вероятность того, что основание не является парным.
Для непарных оснований используется матрица скорости мутаций 4 X 4, которая удовлетворяет условию, что поток мутаций от X к Y является обратимым: [35]
Для пар оснований матрица распределения скоростей 16 X 16 генерируется аналогичным образом. [36] [37] PCFG используется для прогнозирования априорного распределения вероятностей структуры, тогда как апостериорные вероятности оцениваются алгоритмом «изнутри-снаружи», а наиболее вероятная структура находится алгоритмом CYK. [20]
После вычисления априорных вероятностей столбцов вероятность выравнивания оценивается путем суммирования по всем возможным вторичным структурам. Любой столбец C во вторичной структуре для последовательности D длины l такой, что может быть оценен относительно дерева выравнивания T и мутационной модели M. Априорное распределение, заданное PCFG, равно . Филогенетическое дерево T может быть рассчитано из модели путем оценки максимального правдоподобия. Обратите внимание, что пробелы рассматриваются как неизвестные основания, и суммирование может быть выполнено посредством динамического программирования . [38]
Каждой структуре в грамматике назначаются вероятности производства, разработанные на основе структур обучающего набора данных. Эти априорные вероятности придают вес точности предсказаний. [21] [32] [33] Количество раз, когда каждое правило используется, зависит от наблюдений из обучающего набора данных для этой конкретной грамматической особенности. Эти вероятности записываются в скобках в формализме грамматики, и каждое правило будет иметь общую сумму 100%. [20] Например:
Учитывая частоты предварительного выравнивания данных, наиболее вероятная структура из ансамбля, предсказанного грамматикой, может быть вычислена путем максимизации с помощью алгоритма CYK. Структура с наибольшим предсказанным числом правильных предсказаний сообщается как консенсусная структура. [20]
Подходы на основе PCFG должны быть масштабируемыми и достаточно общими. Необходимо свести к минимуму компромисс скорости ради точности. Pfold устраняет ограничения алгоритма KH-99 в отношении масштабируемости, пробелов, скорости и точности. [20]
В то время как PCFG оказались мощными инструментами для прогнозирования вторичной структуры РНК, их использование в области анализа последовательностей белков было ограничено. Действительно, размер алфавита аминокислот и разнообразие взаимодействий, наблюдаемых в белках, значительно усложняют вывод грамматики. [39] Как следствие, большинство приложений формальной теории языка к анализу белков в основном ограничивались созданием грамматик с более низкой выразительной силой для моделирования простых функциональных шаблонов, основанных на локальных взаимодействиях. [40] [41] Поскольку структуры белков обычно демонстрируют зависимости более высокого порядка, включая вложенные и перекрестные отношения, они явно превосходят возможности любого CFG. [39] Тем не менее, разработка PCFG позволяет выражать некоторые из этих зависимостей и предоставлять возможность моделировать более широкий спектр шаблонов белков.
{{cite book}}
: |journal=
проигнорировано ( помощь )