Теория смысла и текста ( MTT ) — это теоретическая лингвистическая структура, впервые предложенная в Москве Александром Жолковским и Игорем Мельчуком [1] для построения моделей естественного языка. Теория обеспечивает большую и сложную основу для лингвистического описания и, благодаря своему формальному характеру, особенно хорошо подходит для компьютерных приложений , включая машинный перевод , фразеологию и лексикографию . [ требуется ссылка ]
Лингвистические модели в теории смысла–текста работают по принципу, что язык состоит в отображении содержания или смысла (семантики) высказывания на его форму или текст (фонетику). Промежуточными между этими полюсами являются дополнительные уровни представления на синтаксическом и морфологическом уровнях.
Представления на разных уровнях отображаются последовательно из неупорядоченной сети семантического представления (SemR) через древовидные структуры зависимостей синтаксического представления (SyntR) в линеаризованную цепочку морфем морфологического представления (MorphR) и, в конечном счете, во временно упорядоченную строку фонов фонетического представления (PhonR) (обычно не рассматриваемую в работе по этой теории). Отношения между представлениями на разных уровнях считаются переводами или отображениями, а не преобразованиями, и опосредуются наборами правил, называемых «компонентами», которые обеспечивают соответствующие, специфичные для языка переходы между уровнями.
Семантические представления (SemR) в теории смысла–текста в основном состоят из семантической структуры, похожей на сеть (SemS), которая объединяется с другими структурами семантического уровня (в частности, семантико-коммуникативной структурой [SemCommS], [2] , которая представляет то, что обычно называют « информационной структурой » в других фреймворках). Сама SemS состоит из сети предикаций , представленных в виде узлов со стрелками, идущими от узлов предикатов к узлам аргументов . Аргументы могут совместно использоваться несколькими предикатами, а предикаты сами могут быть аргументами других предикатов. Узлы обычно соответствуют лексическим и грамматическим значениям, поскольку они напрямую выражаются элементами в лексиконе или с помощью словоизменительных средств, но теория допускает возможность разложения значений на более мелкозернистые представления с помощью процессов семантического парафразирования, [3], которые также являются ключом к работе с синонимией и эквивалентностями перевода между языками. SemR отображаются на следующем уровне представления, глубоком синтаксическом представлении, по правилам семантического компонента, которые допускают связь один ко многим между уровнями (то есть один SemR может быть потенциально выражен различными синтаксическими структурами в зависимости от лексического выбора, сложности SemR и т. д.). Структурное описание и (полу)автоматическая генерация SemR являются предметом исследования. [4] Здесь декомпозиция использует семантические примитивы естественного семантического метаязыка для определения критерия завершения декомпозиции.
Синтаксические представления (SyntR) в теории смысла–текста реализуются с использованием деревьев зависимостей , которые составляют синтаксическую структуру (SyntS). SyntS сопровождается различными другими типами структур, наиболее заметными из которых являются синтаксическая коммуникативная структура и анафорическая структура. В теории смысла–текста существует два уровня синтаксиса: глубокое синтаксическое представление (DSyntR) и поверхностное синтаксическое представление (SSyntR). Хороший обзор синтаксиса теории смысла–текста, включая его описательное применение, можно найти в Mel'čuk (1988). [5] Комплексная модель поверхностного синтаксиса английского языка представлена в Mel'čuk & Pertsov (1987). [6]
Глубокое синтаксическое представление (DSyntR) напрямую связано с SemS и стремится охватить «универсальные» аспекты синтаксической структуры. Деревья на этом уровне представляют отношения зависимости между лексемами (или между лексемами и ограниченным перечнем абстрактных сущностей, таких как лексические функции). Глубокие синтаксические отношения между лексемами на DSyntR ограничены универсальным перечнем из дюжины синтаксических отношений, включая семь ранжированных актантных (аргументных) отношений, модификативное отношение и координационное отношение. Лексемы с чисто грамматической функцией, такие как лексически управляемые предлоги, не включены на этом уровне представления; значения флективных категорий, которые выводятся из SemR, но реализуются морфологией, представлены в виде нижних индексов на соответствующих лексических узлах, на которые они опираются. DSyntR отображается на следующий уровень представления правилами компонента глубокого синтаксиса.
Поверхностно-синтаксическое представление (SSyntR) представляет собой специфичную для языка синтаксическую структуру высказывания и включает узлы для всех лексических элементов (включая те, которые имеют чисто грамматическую функцию) в предложении. Синтаксические отношения между лексическими элементами на этом уровне не ограничены и считаются полностью специфичными для языка, хотя многие из них считаются схожими (или, по крайней мере, изоморфными) в разных языках. SSyntR отображается на следующий уровень представления правилами поверхностно-синтаксического компонента.
Морфологические представления (MorphR) в теории смысла–текста реализуются как строки морфем, организованные в фиксированном линейном порядке, отражающем порядок элементов в фактическом высказывании. Это первый уровень представления, на котором линейное предшествование считается лингвистически значимым, эффективно группируя порядок слов вместе с морфологическими процессами и просодией , как одно из трех нелексических средств, с помощью которых языки могут кодировать синтаксическую структуру. Как и в случае с синтаксическим представлением, существует два уровня морфологического представления — глубокое и поверхностное морфологическое представление. Подробные описания морфологических представлений теории смысла–текста можно найти в работах Мельчука (1993–2000) [7] и Мельчука (2006). [8]
Глубокое морфологическое представление (DMorphR) состоит из строк лексем и морфем, например, THE SHOE + PL ON BILL + POSS FOOT + PL . Глубокий морфологический компонент правил отображает эту строку на поверхностное морфологическое представление (SMorphR), преобразуя морфемы в соответствующие морфы и выполняя морфологические операции, реализующие неконкатенативные морфологические процессы, в случае нашего примера выше, давая нам /the shoe+s on Bill+s feet/. Правила поверхностного морфологического компонента, подмножество которого включает морфофонемические правила, отображают SMorphR на фонетическое представление [ðə ʃuz on bɪlz fi:t].
Важнейшим аспектом теории смысла и текста является лексикон, который считается всеобъемлющим каталогом лексических единиц (ЛЕ) языка, причем эти единицы являются лексемами, словосочетаниями и другими фразеологизмами , конструкциями и другими конфигурациями языковых элементов, которые изучаются и реализуются в речи пользователями языка. Лексикон в теории смысла и текста представлен толковым комбинаторным словарем (ЭКС) [9] [10] , который включает записи для всех ЛЕ языка вместе с информацией, которую носители языка должны знать относительно их синтактики (специфичные для ЛЕ правила и условия их комбинаторики). ЭКС для русского языка был создан Мельчуком и др. (1984), [11] , а ЭКС для французского языка были опубликованы как Мельчук и др. (1999) [12] и Мельчук и Польгер (2007). [13]
Одним из важных открытий лингвистики смысла и текста стало признание того, что ЛЕ в языке могут быть связаны друг с другом в абстрактном семантическом смысле и что это же отношение также сохраняется во многих лексически не связанных парах или наборах ЛЕ. Эти отношения представлены в теории смысла и текста как лексические функции (ЛФ). [14] Примером простой ЛФ является Magn(L), которая представляет собой словосочетания, используемые при интенсификации, такие как сильный дождь , сильный ветер или интенсивная бомбардировка . Носитель английского языка знает, что для данной лексемы L, такой как RAIN, значение Magn(RAIN) = HEAVY, тогда как Magn(WIND) = STRONG и так далее. Теория смысла и текста в настоящее время распознает несколько десятков стандартных ЛФ, которые, как известно, повторяются в разных языках.