Теория смысла и текста ( MTT ) — теоретическая лингвистическая концепция, впервые предложенная в Москве Александром Жолковским и Игорем Мельчуком [ 1] для построения моделей естественного языка. Теория обеспечивает обширную и сложную основу для лингвистического описания и, благодаря своему формальному характеру, особенно хорошо подходит для компьютерных приложений , включая машинный перевод , фразеологию и лексикографию . [ нужна цитата ]
Лингвистические модели в теории значения и текста основаны на том принципе, что язык состоит в отображении содержания или значения (семантики) высказывания на его форму или текст (фонетика). Промежуточными между этими полюсами являются дополнительные уровни репрезентации на синтаксическом и морфологическом уровнях.
Представления на разных уровнях последовательно отображаются от неупорядоченной сети семантического представления (SemR) через древовидные структуры зависимостей синтаксического представления (SyntR) к линеаризованной цепочке морфем морфологического представления (MorphR) и, в конечном итоге, упорядоченная во времени строка телефонов фонетического представления (PhonR) (обычно не рассматриваемая в работах по этой теории). Отношения между представлениями на разных уровнях считаются переводами или отображениями, а не преобразованиями, и опосредуются наборами правил, называемых «компонентами», которые обеспечивают соответствующие, специфичные для языка переходы между уровнями.
Семантические представления (SemR) в теории смысла и текста состоят в основном из семантической структуры, напоминающей паутину (SemS), которая сочетается с другими структурами семантического уровня (в первую очередь семантико-коммуникативной структурой [SemCommS], [2] которая представляет то, что обычно в других структурах называется « информационной структурой »). Сама SemS состоит из сети предикатов , представленных в виде узлов со стрелками, идущими от узлов предикатов к узлам аргументов . Аргументы могут быть общими для нескольких предикатов, а предикаты сами могут быть аргументами других предикатов. Узлы обычно соответствуют лексическим и грамматическим значениям, поскольку они непосредственно выражаются элементами лексикона или флективными средствами, но теория допускает возможность разложения значений на более детальное представление посредством процессов семантического перефразирования, [3] которые также Ключ к решению проблем синонимии и переводческой эквивалентности между языками. SemR отображаются на следующий уровень представления, глубоко-синтаксическое представление, по правилам семантического компонента, которые допускают связь один ко многим между уровнями (то есть один SemR потенциально может быть выражен с помощью множества синтаксических структур). , в зависимости от лексического выбора, сложности SemR и т. д.). Структурное описание и (полу)автоматическое создание SemR подлежат исследованию. [4] Здесь при декомпозиции используются семантические простые числа естественного семантического метаязыка для определения критерия завершения декомпозиции.
Синтаксические представления (SyntR) в теории смысла и текста реализуются с помощью деревьев зависимостей , которые составляют синтаксическую структуру (SyntS). SyntS сопровождается различными другими типами структур, в первую очередь синтаксической коммуникативной структурой и анафорической структурой. В теории значения и текста существует два уровня синтаксиса: глубокое синтаксическое представление (DSyntR) и поверхностное синтаксическое представление (SSyntR). Хороший обзор синтаксиса теории значения и текста, включая его описательное применение, можно найти у Мельчука (1988). [5] Комплексная модель поверхностного синтаксиса английского языка представлена в работе Мельчука и Перцова (1987). [6]
Глубокое синтаксическое представление (DSyntR) напрямую связано с SemS и стремится уловить «универсальные» аспекты синтаксической структуры. Деревья на этом уровне представляют отношения зависимости между лексемами (или между лексемами и ограниченным набором абстрактных сущностей, таких как лексические функции). Глубокие синтаксические отношения между лексемами в DSyntR ограничены универсальным набором из дюжины синтаксических отношений, включая семь ранговых актантных (аргументных) отношений, модификационное отношение и координационное отношение. Лексемы с чисто грамматической функцией, такие как лексически управляемые предлоги, не включены на этот уровень представления; значения флективных категорий, которые получены из SemR, но реализованы морфологией, представлены в виде индексов на соответствующих лексических узлах, к которым они относятся. DSyntR отображается на следующий уровень представления по правилам глубинного синтаксического компонента.
Поверхностно-синтаксическое представление (SSyntR) представляет собой специфичную для языка синтаксическую структуру высказывания и включает узлы для всех лексических единиц (в том числе имеющих чисто грамматическую функцию) в предложении. Синтаксические отношения между лексическими единицами на этом уровне не ограничены и считаются полностью специфичными для языка, хотя считается, что многие из них схожи (или, по крайней мере, изоморфны) в разных языках. SSyntR отображается на следующий уровень представления по правилам поверхностно-синтаксического компонента.
Морфологические представления (MorphR) в теории значения и текста реализуются в виде строк морфем, расположенных в фиксированном линейном порядке, отражающем порядок элементов в реальном высказывании. Это первый уровень репрезентации, на котором линейный приоритет считается лингвистически значимым, эффективно группируя порядок слов вместе с морфологическими процессами и просодией как одно из трех нелексических средств, с помощью которых языки могут кодировать синтаксическую структуру. Как и в случае с синтаксическим представлением, существует два уровня морфологического представления — глубокое и поверхностное морфологическое представление. Подробные описания морфологических представлений теории смысла и текста можно найти у Мельчука (1993–2000) [7] и Мельчука (2006). [8]
Глубокое морфологическое представление (DMorphR) состоит из строк лексем и морфем — например, THE SHOE + PL ON BILL + POSS FOOT + PL . Глубокий морфологический компонент правил отображает эту строку на поверхностное морфологическое представление (SMorphR), преобразуя морфемы в соответствующие морфы и выполняя морфологические операции, реализующие неконкатенативные морфологические процессы - в случае нашего примера выше, давая нам /the Shoes+s на ногах Билла/. Правила поверхностного морфологического компонента, подмножество которых включает морфонематические правила, отображают SMorphR на фонетическое представление [ðə ʃuz on bɪlz fi:t].
Важнейшим аспектом теории значения-текста является лексикон, который считается всеобъемлющим каталогом лексических единиц (ЛЕ) языка, причем этими единицами являются лексемы, словосочетания и другие фраземы , конструкции и другие конфигурации лингвистических элементов, которые являются усваивается и реализуется в речи пользователями языка. Лексика в теории значения-текста представлена пояснительным комбинаторным словарем (ECD) [9] [10] , который включает статьи для всех LU языка, а также информацию, которую носители должны знать относительно их синтаксиса (специфичные для LU правила и условия их комбинаторики). РДРВ для русского языка подготовили Мельчук и др. (1984), [11] и ECD на французском языке были опубликованы как Mel'čuk et al. (1999) [12] и Мельчук и Польгер (2007). [13]
Одним из важных открытий лингвистики значения и текста стало признание того, что LU в языке могут быть связаны друг с другом в абстрактном семантическом смысле и что это же отношение также сохраняется для многих лексически несвязанных пар или наборов LU. Эти отношения представлены в теории смысла-текста как лексические функции (ЛФ). [14] Примером простого LF является Magn(L), который представляет собой словосочетания, используемые для усиления, например, проливной дождь , сильный ветер или интенсивная бомбардировка . Носитель английского знает, что для данной лексемы L, такой как ДОЖДЬ, значение Magn(RAIN) = HEAVY, тогда как Magn(WIND) = STRONG и так далее. Теория значения и текста в настоящее время признает несколько десятков стандартных LF, которые, как известно, повторяются в разных языках.