В обработке естественного языка семантическая компрессия — это процесс уплотнения лексикона, используемого для построения текстового документа (или набора документов) путем уменьшения языковой неоднородности при сохранении семантики текста . В результате те же идеи могут быть представлены с использованием меньшего набора слов.
В большинстве приложений семантическое сжатие является сжатием с потерями. Увеличение многословия не компенсирует лексическое сжатие, и исходный документ не может быть восстановлен в обратном процессе.
Семантическое сжатие в основном достигается в два этапа с использованием частотных словарей и семантической сети :
Шаг 1 требует сбора частот слов и информации о семантических связях, в частности гипонимии . Двигаясь вверх по иерархии слов, кумулятивная частота концепта вычисляется путем сложения суммы частот гипонимов с частотой их гиперонима: где — гипероним . Затем выбирается желаемое количество слов с наивысшими накопленными частотами для построения целевого лексикона.
На втором этапе определяются правила сопоставления сжатия для оставшихся слов, чтобы обрабатывать каждое появление менее часто встречающегося гипонима как его гиперонима в выходном тексте.
Нижеприведенный фрагмент текста обработан семантической компрессией. Выделенные жирным шрифтом слова заменены их гипернимами.
Они оба являются общественными насекомыми , строящими гнезда , но бумажные осы и медоносные пчелы организуют свои колонии
очень по- разному . В новом исследовании ученые сообщают, что, несмотря на различия , эти насекомые полагаются на одну и ту же сеть генов, чтобы управлять своим социальным поведением . Исследование опубликовано в Трудах Королевского общества B : Биологические науки. Медоносные пчелы и бумажные осы разделены более чем 100 миллионами лет
эволюция , и существуют поразительные различия в том, как они распределяют работу по поддержанию колонии .
Процедура выводит следующий текст:
Они оба являются насекомыми -строителями , но насекомые и медоносные насекомые организуют свои биологические группы.
в очень разной структуре . В новом исследовании ученые сообщают, что, несмотря на разницу во мнениях , эти насекомые используют одну и ту же сеть генов для управления своим поведением на вечеринке . Исследование опубликовано в материалах Института бактерий Биологических наук. Медоносные насекомые и насекомые разделены более чем сотней миллионов лет
органических процессов , и существуют серьезные разногласия по поводу того, как они распределяют работу по утверждению биологической группы .
Естественная тенденция сохранять краткость выражений естественного языка может восприниматься как форма неявной семантической компрессии путем пропуска бессмысленных слов или избыточных значимых слов (особенно во избежание плеоназмов ). [2]
В модели векторного пространства сжатие лексикона приводит к уменьшению размерности , что приводит к снижению вычислительной сложности и положительно влияет на эффективность.
Семантическое сжатие выгодно в задачах поиска информации , повышая их эффективность (как с точки зрения точности, так и полноты ). [3] Это связано с более точными дескрипторами (снижение эффекта языкового разнообразия – ограниченная языковая избыточность, шаг к контролируемому словарю).
Как и в примере выше, можно отобразить вывод в виде обычного текста (повторно применив интонацию, добавив стоп-слова).