stringtranslate.com

Семантическая компрессия

В обработке естественного языка семантическая компрессия — это процесс уплотнения лексикона, используемого для построения текстового документа (или набора документов) путем уменьшения языковой неоднородности при сохранении семантики текста . В результате те же идеи могут быть представлены с использованием меньшего набора слов.

В большинстве приложений семантическое сжатие является сжатием с потерями. Увеличение многословия не компенсирует лексическое сжатие, и исходный документ не может быть восстановлен в обратном процессе.

Обобщением

Семантическое сжатие в основном достигается в два этапа с использованием частотных словарей и семантической сети :

  1. определение накопленных частот терминов для идентификации целевого лексикона,
  2. замена менее частотных терминов их гипернимами ( обобщение ) из целевого лексикона. [1]

Шаг 1 требует сбора частот слов и информации о семантических связях, в частности гипонимии . Двигаясь вверх по иерархии слов, кумулятивная частота концепта вычисляется путем сложения суммы частот гипонимов с частотой их гиперонима: где — гипероним . Затем выбирается желаемое количество слов с наивысшими накопленными частотами для построения целевого лексикона.

На втором этапе определяются правила сопоставления сжатия для оставшихся слов, чтобы обрабатывать каждое появление менее часто встречающегося гипонима как его гиперонима в выходном тексте.

Пример

Нижеприведенный фрагмент текста обработан семантической компрессией. Выделенные жирным шрифтом слова заменены их гипернимами.

Они оба являются общественными насекомыми , строящими гнезда , но бумажные осы и медоносные пчелы организуют свои колонии

очень по- разному . В новом исследовании ученые сообщают, что, несмотря на различия , эти насекомые полагаются на одну и ту же сеть генов, чтобы управлять своим социальным поведением . Исследование опубликовано в Трудах Королевского общества B : Биологические науки. Медоносные пчелы и бумажные осы разделены более чем 100 миллионами лет

эволюция , и существуют поразительные различия в том, как они распределяют работу по поддержанию колонии .

Процедура выводит следующий текст:

Они оба являются насекомыми -строителями , но насекомые и медоносные насекомые организуют свои биологические группы.

в очень разной структуре . В новом исследовании ученые сообщают, что, несмотря на разницу во мнениях , эти насекомые используют одну и ту же сеть генов для управления своим поведением на вечеринке . Исследование опубликовано в материалах Института бактерий Биологических наук. Медоносные насекомые и насекомые разделены более чем сотней миллионов лет

органических процессов , и существуют серьезные разногласия по поводу того, как они распределяют работу по утверждению биологической группы .

Неявная семантическая компрессия

Естественная тенденция сохранять краткость выражений естественного языка может восприниматься как форма неявной семантической компрессии путем пропуска бессмысленных слов или избыточных значимых слов (особенно во избежание плеоназмов ). [2]

Применение и преимущества

В модели векторного пространства сжатие лексикона приводит к уменьшению размерности , что приводит к снижению вычислительной сложности и положительно влияет на эффективность.

Семантическое сжатие выгодно в задачах поиска информации , повышая их эффективность (как с точки зрения точности, так и полноты ). [3] Это связано с более точными дескрипторами (снижение эффекта языкового разнообразия – ограниченная языковая избыточность, шаг к контролируемому словарю).

Как и в примере выше, можно отобразить вывод в виде обычного текста (повторно применив интонацию, добавив стоп-слова).

Смотрите также

Ссылки

  1. ^ Ceglarek, D.; Haniewicz, K.; Rutkowski, W. (2010). «Семантическое сжатие для специализированных систем поиска информации». Достижения в области интеллектуальной информации и систем баз данных . Исследования в области вычислительного интеллекта. Том 283. С. 111–121. doi :10.1007/978-3-642-12090-9_10. ISBN 978-3-642-12089-3.
  2. ^ Percova, NN (1982). «О типах семантической компрессии текста». Труды 9-й конференции по компьютерной лингвистике COLING '82 . Том 2. С. 229–231. doi :10.3115/990100.990155. ISBN 0-444-86393-1. S2CID  33742593.
  3. ^ Ceglarek, D.; Haniewicz, K.; Rutkowski, W. (2010). «Качество семантической компрессии в классификации». Труды 2-й Международной конференции по вычислительному коллективному интеллекту: технологии и приложения . Том 1. Springer. С. 162–171. ISBN 978-3-642-16692-1.

Внешние ссылки