stringtranslate.com

Упрощение текста

Упрощение текста — это операция, используемая при обработке естественного языка для изменения, улучшения, классификации или иной обработки существующего тела читаемого человеком текста, так что его грамматика и структура значительно упрощаются, а лежащий в основе смысл и информация остаются прежними. Упрощение текста — важная область исследований из-за потребностей в общении во все более сложном и взаимосвязанном мире, в котором все больше доминируют наука, технологии и новые медиа. Но естественные человеческие языки создают огромные проблемы, поскольку они обычно содержат большой словарный запас и сложные конструкции, которые машины, независимо от того, насколько они быстры и хорошо запрограммированы, не могут легко обработать. Однако исследователи обнаружили, что для уменьшения языкового разнообразия они могут использовать методы семантической компрессии, чтобы ограничить и упростить набор слов, используемых в данных текстах.

Пример

Упрощение текста проиллюстрировано примером, использованным Сиддхартаном (2006). [1] Первое предложение содержит два относительных предложения и одну связанную глагольную фразу. Система упрощения текста направлена ​​на изменение первого предложения в группу более простых предложений, как показано чуть ниже первого предложения.

Одним из подходов к упрощению текста является лексическое упрощение посредством лексической замены , двухэтапный процесс, в ходе которого сначала определяются сложные слова, а затем заменяются более простыми синонимами. Ключевой проблемой здесь является определение сложных слов, которое выполняется классификатором машинного обучения, обученным на маркированных данных . Исследователи, разочарованные проблемами с использованием классического метода, когда субъектам исследования предлагается описывать слова как простые или сложные, обнаружили, что они могут получить большую согласованность на большем количестве уровней сложности, если попросят маркировщиков отсортировать представленные им слова в порядке сложности. [2]

Смотрите также

Ссылки

  1. ^ Сиддхартхан, Адвайт (28 марта 2006 г.). «Синтаксическое упрощение и связность текста». Исследования по языку и вычислениям . 4 (1): 77–109. doi :10.1007/s11168-006-9011-1. S2CID  14619244.
  2. ^ Гудинг, Сиан; Кочмар, Екатерина; Саркар, Адвайт; Блэквелл, Алан (август 2019 г.). «Сравнительные суждения более последовательны, чем бинарная классификация для маркировки сложности слов». Труды 13-го семинара по лингвистическим аннотациям : 208–214. doi : 10.18653/v1/W19-4024 . Получено 22 ноября 2019 г.

Внешние ссылки