stringtranslate.com

Аналитика шумного текста

Анализ зашумленного текста — это процесс извлечения информации , целью которого является автоматическое извлечение структурированной или полуструктурированной информации из зашумленных неструктурированных текстовых данных . В то время как анализ текста является растущей и зрелой областью, которая имеет большое значение из-за огромных объемов производимых данных, обработка зашумленного текста приобретает все большее значение, поскольку множество распространенных приложений производят зашумленные текстовые данные. Зашумленные неструктурированные текстовые данные встречаются в неформальной обстановке, такой как онлайн-чат , текстовые сообщения , электронные письма , доски объявлений , группы новостей , блоги , вики и веб-страницы . Кроме того, текст, полученный путем обработки спонтанной речи с использованием автоматического распознавания речи , и печатный или рукописный текст с использованием оптического распознавания символов содержат шум обработки. Текст, полученный при таких обстоятельствах, обычно сильно зашумлен и содержит орфографические ошибки, сокращения , нестандартные слова, фальстарты, повторы, пропущенные знаки препинания , пропущенную информацию о регистре букв , слова с паузами, такие как «гм» ​​и «э-э», а также другие текстовые и речевые нарушения . Такой текст можно увидеть в больших количествах в контакт-центрах , чатах , оптическом распознавании символов (OCR) текстовых документов, тексте службы коротких сообщений (SMS) и т. д. Документы с историческим языком также можно считать шумными с точки зрения современных знаний о языке. Такой текст содержит важные исторические, религиозные, древние медицинские знания, которые полезны. Природа шумного текста, полученного во всех этих контекстах, требует выхода за рамки традиционных методов анализа текста.

Методы анализа зашумленного текста

Отсутствие знаков препинания и использование нестандартных слов часто могут помешать стандартным инструментам обработки естественного языка , таким как разметка частей речи и синтаксический анализ . Методы, позволяющие как обучаться на основе зашумленных данных, так и затем обрабатывать зашумленные данные, только сейчас разрабатываются.

Возможный источник зашумленного текста

Смотрите также

Ссылки