Information extraction and organization process
Анализ зашумленного текста — это процесс извлечения информации , целью которого является автоматическое извлечение структурированной или полуструктурированной информации из зашумленных неструктурированных текстовых данных . В то время как анализ текста является растущей и зрелой областью, которая имеет большое значение из-за огромных объемов производимых данных, обработка зашумленного текста приобретает все большее значение, поскольку множество распространенных приложений производят зашумленные текстовые данные. Зашумленные неструктурированные текстовые данные встречаются в неформальной обстановке, такой как онлайн-чат , текстовые сообщения , электронные письма , доски объявлений , группы новостей , блоги , вики и веб-страницы . Кроме того, текст, полученный путем обработки спонтанной речи с использованием автоматического распознавания речи , и печатный или рукописный текст с использованием оптического распознавания символов содержат шум обработки. Текст, полученный при таких обстоятельствах, обычно сильно зашумлен и содержит орфографические ошибки, сокращения , нестандартные слова, фальстарты, повторы, пропущенные знаки препинания , пропущенную информацию о регистре букв , слова с паузами, такие как «гм» и «э-э», а также другие текстовые и речевые нарушения . Такой текст можно увидеть в больших количествах в контакт-центрах , чатах , оптическом распознавании символов (OCR) текстовых документов, тексте службы коротких сообщений (SMS) и т. д. Документы с историческим языком также можно считать шумными с точки зрения современных знаний о языке. Такой текст содержит важные исторические, религиозные, древние медицинские знания, которые полезны. Природа шумного текста, полученного во всех этих контекстах, требует выхода за рамки традиционных методов анализа текста.
Методы анализа зашумленного текста
Отсутствие знаков препинания и использование нестандартных слов часто могут помешать стандартным инструментам обработки естественного языка , таким как разметка частей речи
и синтаксический анализ . Методы, позволяющие как обучаться на основе зашумленных данных, так и затем обрабатывать зашумленные данные, только сейчас разрабатываются.
Возможный источник зашумленного текста
- Всемирная паутина : плохо написанный текст можно найти на веб-страницах, в онлайн-чатах , блогах , вики , дискуссионных форумах , группах новостей . Большинство этих данных неструктурированы, а стиль написания сильно отличается от, скажем, хорошо написанных новостных статей. Анализ веб-данных важен, поскольку они являются источниками для анализа рыночных слухов, обзора рынка, оценки тенденций и т. д. Кроме того, из-за большого объема данных необходимо найти эффективные методы извлечения информации , классификации , автоматического суммирования и анализа этих данных.
- Контактные центры : это общий термин для справочных служб, информационных линий и центров обслуживания клиентов, работающих в областях от продаж и поддержки компьютеров до мобильных телефонов и одежды. В среднем человек в развитых странах взаимодействует с агентом контактного центра не реже одного раза в неделю. Типичный агент контактного центра обрабатывает более ста звонков в день. Они работают в различных режимах, таких как голос, онлайн-чат и электронная почта . Индустрия контактных центров производит гигабайты данных в виде электронных писем , журналов чатов, транскрипций голосовых разговоров , отзывов клиентов и т. д. Основная часть данных контактного центра — это голосовые разговоры. Транскрипция этих сообщений с использованием современных систем автоматического распознавания речи приводит к получению текста с 30–40% ошибок в словах . Кроме того, даже письменные способы общения, такие как онлайн-чат между клиентами и агентами, и даже взаимодействие по электронной почте, как правило, являются шумными. Анализ данных контактного центра имеет важное значение для управления взаимоотношениями с клиентами, анализа удовлетворенности клиентов, моделирования вызовов, профилирования клиентов, профилирования агентов и т. д., и для обработки плохо написанного текста требуются сложные методы.
- Печатные документы: многие библиотеки, правительственные организации и организации национальной обороны имеют обширные хранилища печатных документов. Чтобы извлечь и обработать содержимое таких документов, их необходимо обработать с помощью оптического распознавания символов . Помимо печатного текста, эти документы могут также содержать рукописные аннотации. Текст, распознанный OCR, может быть очень шумным в зависимости от размера шрифта, качества печати и т. д. Он может варьироваться от 2-3% ошибок в словах до 50-60% ошибок в словах . Рукописные аннотации могут быть особенно трудными для расшифровки, и при их наличии уровень ошибок может быть довольно высоким.
- Служба коротких сообщений (SMS): использование языка в компьютерных дискурсах, таких как чаты, электронные письма и текстовые сообщения SMS, значительно отличается от стандартной формы языка. Стремление к более короткой длине сообщения, способствующей более быстрому набору текста, и потребность в семантической ясности формируют структуру этой нестандартной формы, известной как язык текстовых сообщений.
Смотрите также
Ссылки
- «Вонг, В., Лю, В. и Беннамун, М. Улучшенная интегрированная оценка для очистки грязных текстов. В: Семинар IJCAI по аналитике зашумленных неструктурированных текстовых данных (AND), 2007; Хайдарабад, Индия».
- «LV Subramaniam, S. Roy, TA Faruquie, S. Negi, Обзор типов текстового шума и методов обработки зашумленного текста. В: Третий семинар по аналитике зашумленных неструктурированных текстовых данных (AND), 2009».