stringtranslate.com

Нормализация текста

Нормализация текста — это процесс преобразования текста в единую каноническую форму , которую он мог не иметь ранее. Нормализация текста перед его сохранением или обработкой позволяет разделить проблемы , поскольку входные данные гарантированно будут согласованными до того, как над ними будут выполняться операции. Нормализация текста требует знания того, какой тип текста должен быть нормализован и как он должен обрабатываться впоследствии; не существует универсальной процедуры нормализации. [1]

Приложения

Нормализация текста часто используется при преобразовании текста в речь . Числа , даты , аббревиатуры и сокращения — это нестандартные «слова», которые нужно произносить по-разному в зависимости от контекста. [2] Например:

Текст также может быть нормализован для хранения и поиска в базе данных. Например, если поиск "resume" должен соответствовать слову "résumé", то текст будет нормализован путем удаления диакритических знаков ; а если "john" должен соответствовать "John", текст будет преобразован в один регистр . Чтобы подготовить текст для поиска, его также можно стеммировать (например, преобразовав "fley" и "flying" в "fly"), канонизировать (например, последовательно используя американское или британское английское написание ) или удалить стоп-слова .

Методы

Для простой, независимой от контекста нормализации, такой как удаление не буквенно-цифровых символов или диакритических знаков , регулярных выражений будет достаточно. Например, скрипт sed нормализует серии пробельных символов в один пробел. Более сложная нормализация требует соответственно сложных алгоритмов, включая знание домена языка и нормализуемого словаря. Среди других подходов нормализация текста была смоделирована как проблема токенизации и маркировки потоков текста [5] и как особый случай машинного перевода. [6] [7]sed ‑e "s/\s+/ /g"  inputfile

Текстовая наука

В области текстологии и редактирования исторических текстов термин «нормализация» подразумевает степень модернизации и стандартизации — например, в расширении сокращений переписчиков и транслитерации архаичных глифов, обычно встречающихся в рукописях и ранних печатных источниках. Поэтому нормализованное издание отличается от дипломатического издания (или полудипломатического издания ), в котором предпринимаются некоторые попытки сохранить эти особенности. Цель состоит в том, чтобы найти надлежащий баланс между, с одной стороны, строгой верностью исходному тексту (включая, например, сохранение загадочных и неоднозначных элементов); и, с другой стороны, созданием нового текста, который будет понятен и доступен современному читателю. Поэтому степень нормализации остается на усмотрение редактора и будет варьироваться. Некоторые редакторы, например, решают модернизировать архаичные орфографии и пунктуацию, но другие этого не делают. [8]

Смотрите также

Ссылки

  1. Ричард Спроут и Стивен Бедрик (сентябрь 2011 г.). "CS506/606: Txt Nrmlztn" . Получено 2 октября 2012 г.
  2. ^ Спроут, Р.; Блэк, А.; Чен, С.; Кумар, С.; Остендорф, М.; Ричардс, К. (2001). «Нормализация нестандартных слов». Компьютерная речь и язык 15 ; 287–333. doi :10.1006/csla.2001.0169.
  3. ^ "Самоанские числа". MyLanguages.org . Получено 2 октября 2012 г. .
  4. ^ "Text-to-Speech Engines Text Normalization". MSDN . Получено 2 октября 2012 г. .
  5. ^ Чжу, Ч.; Тан, Дж.; Ли, Х.; Нг, Х.; Чжао, Т. (2007). «Унифицированный подход к разметке текста для нормализации». Труды 45-го ежегодного собрания Ассоциации компьютерной лингвистики ; 688–695. doi :10.1.1.72.8138.
  6. ^ Филип, Г.; Кшиштоф, Й.; Агнешка, В.; Миколай, В. (2006). «Нормализация текста как частный случай машинного перевода». Труды Международной мультиконференции по информатике и информационным технологиям 1 ; 51–56.
  7. ^ Москера, А.; Ллорет, Э.; Мореда, П. (2012). «На пути к облегчению доступности текстов Web 2.0 посредством нормализации текста» Труды семинара LREC: Обработка естественного языка для улучшения текстовой доступности (NLP4ITA) ; 9-14
  8. ^ Харви, PDA (2001). Редактирование исторических записей . Лондон: Британская библиотека. С. 40–46. ISBN 0-7123-4684-8.