Нормализация текста — это процесс преобразования текста в единую каноническую форму , которую он мог не иметь ранее. Нормализация текста перед его сохранением или обработкой позволяет разделить проблемы , поскольку входные данные гарантированно будут согласованными до того, как над ними будут выполняться операции. Нормализация текста требует знания того, какой тип текста должен быть нормализован и как он должен обрабатываться впоследствии; не существует универсальной процедуры нормализации. [1]
Нормализация текста часто используется при преобразовании текста в речь . Числа , даты , аббревиатуры и сокращения — это нестандартные «слова», которые нужно произносить по-разному в зависимости от контекста. [2] Например:
Текст также может быть нормализован для хранения и поиска в базе данных. Например, если поиск "resume" должен соответствовать слову "résumé", то текст будет нормализован путем удаления диакритических знаков ; а если "john" должен соответствовать "John", текст будет преобразован в один регистр . Чтобы подготовить текст для поиска, его также можно стеммировать (например, преобразовав "fley" и "flying" в "fly"), канонизировать (например, последовательно используя американское или британское английское написание ) или удалить стоп-слова .
Для простой, независимой от контекста нормализации, такой как удаление не буквенно-цифровых символов или диакритических знаков , регулярных выражений будет достаточно. Например, скрипт sed нормализует серии пробельных символов в один пробел. Более сложная нормализация требует соответственно сложных алгоритмов, включая знание домена языка и нормализуемого словаря. Среди других подходов нормализация текста была смоделирована как проблема токенизации и маркировки потоков текста [5] и как особый случай машинного перевода. [6] [7]sed ‑e "s/\s+/ /g" inputfile
В области текстологии и редактирования исторических текстов термин «нормализация» подразумевает степень модернизации и стандартизации — например, в расширении сокращений переписчиков и транслитерации архаичных глифов, обычно встречающихся в рукописях и ранних печатных источниках. Поэтому нормализованное издание отличается от дипломатического издания (или полудипломатического издания ), в котором предпринимаются некоторые попытки сохранить эти особенности. Цель состоит в том, чтобы найти надлежащий баланс между, с одной стороны, строгой верностью исходному тексту (включая, например, сохранение загадочных и неоднозначных элементов); и, с другой стороны, созданием нового текста, который будет понятен и доступен современному читателю. Поэтому степень нормализации остается на усмотрение редактора и будет варьироваться. Некоторые редакторы, например, решают модернизировать архаичные орфографии и пунктуацию, но другие этого не делают. [8]