stringtranslate.com

Алгоритм сопоставления Unicode

Алгоритм сопоставления Unicode ( UCA ) — это алгоритм, определенный в Техническом отчете Unicode № 10, который представляет собой настраиваемый метод создания двоичных ключей из строк , представляющих текст в любой системе письма и языке , которые могут быть представлены с помощью Unicode . Затем эти ключи можно эффективно побайтно сравнивать, чтобы сопоставить или отсортировать их в соответствии с правилами языка с возможностью игнорирования регистра, диакритических знаков и т. д. [1]

Технический отчет Unicode № 10 также определяет таблицу элементов сопоставления Unicode по умолчанию (DUCET). Этот файл данных определяет порядок сопоставления по умолчанию, DUCET настраивается для разных языков. [1] [2] Некоторые такие настройки можно найти в хранилище данных Unicode Common Locale (CLDR). [3]

Реализация UCA с открытым исходным кодом включена в состав международных компонентов Unicode , ICU. [4] [5] ICU поддерживает адаптацию, а адаптация сортировки из CLDR включена в ICU. [6] [2]

Смотрите также

Рекомендации

  1. ^ аб Уистлер, Кен; Шерер, Маркус; Дэвис, Марк (26 августа 2022 г.). «UTS № 10: Алгоритм сопоставления Unicode». Юникод . Проверено 16 августа 2023 г.
  2. ^ Аб Хоскен, Мартин (23 сентября 2021 г.). Настройка сортировки в Юникоде: Учебное пособие (PDF) (изд. 1.3). Технология систем письма SIL . стр. 2–3 . Проверено 16 августа 2023 г.
  3. ^ «Выпуски/Загрузки CLDR» . Юникод CLDR . Проверено 16 августа 2023 г.
  4. ^ «ICU - Международные компоненты для Unicode» . Юникод . Проверено 16 августа 2023 г.
  5. ^ «Сопоставления». Сибукс онлайн . Проверено 16 августа 2023 г.
  6. ^ «Кастомизация». Документация ОИТ . Проверено 16 августа 2023 г.

Внешние ссылки

Инструменты