Алгоритм сопоставления Unicode ( UCA ) — это алгоритм, определенный в Техническом отчете Unicode № 10, который представляет собой настраиваемый метод создания двоичных ключей из строк, представляющих текст в любой системе письма и языке , которые могут быть представлены с помощью Unicode . Затем эти ключи можно эффективно сравнивать побайтно, чтобы сопоставлять или сортировать их в соответствии с правилами языка, с возможностью игнорирования регистра, ударений и т. д. [1]
Unicode Technical Report #10 также определяет Default Unicode Collation Element Table (DUCET). Этот файл данных определяет порядок сортировки по умолчанию. DUCET настраивается для разных языков, [1] [2] и некоторые такие настройки можно найти в Unicode Common Locale Data Repository (CLDR). [3]
Реализация UCA с открытым исходным кодом включена в Международные компоненты для Unicode , ICU. [4] [5] ICU поддерживает настройку, а настройки сопоставления из CLDR включены в ICU. [6] [2]
Смотрите также
Ссылки
- ^ ab Уистлер, Кен; Шерер, Маркус; Дэвис, Марк (2022-08-26). "UTS #10: Алгоритм сопоставления Unicode". Unicode . Получено 2023-08-16 .
- ^ ab Hosken, Martin (2021-09-23). Unicode Sort Tailoring: Tutorial (PDF) (1.3 ed.). SIL Writing Systems Technology . стр. 2–3 . Получено 2023-08-16 .
- ^ "CLDR Releases/Downloads". Unicode CLDR . Получено 2023-08-16 .
- ^ "ICU - Международные компоненты для Unicode". Unicode . Получено 2023-08-16 .
- ^ "Collations". SyBooks Online . Получено 2023-08-16 .
- ^ "Настройка". Документация отделения интенсивной терапии . Получено 16 августа 2023 г.
Внешние ссылки
- Алгоритм сопоставления Unicode: Технический стандарт Unicode #10
- Диаграммы сортировки Mimer SQL Unicode
Инструменты
- ICU Locale Explorer Онлайн-демонстрация алгоритма сопоставления Unicode с использованием международных компонентов для Unicode
- Демонстрация сопоставления данных в отделении интенсивной терапии
- msort Программа сортировки, которая обеспечивает необычайный уровень гибкости при определении параметров сортировки и извлечении ключей.