CJK Compatibility Ideographs — это блок Unicode, созданный для того, чтобы содержать в основном символы Хан , которые были закодированы в нескольких местах в других установленных кодировках символов, в дополнение к их назначениям CJK Unified Ideographs , чтобы сохранить обратную совместимость между Unicode и этими кодировками. Однако он также содержит 12 унифицированных идеограмм, полученных из японских наборов символов от IBM .
Блок содержит десятки последовательностей идеографических вариаций, зарегистрированных в базе данных идеографических вариаций Unicode (IVD). [4] [5] Эти последовательности определяют желаемый вариант глифа для данного символа Unicode.
Источники оригинальной коллекции идеограмм совместимости CJK включают в себя:
В последующих версиях стандарта в блок были добавлены новые символы:
Двухбайтовый японский EBCDIC IBM включает несколько кандзи , которые не существуют в JIS X 0208 или не являются его обратным маршрутом . Они были включены как гайдзи в расширения Shift JIS и EUC-JP от IBM (например, кодовая страница 942 ), NEC , Open Software Foundation и Microsoft (например, кодовая страница Windows 932 ). Однако они не использовались в качестве источника для исходного унифицированного репертуара и упорядочения (URO). Вместо этого 32 кандзи расширения IBM, которые не были включены в URO из других источников, были включены в блок идеографов совместимости CJK в диапазоне U+FA0E–U+FA2D.
Из этих 32 персонажей:
Unified_Ideograph
свойством, и которые не изменяются при нормализации). Несмотря на их включение в блок CJK Compatibility Ideographs и их алгоритмически сгенерированные имена символов, начинающиеся с " ", они ни в коем случае CJK COMPATIBILITY IDEOGRAPH
не являются дубликатами символов в исходном блоке CJK Unified Ideographs ; [6] [7] 11 из этих 12 полностью не дублируются, в то время как U+FA23﨣CJK COMPATIBILITY IDEOGRAPH-FA23 был позже непреднамеренно продублирован в CJK Unified Ideographs Extension B как U+27EAF 𧺯 CJK UNIFIED IDEOGRAPH-27EAF . Они следующие: В следующих документах, связанных с Unicode, описаны цель и процесс определения конкретных символов в блоке идеографических символов совместимости CJK:
Эти 12 символов являются унифицированными идеограммами CJK, а не идеограммами совместимости, несмотря на их названия.