Было предложено несколько систем для описания внутренней структуры китайских иероглифов , включая их штрихи, компоненты и порядок штрихов , а также расположение каждого в идеальном квадрате иероглифа. Эта информация полезна для идентификации вариантов символов, объединенных в одну кодовую точку Unicode и ISO/IEC 10646 , а также для предоставления альтернативной формы представления для редких символов, которые еще не имеют стандартизированной кодировки в Unicode. Многие стремятся работать с обычным письмом , а также предоставлять внутреннюю структуру символа, которая может быть использована для более легкого поиска символа путем индексации внутреннего состава символа и перекрестных ссылок среди похожих символов.
Язык описания символов (CDL) — это декларативный язык на основе XML, совместно созданный Томом Бишопом и Ричардом Куком для Института Вэньлинь . Он определяет символы путем расположения компонентов, которые не обязаны отражать семантическую или этимологическую историю символа. Для того, чтобы компонент вписался в выделенную часть квадрата целого символа, набор из менее чем 50 штрихов позволяет построить около 1000 компонентов, которые в свою очередь могут описывать десятки тысяч символов. [1]
Глава 18 стандарта Unicode (версия 15.0) определяет синтаксис "Ideographic Description Sequences" (IDS), используемый для описания символов в терминах признаков, путем размещения компонентов с кодовыми точками. Шестнадцать специальных символов в диапазоне U+2FF0..U+2FFF действуют как префиксные операторы для объединения других символов или последовательностей для формирования более крупных символов.
Два дополнительных символа идеографического описания разбросаны в других блоках Unicode. U+303E 〾 ИНДИКАТОР ИДЕОГРАФИЧЕСКОЙ ВАРИАЦИИ официально не является символом идеографического описания, но иногда используется в последовательностях идеографического описания.
Эти последовательности полезны для описания читателю символа, который не является напрямую печатаемым, либо потому что он отсутствует в данном шрифте, либо вообще отсутствует в стандарте Unicode. Например, символ sawndip , закодированный в CJK Unified Ideographs Extension F как U+2DA21 𭨡, может быть описан как ⿰書史. Другое применение — для поиска в словаре, как грубый метод ввода для запросов.
Эти последовательности могут быть отображены либо путем сохранения отдельных символов отдельно, либо путем анализа последовательности идеографического описания и рисования идеограммы, описанной таким образом. Они сами по себе не обеспечивают однозначного отображения всех символов. Например, последовательность ⿱十一представляет как ⼟ 'ЗЕМЛЯ' с более узкой средней чертой, так и ⼠ 'УЧЁНЫЙ' с более широкой средней чертой.
Спецификация Unicode для этих последовательностей основана на символах и синтаксисе более ранней кодировки GBK . Дополнительные символы кодируются позже для заполнения недостающих комбинаций.
Бесплатный программный пакет IDSgrep Мэтью Скалы [2] [3] расширяет синтаксис IDS Unicode, включая дополнительные функции для поиска в словаре; он способен преобразовывать базу данных KanjiVG в собственный расширенный формат IDS или выполнять поиск в файлах EIDS, созданных соответствующим семейством шрифтов Tsukurimashou.