stringtranslate.com

Языки описания китайских иероглифов

Было предложено несколько систем для описания внутренней структуры китайских иероглифов , включая их штрихи, компоненты и порядок штрихов , а также расположение каждого в идеальном квадрате иероглифа. Эта информация полезна для идентификации вариантов символов, объединенных в одну кодовую точку Unicode и ISO/IEC 10646 , а также для предоставления альтернативной формы представления для редких символов, которые еще не имеют стандартизированной кодировки в Unicode. Многие стремятся работать с обычным письмом , а также предоставлять внутреннюю структуру символа, которая может быть использована для более легкого поиска символа путем индексации внутреннего состава символа и перекрестных ссылок среди похожих символов.

CDL

Язык описания символов (CDL) — это декларативный язык на основе XML, совместно созданный Томом Бишопом и Ричардом Куком для Института Вэньлинь . Он определяет символы путем расположения компонентов, которые не обязаны отражать семантическую или этимологическую историю символа. Для того, чтобы компонент вписался в выделенную часть квадрата целого символа, набор из менее чем 50 штрихов позволяет построить около 1000 компонентов, которые в свою очередь могут описывать десятки тысяч символов. [1]

Идеографические последовательности описания

Глава 18 стандарта Unicode (версия 15.0) определяет синтаксис "Ideographic Description Sequences" (IDS), используемый для описания символов в терминах признаков, путем размещения компонентов с кодовыми точками. Шестнадцать специальных символов в диапазоне U+2FF0..U+2FFF действуют как префиксные операторы для объединения других символов или последовательностей для формирования более крупных символов.

Два дополнительных символа идеографического описания разбросаны в других блоках Unicode. U+303E ИНДИКАТОР ИДЕОГРАФИЧЕСКОЙ ВАРИАЦИИ официально не является символом идеографического описания, но иногда используется в последовательностях идеографического описания.

Эти последовательности полезны для описания читателю символа, который не является напрямую печатаемым, либо потому что он отсутствует в данном шрифте, либо вообще отсутствует в стандарте Unicode. Например, символ sawndip𭨡 , закодированный в CJK Unified Ideographs Extension F как U+2DA21 𭨡, может быть описан как ⿰書史. Другое применение — для поиска в словаре, как грубый метод ввода для запросов.

Эти последовательности могут быть отображены либо путем сохранения отдельных символов отдельно, либо путем анализа последовательности идеографического описания и рисования идеограммы, описанной таким образом. Они сами по себе не обеспечивают однозначного отображения всех символов. Например, последовательность ⿱十一представляет как 'ЗЕМЛЯ' с более узкой средней чертой, так и 'УЧЁНЫЙ' с более широкой средней чертой.

Спецификация Unicode для этих последовательностей основана на символах и синтаксисе более ранней кодировки GBK . Дополнительные символы кодируются позже для заполнения недостающих комбинаций.

Бесплатный программный пакет IDSgrep Мэтью Скалы [2] [3] расширяет синтаксис IDS Unicode, включая дополнительные функции для поиска в словаре; он способен преобразовывать базу данных KanjiVG в собственный расширенный формат IDS или выполнять поиск в файлах EIDS, созданных соответствующим семейством шрифтов Tsukurimashou.

Смотрите также

Ссылки

Цитаты

  1. Бишоп и Кук (2003c), стр. 2, 9.
  2. ^ "IDSgrep", Tsukurimashou Project , 2024, архивировано из оригинала 7 февраля 2024 г.
  3. ^ Скала, Мэтью (2015), «Структурная система запросов для символов хань» (PDF) , International Journal of Asian Language Processing , т. 23, № 2, стр. 127–159, arXiv : 1404.5585 , заархивировано из оригинала (PDF) 2016-03-04 , извлечено 2016-01-13

Цитируемые работы