Метод ввода Цанцзе ( метод ввода Цан-чи , иногда называемый Чанцзе , Цан Цзе , Чанцзеи [1] или Чункит ) — система ввода китайских иероглифов в компьютер с помощью стандартной компьютерной клавиатуры . В именах файлов и других местах имя Цанцзе иногда сокращается до cj.
Метод ввода был изобретен в 1976 году Чу Бонг-Фу и назван в честь Цанцзе (Цан-цзе), мифологического изобретателя китайской письменности, по предложению Цзян Вэй-куо , бывшего министра обороны Тайваня . Чу Бонг-Фу выдал патент на Цанцзе в 1982 году, так как считал, что этот метод должен принадлежать китайскому культурному наследию . [2] Таким образом, Cangjie стал программным обеспечением с открытым исходным кодом и присутствует в каждой компьютерной системе, поддерживающей традиционные китайские иероглифы , и был расширен, чтобы Cangjie был совместим с упрощенным набором китайских символов.
Цанцзе — первый китайский способ ввода с использованием QWERTY- клавиатуры. Чу увидел, что клавиатура QWERTY стала международным стандартом, и поэтому считал, что ввод на китайском языке должен быть основан на ней. [3] В других, более ранних методах используются большие клавиатуры с количеством клавиш от 40 до 2400, за исключением метода четырех углов , в котором используются только цифровые клавиши.
В отличие от метода ввода Пиньинь , Цанцзе основан на графологическом аспекте символов: каждая графическая единица, называемая « радикалом » (не путать с радикалами Канси ), повторно порождается базовым символьным компонентом, всего 24, каждая из них сопоставлена с определенной буквенной клавишей на стандартной QWERTY- клавиатуре. Дополнительная функция «сложного персонажа» сопоставлена с клавишей X. Клавиши разделены на четыре группы для облегчения обучения и запоминания. Присвоение кодов китайским иероглифам осуществляется путем разделения составляющих «радикалов» иероглифов.
Основные компоненты символов в Цанцзе называются «радикалами» (字根) или «буквами» (字母). Есть 24 радикала, но 26 ключей; 24 радикала ( основные формы 基本字形) связаны примерно с 76 вспомогательными формами (輔助字形), которые во многих случаях представляют собой либо повернутые, либо транспонированные версии компонентов основных форм. Например, буква А (日) может обозначать либо саму себя, либо немного более широкую曰, либо поворот самой себя на 90°. (Более полное описание 76 с лишним транспозиций и вращений, чем перечисленные ниже, см. в статье о записи Цанцзе в китайских Викибуках.)
24 клавиши распределены по четырем группам:
Вспомогательные формы каждого радикала Цанцзе немного изменились в разных версиях метода Цанцзе. Таким образом, это одна из причин того, что разные версии метода Цанцзе не полностью совместимы.
Чу Бонг-Фу дал альтернативные названия некоторым буквам в соответствии с их характеристиками. Например, H (竹) еще называют斜, что означает наклон. Названия образуют рифму, помогающую учащимся запомнить буквы, причем каждая группа расположена в строке (звуки последних символов указаны в скобках):
Машинистка должна быть знакома с несколькими правилами декомпозиции (拆字規則), которые определяют, как анализировать символ, чтобы получить код Цанцзе.
Правила подчиняются различным принципам:
Некоторые формы всегда декомпозируются одним и тем же способом, независимо от того, предписывают ли правила, что они должны быть декомпозированы таким образом или нет. Число таких исключений невелико:
Некоторые формы невозможно разложить. Они обозначаются буквой X — клавишей難на клавиатуре Цанцзе. [4]
Изначально метод ввода Цанцзе не предназначался для создания символа в каком-либо наборе символов . Вместо этого он был частью интегрированной системы, состоящей из правил ввода Цанцзе и платы контроллера Цанцзе . Эта плата контроллера содержит прошивку генератора символов , которая динамически генерирует китайские символы из кодов Цанцзе при выводе символов , используя графический режим высокого разрешения компьютера Apple II . В предисловии к руководству пользователя Cangjie Чу Бонг-Фу написал в 1982 году:
[в переводе]
С точки зрения вывода: Выход и ввод, по сути, [образуют] единое целое; нет причин, по которым [их следует] догматически разделять на два разных учреждения… Это действительно необходимо…
В этой ранней системе, когда пользователь вводит «yk», например, чтобы получить китайский иероглиф文, коды Цанцзе не преобразуются в какую-либо кодировку символов, а фактическая строка «yk» сохраняется. Код Цанцзе для каждого символа (строка из 1–5 строчных букв плюс пробел) представлял собой кодировку этого конкретного символа.
Особой «особенностью» этой ранней системы является то, что если в нее отправить случайные слова в нижнем регистре, генератор символов попытается создать китайские иероглифы в соответствии с правилами разложения Цанцзе, что иногда приводит к появлению странных, неизвестных символов. Эта непреднамеренная функция «автоматическое создание символов» описана в руководстве и отвечает за создание более 10 000 из 15 000 символов, которые может обработать система. Имя Цанцзе, напоминающее о создании новых персонажей, действительно подходило для этой ранней версии Цанцзе.
Наличие встроенного генератора символов также объясняет историческую необходимость существования ключа «X», который используется для устранения неоднозначности коллизий декомпозиции: поскольку символы «выбираются», когда коды «выводятся», каждый символ, который может отображаемое на самом деле должно иметь уникальное разложение Цанцзе. Для системы не имело бы смысла и не было бы практично предоставлять выбор символов-кандидатов при отображении случайного текстового файла, поскольку пользователь не знал бы, какой из кандидатов правильный.
Cangjie была разработана как простая в использовании система, помогающая продвигать использование китайских компьютеров. Однако многие пользователи считают, что Цанцзе сложно изучить и использовать, поскольку многие трудности вызваны плохим обучением. [ нужна цитата ]
При достаточной практике пользователи смогут преодолеть вышеуказанные проблемы. Типичные машинистки вслепую могут печатать на китайском языке со скоростью 25 символов в минуту (имп./мин) или лучше, используя Цанцзе, несмотря на то, что им трудно запомнить список вспомогательных форм или правила декомпозиции. Сообщается, что опытные машинистки Цанцзе могут достичь скорости набора текста от 60 до более 200 ударов в минуту.
По словам Чэнь Миньчжэна, его опыта преподавания в начальной школе Лунтянь в Тайдуне в 1990 году, средняя скорость набора текста детьми составляла 90 слов в минуту, а некоторые дети даже достигали более 130 слов в минуту. [5]
Разложение персонажа зависит от заранее определенного набора «стандартных форм» (標準字形). Однако, поскольку в разных странах существует множество вариаций Цанцзе, стандартная форма определенного символа в Цанцзе не всегда совпадает с той, которую пользователь выучил раньше. Изучение Цанцзе влечет за собой изучение не только самого Цанцзе, но и незнакомых стандартных форм некоторых персонажей. Редактор метода ввода Cangjie (IME) не обрабатывает ошибки при декомпозиции, кроме как информируя пользователя (обычно подавая звуковой сигнал) о том, что произошла ошибка. Однако изначально Цанцзе предназначен для присвоения разных кодов разным вариантам персонажа. Например, в Цанцзе, представленном в Windows, код產— YHHQM, что соответствует не форме этого символа, а другому варианту —産. Это проблема, возникающая из-за реализации Cangjie в Windows. В оригинальном Цанцзе產должно быть YKMHM (первая часть —文), а産— YHHQM (первая часть —产).
Знаки препинания не разлагаются геометрически, а представляют собой заранее определенные коды, которые начинаются с ZX, за которым следует строка из трех букв, связанная с порядком символов в коде Big5 . (Этот набор кодов был добавлен в Cangjie в традиционной китайской версии Windows 95. В Windows 3.1 в Cangjie не было набора кодов для знаков препинания.) Таким образом, ввод знаков препинания в Cangjie становится утомительным упражнением, требующим либо запоминания, либо выбора. -и-клевать. Однако в современных системах это решается путем доступа к виртуальной клавиатуре на экране (в Windows это активируется нажатием клавиш Ctrl + Alt + запятая).
К типичным ошибкам относятся не считающиеся альтернативными коды. Например, если не разложить方сверху вниз на YHS, а вместо этого ввести YSH в соответствии с порядком штрихов, Цанцзе не вернет символ方в качестве выбора.
Поскольку Цанцзе требуются все 26 клавиш QWERTY- клавиатуры, ее нельзя использовать для ввода китайских иероглифов на обычных телефонах, которые имеют только 12-клавишную клавиатуру . Вместо этого используются альтернативные методы ввода, такие как Zhuyin , 5-тактный (или 9-тактный от Motorola ) и метод ввода Q9 .
Обычно говорят, что метод ввода Цанцзе прошел через пять поколений (обычно называемых «версиями» на английском языке), каждое из которых немного несовместимо с другими. В настоящее время версия 3 (第三代倉頡) является наиболее распространенной и изначально поддерживается Microsoft Windows . Версия 5 (第五代倉頡), поддерживаемая Free Cangjie IME и ранее единственная Cangjie, поддерживаемая SCIM , представляет собой метод значительного меньшинства и поддерживается iOS .
Ранней системой Cangjie, поддерживаемой картой Zero One на Apple II, была версия 2; Версия 1 так и не была выпущена.
Метод ввода Цанцзе, поддерживаемый классической Mac OS, похож как на версию 3, так и на версию 5.
Версия 5, как и оригинальный метод ввода Цанцзе, была создана непосредственно Чу. Он надеялся, что выпуск версии 5, первоначально запланированной как версия 6, положит конец «более чем десяти версиям метода ввода Цанцзе» (слегка несовместимым версиям, созданным разными поставщиками).
Версия 6 еще не опубликована, но используется для создания базы данных, которая сможет точно хранить все исторические китайские тексты.
Большинство современных реализаций редакторов методов ввода Cangjie (IME) предоставляют различные удобные функции:
Помимо подстановочного ключа, многие из этих функций удобны для обычных пользователей, но непригодны для машинистов, печатающих вслепую, поскольку делают Cangjie IME непредсказуемым.
Также предпринимались различные попытки так или иначе «упростить» Цанцзе:
Многие исследователи обсуждали способы разложения китайских иероглифов на их основные компоненты и пытались создавать приложения на основе системы разложения. Идею можно назвать изучением генов китайских иероглифов Academia Sinica на Тайване [6] и Университет Цзяотун в Шанхае [7] .
. Кодексы Цанцзе создают основу для таких усилий. Аналогичные проекты имеют такжеОдним из прямых применений использования разложенных иероглифов является возможность вычисления сходства между различными китайскими иероглифами. [8] Метод ввода Цанцзе предлагает хорошую отправную точку для такого рода приложений. Уменьшив ограничение на пять кодов для каждого китайского иероглифа и приняв более подробные коды Цанцзе, можно найти визуально похожие символы путем вычислений. Интеграция этих данных с информацией о произношении позволяет изучать китайские иероглифы с помощью компьютера. [9]
[Перевод]
Это не проблема; существуют также вспомогательные формы, восполняющие недостатки радикалов. Вспомогательные формы представляют собой вариации формы радикалов, [и поэтому] их легко запомнить.
[Перевод]
Словарь, приложенный [к этой книге], основан на стандарте из 4800 широко используемых символов, утвержденном Министерством образования. Если добавить к этому символы, которые генерируются автоматически, количество символов составит около 15 000 (за основу взят словарь Канси).