stringtranslate.com

КС X 1001

KS X 1001 , « Код для обмена информацией (хангыль и ханджа) », [d] [1] ранее называвшийся KS C 5601 , представляет собой южнокорейский стандарт кодировки символов для представления символов хангыль и ханджа на компьютере.

KS X 1001 кодируется наиболее распространенными устаревшими (до Unicode ) кодировками символов для корейского языка , включая EUC-KR и Microsoft's Unified Hangul Code (UHC). Он содержит корейские слоги хангыль , идеограммы CJK (ханджа), греческие , кириллические , японские ( хирагана и катакана ) и некоторые другие символы.

KS X 1001 организован как таблица 94×94, соответствующая структуре 2-байтовых кодовых слов в ISO 2022 и EUC . Поэтому его кодовые точки представляют собой пары целых чисел 1–94. Однако некоторые кодировки (UHC и Johab ), помимо предоставления кодов для каждой кодовой точки, предоставляют дополнительные коды для символов, которые в противном случае можно было бы представить только как последовательности кодовых точек.

История

Этот стандарт ранее был известен как KS C 5601. Было несколько редакций этого стандарта. Например, редакции были в 1987, 1992, 1998 и 2002 годах.

Современный двухбайтовый набор символов Wansung ( 완성 ; Wanseong ; букв.  предсоставление) [1] был стандартизирован третьим изданием KS C 5601, [2] опубликованным в 1986 году. [3] Это кодировка, совместимая с ISO 2022 , обычно используемая в форме EUC , которая назначает двухбайтовые коды для не-хангыльских, хангыльских джамо и наиболее распространенных слогов хангыль, в отличие от Johab ( 조합 ; Johap ; букв.  объединение) [1] , которая несовместима с ISO 2022, но назначает двухбайтовые коды всем слогам хангыль с использованием современного джамо. [2] Wansung технически является кодировкой переменной длины, позволяющей представлять другие слоги восьмибайтовыми последовательностями (с использованием джамо и символа-заполнителя хангыль), но эта функция не всегда реализована. [4]

Самое раннее издание KS C 5601, опубликованное в 1974 году, [2] определило набор символов переменной длины [2] из 7 бит, который назначил однобайтовые кодовые точки 51 [3] базовому хангыль джамо , в некоторой степени аналогично JIS C 6220 , в кодировке, известной как «N-байтовый хангыль». [5] Второе издание, опубликованное в 1982 году, сохранило основной набор символов из издания 1974 года, но определило два дополнительных набора, включая версию Johab. Ни одно из изданий не было принято так широко, как предполагалось. [2]

Wansung был оставлен без изменений в изданиях 1987 и 1992 годов. В издании 1992 года был добавлен дополнительный материал приложения, [3] включая определение кодировки Johab [6] в приложении 3 и более старую N-байтовую кодировку Hangul в приложении 4. [1] [5] Он был опубликован в ответ на использование в промышленности Johab в качестве конкурирующей кодировки Wansung, которая в то время использовалась Hangul Word Processor . После введения компанией Microsoft унифицированного кода Hangul в Windows 95 и отказа Hangul Word Processor от Johab в пользу Unicode в 2000 году, Johab перестал быть общепринятым. [2]

Кодировки

(Снимок экрана старой версии Firefox, на котором в подменю CJK в качестве доступных кодировок показаны Big5, GB2312, GBK, GB18030, HZ, ISO-2022-CN, Big5-HKSCS, EUC-TW, EUC-JP, ISO-2022-JP, Shift_JIS, EUC-KR, UHC, Johab и ISO-2022-KR.)
Различные кодировки CJK , включая четыре на основе KS X 1001, поддерживаемые Mozilla Firefox с 2004 года. (Эта поддержка была сокращена в более поздних версиях, чтобы избежать определенных атак с использованием межсайтового скриптинга .)

Схемы кодирования KS X 1001 включают EUC-KR (в вариантах на основе ASCII и ISO 646 -KR, последний из которых включает знак валюты вона ( ₩ ) в байте 0x 5C вместо обратной косой черты) и ISO-2022-KR , [7] а также ISO-2022-JP-2 (который также кодирует JIS X 0208 и JIS X 0212 ). Все они имеют тот недостаток, что они назначают коды только для 2350 предварительно составленных слогов хангыль, которые имеют свои собственные кодовые точки KS X 1001 (из 11172 в целом, не считая тех, которые используют устаревший jamo), и требуют от других использовать восьмибайтовые последовательности составов, которые не поддерживаются некоторыми частичными реализациями стандарта. [4]

Кодировка Johab (указанная в приложении 3 к версии стандарта 1992 года) и надмножество EUC-KR, известное как унифицированный код хангыля (UHC, также называемый Windows-949), предоставляют единые коды для всех 11172 слогов хангыля. [7] [6] ISO-2022-KR и Johab используются редко. Некоторые операционные системы расширяют этот стандарт другими неунифицированными способами, например, расширения EUC-KR MacKorean в классической Mac OS и IBM-949 от IBM .

Наполнитель Хангыль

Символ-заполнитель Хангыль используется для введения восьмибайтовых последовательностей композиций Хангыль [8] [9] и для замены отсутствующего элемента (обычно пустого финала) в такой последовательности. [9]

Unicode включает в себя код Wansung Hangul Filler в блок Hangul Compatibility Jamo для двусторонней совместимости, но использует собственную систему (со своими собственными, по-другому используемыми символами-заполнителями) для составления Hangul. Система составления KS X 1001 Hangul не используется в Unicode, а заполнитель отображается просто как пустое пространство; последовательности составления KS X 1001 с использованием современного jamo могут быть сопоставлены с предварительно составленными символами в Unicode. [9] Обычно это не делается с помощью Unified Hangul Code .

Для обеспечения двусторонней совместимости Unicode также включает N-байтовый код Hangul Filler Hangul отдельно в блоках Halfwidth и Fullwidth Forms , называемых «Halfwidth Hangul Filler».

Таблицы кодов Wansung

Ниже приведены кодовые таблицы для KS X 1001 в раскладке Wansung. Если дана пара шестнадцатеричных чисел, то меньшее используется при кодировании по GL (0x21-0x7E), как в ISO-2022-KR, когда корейский набор был смещен, а большее используется в более типичном случае кодирования по GR (0xA1-0xFE), как в EUC-KR или UHC. Джохаб изменяет расположение, чтобы кодировать все 11172 кластера хангыль отдельно и по порядку.

Чтобы проиллюстрировать различия в реализации поставщиков, для некоторых символов показаны несколько отображений Unicode. Показаны расширения HangulTalk от Apple для плоскости Wansung (т. е. где оба байта находятся в диапазоне 0xA1-0xFE), но другие диапазоны расширений HangulTalk — нет. Дополнительные коды для составных слогов в Unified Hangul Code и расширения IBM в IBM-949 также не показаны, поскольку оба выходят за рамки плоскости Wansung.

Ведущие байты

Не-ханджа непредкомпозитные наборы

Строки 41 и 94 могут использоваться для целей, определяемых пользователем. [10]

Набор символов 0x21 / 0xA1 (номер строки 1, специальные символы)

Этот набор содержит знаки препинания и другие символы, за исключением знаков препинания, присутствующих в KS X 1003 (который включен в строку 3). Кодировки, которые объединяют KS X 1001 с однобайтовым ASCII, могут использовать альтернативное сопоставление Unicode с блоком Halfwidth и Fullwidth Forms для обратной косой черты. Сопоставление Unicode волнистого тире (тильда-тире) также различается у разных поставщиков и может быть U+301C (предпочитаемо IBM и Apple) [11] [12] [13] или U+223C (предпочитаемо Microsoft). [14] [15] Сравните похожую, но не идентичную обработку волнистого тире JIS и обработку тильды в следующей строке.

За исключением обратной косой черты, если ниже показаны два сопоставления, первое используется Apple, а второе — Microsoft. [13] [15]

Набор символов 0x22 / 0xA2 (номер строки 2, специальные символы)

Этот набор содержит дополнительные знаки препинания и символы. Подобно символу тильды в предыдущей строке, Apple и Microsoft используют разные отображения для символа тильды в этой строке (U+02DC у Apple, FF5E у Microsoft), [13] [15] который должен отображаться как приподнятая тильда, тогда как тильда в предыдущей строке должна отображаться в строке на высоте тире. [10] Отображение обведенной точки также отличается. [13] [15]

Знак евро и зарегистрированный товарный знак были добавлены в стандарт в 1998 году, в то время как корейский почтовый знак (㉾) был добавлен в 2002 году. [1] Эти три кодовых точки, как и все еще неиспользуемые кодовые точки, были использованы поставщиками для других, нестандартных целей, например, для маркеров коробочного списка компанией Apple. [16] Microsoft обновила свою реализацию унифицированного кода хангыль, добавив дополнения 1998 года, включая знак евро, но не добавила корейский почтовый знак, когда он был добавлен в стандарт. [17]

Набор символов 0x23 / 0xA3 (номер строки 3, базовая латиница / ISO 646-KR)

Этот набор соответствует KS X 1003 ( вариант ISO 646 для корейского языка, аналогичный набору ASCII ), но в виде двухбайтовых кодов, которым предшествует 0x23 (или 0xA3 в форме GR-invoked (EUC)). Он включает английский алфавит / базовый латинский алфавит , западные арабские цифры и знаки препинания.

Сравните римский набор JIS X 0201 , который отличается включением знака йены вместо знака воны . Сравните третьи строки KPS 9566 и JIS X 0208 , которые следуют макету ISO 646, но включают только буквы и цифры.

Такие кодировки, как EUC-KR и UHC, объединяют KS X 1001 с однобайтовым ASCII или KS X 1003 и, следовательно, используют альтернативные сопоставления Unicode с блоками полуширинных и полноширинных форм для двухбайтовых представлений этих символов.

Набор символов 0x24 / 0xA4 (строка номер 4, Хангыль джамо)

Этот набор включает в себя современные согласные хангыль, за которыми следуют гласные, оба упорядоченные южнокорейскими обычаями сопоставления, за которыми следуют устаревшие согласные. При использовании по отдельности эти символы сопоставляются с блоком Unicode Hangul Compatibility Jamo и не имеют однозначного соответствия с позиционно-специфичными символами в блоке Hangul Jamo . Сравните со строкой 4 северокорейского KPS 9566. Символ 04-52 — это Hangul Filler (см. выше), используемый при объединении последовательностей.

Набор символов 0x25 / 0xA5 (номер строки 5, римские цифры и греческие)

Этот набор содержит римские цифры и базовую поддержку греческого алфавита , без диакритических знаков или конечной сигмы . Apple включает некоторые дополнительные знаки препинания в этой строке, а также некоторые черные кружки маркеров списка, продолжающиеся с тех, что в строке 6. [16]

Сравните строку 6 KPS 9566 , которая включает те же символы, но в другой компоновке.

Набор символов 0x26 / 0xA6 (строка номер 6, рисунок блока)

Эта строка содержит символы для рисования полей в полуграфическом контексте. Apple также включает некоторые черные круговые маркеры списка. [16]

Набор символов 0x27 / 0xA7 (номер строки 7, символы единиц)

Эта строка содержит символы единиц как отдельные символы, включая те, которые состоят из нескольких букв. Apple также включает некоторые маркеры списка в кружках, продолжающиеся от тех, что в строке 8. [16]

Сравните и сопоставьте с набором символов подразделений, включенных в строку 8 KPS 9566 .

Набор символов 0x28 / 0xA8 (строка номер 8, расширенная латиница, обведенные, дроби)

Набор символов 0x29 / 0xA9 (номер строки 9, расширенная латиница, обведенные, надстрочные и подстрочные)

Набор символов 0x2A / 0xAA (номер строки 10, хирагана)

Этот набор содержит хирагану для записи японского языка . Apple также включает некоторые маркеры списка в скобках, продолжающиеся с тех, что в строке 9. [16]

Сравните строку 10 KPS 9566 , которая использует ту же компоновку. Сравните и сопоставьте строку 4 JIS X 0208 , которая также использует ту же компоновку, но в другой строке.

Набор символов 0x2B / 0xAB (номер строки 11, катакана)

Этот набор содержит катакану для записи японского языка . Однако японский знак долгой гласной , который используется в тексте катаканы и включен в строку 1 JIS X 0208 , не включен. [20] Apple также включает некоторые маркеры списка в скобках, продолжающиеся с тех, что находятся в строках 9 и 10. [16]

Сравните строку 11 KPS 9566 , которая использует ту же компоновку. Сравните и сопоставьте строку 5 JIS X 0208 , которая также использует ту же компоновку, но в другой строке.

Набор символов 0x2C / 0xAC (номер строки 12, кириллица)

Этот набор содержит современный русский алфавит и не обязательно достаточен для представления других форм кириллического письма . Apple также включает некоторые маркеры черного списка. [16]

Сравните строку 5 KPS 9566 и строку 7 JIS X 0208 , которые используют одинаковую компоновку (но в другой строке).

Расширенный набор символов 0x2D / 0xAD (номер строки 13, дополнительная пунктуация Apple)

Готовые наборы хангыль (строки с 16 по 40)

Кодовые точки для предварительно составленного хангыля включены в непрерывный сортированный блок между кодовыми точками 16-01 и 40-94 включительно. Не все возможные слоговые кластеры включены в этот диапазон. Сравните различный порядок и доступность в KPS 9566 .

Начальные+гласные+конечные слоги 뢨, 썅, 쏀, 쓩 и 쭁 включены, но их начальные+гласные аналоги 뢔, 쌰, 쎼, 쓔 и 쬬 не включены. Это может вызвать проблемы с вводом, поскольку методы ввода должны сначала пройти через начальный+гласный слог, чтобы добраться до начального+гласного+конечного слога (например, ㅎ → 하 → 한).

Те, которые здесь не перечислены, могут быть представлены с использованием восьмибайтовых последовательностей композиций. Всем остальным кластерам modern-jamo присвоены коды в других местах UHC. Всем возможным кластерам modern-jamo присвоены коды Johab.

Статистика по jamo

Наборы ханджа (строки с 42 по 93)

KS X 1001 кодирует несколько ханджа с несколькими прочтениями несколько раз. Один символ, 樂, кодируется четыре раза. Первые 268 символов (U+F900–U+FA0B) в блоке CJK Compatibility Ideographs соответствуют этим дубликатам.

В таблице ниже значение ячейки первой строки (и прочтение) для каждой ханджи сопоставляется с блоком унифицированных идеограмм CJK ; остальные сопоставляются с блоком совместимых идеограмм CJK.

Кодировка Йохаба

Схема кодирования Иохаба, предусмотренная KS X 1001
  • Язык : Хангыль
  • Язык : Ханджа
  • 특수문자 : специальные символы (нехангыльские и неханджа-символы)

KS X 1001, начиная с 1992 года, также определяет альтернативную кодировку, известную как Johab. Она представляет слог хангыль как последовательность трех пятибитных значений, разделенных на два 8-битных байта , старший бит идет первым. Старший бит ведущего байта всегда установлен (что позволяет комбинировать его с однобайтовым ASCII или KS X 1003). Эта кодировка также используется для современного джамо из строки 4 KS X 1001, используя значения заполнителей для других компонентов. Кодировка Johab для хангыль показана в таблице ниже. [22]

Johab кодирует остаток KS X 1001, используя ведущие байты, которые не соответствуют начальному jamo (0xE0–0xF9 для ханджа и 0xD9–0xDE [23] для не-ханджа, за исключением слогов хангыль и современного jamo), с байтами хвоста в диапазонах 0x31–0x7E и 0x91–0xFE. [22] Эти коды алгоритмически отображаются из кодовых точек символов KS X 1001, [23] с двумя строками KS X 1001 на ведущий байт (сравните и сопоставьте Shift JIS ).

Макет варианта Johab на основе EBCDIC в двухбайтовом состоянии

Кодировка Johab на основе ASCII имеет номер Кодовая страница 1361 от Microsoft. [24] Существуют также другие, определяемые поставщиком варианты Johab; например, IBM определяет один для использования в качестве набора Shift Out с EBCDIC . Этот вариант использует shift in и shift out для переключения между однобайтовой страницей EBCDIC и Johab, использует другую кодировку для не-Hangul символов (используя ведущие байты 0x40–6C с другой раскладкой) и использует ведущие байты 0xD4–DD в качестве определяемой пользователем области , но использует ту же раскладку Johab, что и стандарт 1992 года для символов Hangul в состоянии shift-out. [25] IBM присваивает кодировке Johab на основе EBCDIC с отслеживанием состояния номер Кодовая страница 1364 , [25] а также определяет подмножество этой кодировки, включая меньше символов Hangul, но в той же раскладке, как Кодовая страница 933. [ 26]

Некоторые другие поставщики, такие как Samsung или GoldStar (теперь LG ), использовали другие кодировки «Johab», в которых сопоставления пятибитных кодов с jamo отличались от приведенных ниже, следовательно, они не были совместимы со стандартом Johab 1992 года. [af] Приведенная ниже таблица соответствует стандарту 1992 года, а также использованию IBM.

N-байтовый код хангыль

Это N-байтовый код Хангыль, [5] как указано в KS C 5601-1974 и в приложении 4 к KS C 5601–1992. Вторая половина кодовой страницы IBM 1040 [27] является надмножеством этого, назначая символы ¢¬\~(хотя и не £) тем же позициям, что и в кодовой странице 1041 , в то время как нерасширенный N-байтовый Хангыль (кроме заменяющей графики кода управления C0 в некоторых контекстах использования, общих с IBM-1040) является кодовой страницей 891 . [28] Символ 0x40/0xC0 является заполнителем Хангыль (см. выше), используемым при объединении последовательностей.

Подобно своему японскому аналогу JIS C 6220 (JIS X 0201), N-байтовый код хангыль может использоваться как 7-битное кодирование с распределением символов в диапазоне от 0x40 до 0x7C. [5] На приведенной ниже диаграмме показан код в 8-битной среде с установленным старшим битом (т. е. от 0xC0 до 0xFC), как он используется, например, в кодовой странице 891 или 1040.

Сноски

  1. ^ Отсутствуют греческие диакритические знаки и конечная сигма .
  2. ^ Отсутствуют чонпу , синдзитай , кокудзи .
  3. ^ ab Отсутствует строчная буква å , хотя включена заглавная буква U+212B Å ЗНАК АНГСТРЁМА , как и оба случая Ø и Æ .
  4. ^ Корейский정보 교환용 부호계 (한글 및 한자) ; RR :  Чонбо Гёхваннён Бухоге (Хангыль мит Ханджа)
  5. ^ ab Как совместимый с ISO 2022 набор символов 94 n , простой пробел и символ удаления всегда доступны в виде однобайтовых кодов по адресам 0x20 и 0x7F (а не 0xA0 и 0xFF) соответственно.
  6. ^ abcdefghi Сопоставлено Apple с последовательностью цифр ASCII, комбинационного квадрата U+20DE и символа личного пользования U+F87C. [16] Показанный здесь внешний вид смоделирован.
  7. ^ abcdefghijk Сопоставлено Apple с последовательностью ASCII с числом в квадратных скобках , с префиксом в виде частного символа U+F863. [16] Показанный здесь внешний вид смоделирован.
  8. ^ Уже, чем 0xA2D2. Apple добавляет символ частного использования U+F87F для целей круговой передачи.
  9. ^ Две вертикальные линии, правая линия жирнее. Apple сопоставляет это с обычной двойной вертикальной линией U+2016 (‖) плюс символ личного пользования U+F87B для целей кругового обмена; U+1D102 показан здесь, чтобы отразить предполагаемый внешний вид.
  10. ^ Две вертикальные линии, причем левая линия жирнее. Apple сопоставляет это с обычной двойной вертикальной линией U+2016 (‖) плюс символ личного пользования U+F87C для целей круговой передачи; U+1D103 показан здесь для отражения предполагаемого внешнего вида.
  11. ^ Вариант, выровненный по нижнему левому углу ячейки символа, для горизонтального использования. Apple сопоставляет это с U+FF01+F874, где U+F874 — это символ частного использования, используемый Apple для тегирования символа в целях кругооборота. [16] Совсем недавно, [18] для этой формы была добавлена ​​стандартизированная последовательность вариантов с использованием добавленного селектора вариантов 1 (U+FE00). [19]
  12. ^ Вариант, выровненный по нижнему левому углу ячейки символа, для горизонтального использования. Apple сопоставляет это с U+3002+F87D, где U+F87D — это символ частного использования , используемый Apple для тегирования символа в целях кругооборота. [16] Совсем недавно, [18] для этой формы была добавлена ​​стандартизированная последовательность вариантов с использованием добавленного селектора вариантов 1 (U+FE00). [19]
  13. ^ ab Дубликат, отображенный Apple с добавленным символом частного использования U+F87F для кругового обхода. [16]
  14. ^ Точное соответствие не существует в Unicode, показано смоделированным. Apple сопоставляет его с U+3257+F87A, где U+F87A — это символ личного пользования , а U+3257 — это незаполненный обведенный символ. [16]
  15. ^ Точное соответствие не существует в Unicode, показано смоделированным. Apple сопоставляет его с U+3258+F87A, где U+F87A — это символ частного использования , а U+3258 — это незаполненный обведенный символ. [16]
  16. ^ Точное соответствие не существует в Unicode, показано смоделированным. Apple сопоставляет его с U+3259+F87A, где U+F87A — это символ личного пользования , а U+3259 — это незаполненный обведенный символ. [16]
  17. ^ Точное соответствие не существует в Unicode, показано смоделированным. Apple сопоставляет его с U+325A+F87A, где U+F87A — это символ частного использования , а U+325A — это незаполненный обведенный символ. [16]
  18. ^ Точное соответствие не существует в Unicode, показано смоделированным. Apple сопоставляет его с U+3251+F87A, где U+F87A — это символ личного использования , а U+3251 — это незаполненный обведенный символ. [16]
  19. ^ Точное соответствие не существует в Unicode, показано смоделированным. Apple сопоставляет его с U+3252+F87A, где U+F87A — это символ частного использования , а U+3252 — это незаполненный обведенный символ. [16]
  20. ^ Точное соответствие не существует в Unicode, показано смоделированным. Apple сопоставляет его с U+3253+F87A, где U+F87A — это символ частного использования , а U+3253 — это незаполненный обведенный символ. [16]
  21. ^ Точное соответствие не существует в Unicode, показано смоделированным. Apple сопоставляет его с U+3254+F87A, где U+F87A — это символ частного использования , а U+3254 — это незаполненный обведенный символ. [16]
  22. ^ Точное соответствие не существует в Unicode, показано смоделированным. Apple сопоставляет его с U+3255+F87A, где U+F87A — это символ частного использования , а U+3255 — это незаполненный обведенный символ. [16]
  23. ^ Точное соответствие не существует в Unicode, показано смоделированным. Apple сопоставляет его с U+3256+F87A, где U+F87A — это символ частного использования , а U+3256 — это незаполненный обведенный символ. [16]
  24. ^ abcdefghij Сопоставлено Apple с последовательностью ASCII, с префиксом в виде частного символа U+F862. [16]
  25. ^ abcdefghi Сопоставлено Apple с последовательностью цифр ASCII, комбинационного квадрата U+20DE и символа личного пользования U+F875. [16] Показанный здесь внешний вид смоделирован.
  26. ^ abcdefghijk Сопоставлено Apple с последовательностью ASCII с числом в квадратных скобках , с префиксом в виде частного символа U+F866. [16] Показанный здесь внешний вид смоделирован.
  27. ^ abcd Эти символы в значительной степени дублируют символы в строке 1. Apple описывает их как «длинные» версии и добавляет символ частного использования U+F879 для целей круговой передачи. [16]
  28. ^ abcd Кодировка MacKorean также включает несколько наборов стрелок разного стиля (включая белые стрелки) за пределами диапазонов плоскости KS X 1001, с ведущими байтами 0xA8 и 0xAC и байтами хвоста между 0x41 и 0xA0. Apple добавляет символ частного использования U+F878 к этому конкретному набору белых стрелок для целей кругового обхода. [16]
  29. ^ ab В отличие от тех, что в строке 1, эти два знака предназначены для отображения в нижнем положении (аналогично U+301F). Apple добавляет символ частного использования U+F873, чтобы различать их. [16]
  30. ^ Apple сопоставляет это с U+21E7+F87F, где U+21E7 — это белая стрелка вверх [16], а U+F87F — это символ для личного пользования , хотя этот символ — черная стрелка. [21] Показанный символ — это символ Unicode, который появился позже таблицы сопоставления Apple и напоминает глиф [21] для этого символа MacKorean.
  31. ^ Apple сопоставляет это с последовательностью восклицательного знака ASCII, за которым следует символ личного пользования U+F87F. [16]
  32. ^ Некоторые сопоставления для этих кодировок доступны здесь.
  33. ^ abcd Если бы это использовалось, это привело бы к появлению байта конца в диапазоне кодов управления C0 .
  34. ^ abcd Если бы это использовалось, это привело бы к появлению байтов хвоста в строках 0x2_ и 0x3_ ASCII. Johab не использует строку 0x2_ для байтов хвоста, аналогично большинству распространенных устаревших кодировок CJK (сравните Shift JIS , GBK , Big5 ). Версия Johab на основе EBCDIC не использует байты хвоста ни из одной из строк, поскольку они находятся в диапазоне управляющего кода EBCDIC.

Ссылки

  1. ^ abcde Lunde, Ken (2009). "Глава 3: Стандарты набора символов". Обработка информации CJKV . "O'Reilly Media, Inc.". стр. 143–148. ISBN 978-0596514471.
  2. ^ abcdef Хванг, Джинсанг (2005). Социальное формирование стандартов ИКТ: случай разногласий по поводу национальных стандартов кодированных символов в Корее (PDF) . Эдинбургский университет.
  3. ^ abc Lunde, Ken (1995-12-18). "2.4.6: Устаревшие стандарты". CJK.INF Версия 1.9.
  4. ^ ab Shin, Jungshik. "Что такое KS X 1001(KS C 5601) и другие коды хангыля?". FAQ по хангылю и Интернету в Корее .
  5. ^ abcd Лунде, Кен (18 декабря 1995 г.). «3.3.6: N-байтовый хангыль». CJK.INF Версия 1.9.
  6. ^ ab "ИНФОРМАЦИЯ: Наборы символов хангыль (корейский)", Поддержка Microsoft , Microsoft
  7. ^ ab Zsigri, Gyula (18.06.2002). «KSC и UHC».
  8. ^ Чанг, Хе-Шик (28 ноября 2021 г.). "cpython/Modules/cjkcodecs/_codecs_kr.c (ревизия d3faf43)". Исходное дерево cPython . Python Software Foundation.
  9. ^ abc Chung, Jaemin (2017-03-30). Предложение добавить информативное примечание к U+3164 HANGUL FILLER (PDF) . Консорциум Unicode . UTC L2/17-081.
  10. ^ ab Корейское бюро стандартов (1988-10-01). Корейский набор графических символов для обмена информацией (PDF) . ITSCJ/ IPSJ . ISO-IR -149.
  11. ^ "ibm-1363_P110-1997 (ведущий байт A1)". Демонстрация ICU - Converter Explorer . Международные компоненты для Unicode / Консорциум Unicode .
  12. ^ "euc-kr (ведущий байт A1)". Демонстрация ICU - Converter Explorer . Международные компоненты для Unicode.
  13. ^ abcd "Преобразование (внешняя версия) корейской кодировки Mac OS в Unicode 3.2 и более поздние версии". Apple.
  14. ^ "windows-949-2000 (ведущий байт A1)". Демонстрация ICU - Converter Explorer . Международные компоненты для Unicode / Консорциум Unicode .
  15. ^ abcd "Lead Byte A1-A2 (кодовая страница 949)". MSDN . Microsoft. 6 февраля 2008 г.
  16. ^ abcdefghijklmnopqrstu vwxyz aa ab ac ad ae Apple (2005-04-05). "Map (external version) from Mac OS Korean encoding to Unicode 3.2 and later". Консорциум Unicode .
  17. ^ "windows-949-2000 (ведущий байт A2)". Демонстрация ICU - Converter Explorer . Международные компоненты для Unicode / Консорциум Unicode .
  18. ^ ab Lunde, Ken (21.01.2018). "Предложение о добавлении стандартизированных последовательностей вариаций для полноширинной восточноазиатской пунктуации" (PDF) . UTC L2 /17-436.
  19. ^ ab "StandardizedVariants.txt: Стандартизированные последовательности вариаций". База данных символов Unicode . Консорциум Unicode .
  20. ^ Лунде, Кен (2009). «По-видимому, отсутствующие символы». Обработка информации CJKV: китайская, японская, корейская и вьетнамская вычислительная техника (2-е изд.). Севастополь, Калифорния : O'Reilly . стр. 180. ISBN 978-0-596-51447-1.
  21. ^ ab Lunde, Ken (2009). "Приложение E: Стандарты набора символов поставщика" (PDF) . Обработка информации CJKV: китайская, японская, корейская и вьетнамская вычислительная техника (2-е изд.). Севастополь, Калифорния : O'Reilly . ISBN 978-0-596-51447-1.
  22. ^ abc Lunde, Ken (2008). "Глава 4: Методы кодирования (§ Johab Encoding—KS X 1001:2004)". Обработка информации CJKV (2-е изд.). Севастополь, Калифорния : O'Reilly Media . стр. 268–273. ISBN 978-0-596-51447-1.
  23. ^ ab Shin, Jungshik (2011-10-14) [1999-08-16]. Таблица Johab to Unicode. Консорциум Unicode .
  24. ^ «Идентификаторы кодовых страниц». Центр разработки Windows . Microsoft. 7 января 2021 г.
  25. ^ ab "ibm-1364_P110-2007". Международные компоненты для Unicode . Консорциум Unicode .
  26. ^ "ibm-933_P110-1995". Международные компоненты для Unicode . Консорциум Unicode .
  27. ^ "Кодовая страница 01040" (PDF) . IBM. Архивировано (PDF) из оригинала 2015-07-08.
  28. ^ "Кодовая страница 00891" (PDF) . IBM. Архивировано (PDF) из оригинала 2015-07-08.
  29. ^ «KSRI-87-37-IR: 한글·한자 코드 표준화에 관한 연구: Исследование стандартизации кодов хангыль и ханджа» (PDF) (на корейском языке). Министерство науки и технологий . 1987. с. 68. Архивировано из оригинала (PDF) 1 марта 2019 г.

Внешние ссылки