Японский язык и компьютеры

В отношении японского языка и компьютеров возникает множество проблем адаптации, некоторые из которых уникальны для японского языка , а другие являются общими для языков с очень большим количеством символов. Количество символов, необходимых для записи на английском языке, довольно мало, и поэтому для кодирования каждого английского символа можно использовать только один байт (2 ⁸ = 256 возможных значений). Однако количество символов в японском языке намного превышает 256 и, следовательно, не может быть закодировано с использованием одного байта - японский язык, таким образом, кодируется с использованием двух или более байтов в так называемой «двухбайтовой» или «многобайтовой» кодировке. Возникающие проблемы касаются транслитерации и латинизации , кодировки символов и ввода японского текста.

Кодировки символов

Существует несколько стандартных методов кодирования японских символов для использования на компьютере, включая JIS , Shift-JIS , EUC и Unicode . Хотя картирование набора кана является простым делом, кандзи оказалось сложнее. Несмотря на усилия, ни одна из схем кодирования не стала стандартом де-факто, и к 2000-м годам использовалось несколько стандартов кодирования. По состоянию на 2017 год доля трафика UTF-8 в Интернете выросла до более чем 90 % по всему миру, и только 1,2 % приходилось на использование Shift-JIS и EUC. Тем не менее, несколько популярных веб-сайтов, включая 2channel и kakaku.com , все еще используют Shift-JIS. ^[1]

До 2000-х годов большинство японских электронных писем было в формате ISO-2022-JP («кодировка JIS»), а веб-страницы в формате Shift-JIS , а мобильные телефоны в Японии обычно использовали ту или иную форму расширенного кода Unix . ^[2] Если программе не удается определить используемую схему кодирования, это может вызвать моджибаке (文字化け, «неправильно преобразованные искаженные/мусорные символы», буквально «преобразованные символы») и, следовательно, нечитаемый текст на компьютерах.

Первой широко используемой кодировкой была JIS X 0201 , которая представляет собой однобайтовую кодировку , охватывающую только стандартные 7-битные символы ASCII с расширениями катаканы половинной ширины . Это широко использовалось в системах, которые не были достаточно мощными и не имели памяти для обработки кандзи (включая старое встроенное оборудование, такое как кассовые аппараты), поскольку преобразование кана-канджи требовало сложного процесса, а вывод в кандзи требовал много памяти и высокого разрешения. Это означает, что в этой технике поддерживалась только катакана, а не кандзи. Некоторые встроенные дисплеи по-прежнему имеют это ограничение.

Началом раскола стало развитие кодировок кандзи. Shift JIS поддерживает кандзи и был разработан с учетом полной обратной совместимости с JIS X 0201 и, таким образом, используется во многих встроенных электронных устройствах. Однако у Shift JIS есть одно досадное свойство: он часто ломает любой синтаксический анализатор (программное обеспечение, считывающее закодированный текст), который специально не предназначен для его обработки.

Например, некоторые символы Shift-JIS включают во втором байте обратную косую черту (0x5C "\"), которая используется в качестве escape-символа во многих языках программирования.

Анализатор, не поддерживающий Shift JIS, распознает 0x5C 0x82 как недопустимую escape-последовательность и удалит ее. ^[3] Следовательно, фраза вызывает моджибаке.

Это может произойти, например, в языке программирования C при использовании Shift-JIS в текстовых строках. Этого не происходит в HTML, поскольку ASCII 0x00–0x3F (включая «, % и некоторые другие используемые escape-символы и разделители строк) не отображаются как второй байт в Shift-JIS, а обратная косая черта там не является escape-символом. Но в HTML этого не происходит. это может случиться с JavaScript , который можно встроить в HTML-страницы.

EUC , с другой стороны, гораздо лучше обрабатывается анализаторами, написанными для 7-битного ASCII (и, таким образом, кодировки EUC используются в UNIX, где большая часть кода обработки файлов исторически писалась только для английских кодировок). Но EUC не имеет обратной совместимости с JIS X 0201, первой основной японской кодировкой. Дополнительные сложности возникают из-за того, что исходные стандарты электронной почты Интернета поддерживают только 7-битные протоколы передачи. Таким образом, RFC 1468 (« ISO-2022-JP », часто называемый просто кодировкой JIS ) был разработан для отправки и получения электронной почты.

В стандартах набора символов , таких как JIS , включены не все обязательные символы, поэтому гайдзи (外字«внешние символы») иногда используются для дополнения набора символов. Gaiji может поставляться в виде внешних пакетов шрифтов, в которых обычные символы были заменены новыми символами или новые символы были добавлены на неиспользуемые позиции символов. Однако гайдзи непрактично использовать в среде Интернета , поскольку для использования гайдзи набор шрифтов необходимо передавать вместе с текстом. В результате такие символы записываются похожими или более простыми символами, или текст может потребоваться закодировать с использованием более крупного набора символов (например, Unicode), который поддерживает требуемый символ. ^[4]

Юникод был предназначен для решения всех проблем кодирования на всех языках. Кодировка UTF-8 , используемая для кодирования Unicode на веб-страницах, не имеет недостатков, которые имеет Shift-JIS. Юникод поддерживается международным программным обеспечением, что устраняет необходимость в гайдзи. Однако споры все еще существуют. В японском языке символы кандзи были унифицированы с китайскими; то есть символу, который считается одинаковым как в японском, так и в китайском языках, присваивается один номер, даже если его внешний вид на самом деле несколько отличается, а точный внешний вид оставлен на усмотрение использования шрифта, соответствующего локали. Этот процесс, получивший название «объединение Хань» , вызвал споры. ^{[ нужна ссылка ]} Предыдущие кодировки в Японии, Тайване , материковом Китае и Корее обрабатывали только один язык, а Unicode должен обрабатывать все. Однако порядок обращения с кандзи/китайским языком был разработан комитетом, состоящим из представителей всех четырех стран/регионов. ^{[ нужна цитата ]}

Ввод текста

В письменном японском языке используется несколько различных шрифтов: кандзи (китайские иероглифы), 2 набора кана (фонетические слоги) и римские буквы. Хотя кана и латинские буквы можно вводить непосредственно в компьютер, ввод кандзи — более сложный процесс, поскольку кандзи гораздо больше, чем клавиш на большинстве клавиатур. Для ввода кандзи на современных компьютерах обычно сначала вводится чтение кандзи, затем редактор метода ввода (IME), также иногда известный как интерфейсный процессор, показывает список кандидатов кандзи, которые фонетически совпадают, и позволяет пользователю выбрать правильный кандзи. Более продвинутые IME работают не по словам, а по фразам, тем самым увеличивая вероятность получения нужных символов, как это представлено в первом варианте. Ввод значений кандзи может осуществляться либо путем латинизации ( ромадзи нюрёку, ローマ字入力), либо прямым вводом кана ( кана нюрёку, かな入力). Ввод ромадзи чаще встречается на ПК и других полноразмерных клавиатурах (хотя прямой ввод также широко поддерживается), тогда как прямой ввод кана обычно используется на мобильных телефонах и аналогичных устройствах — каждая из 10 цифр (1–9,0) соответствует в один из 10 столбцов таблицы годзюон кана, и несколько нажатий выбирают строку.

Существуют две основные системы латинизации японского языка, известные как Кунрей-шики и Хепберн ; на практике «клавиатурный ромадзи» (также известный как вапуро ромадзи или «текстовый процессор ромадзи») обычно допускает свободную комбинацию того и другого. Реализации IME могут даже обрабатывать ключи для букв, не используемых в какой-либо схеме латинизации, например L , преобразуя их в наиболее подходящий эквивалент. При вводе кана каждая клавиша на клавиатуре напрямую соответствует одной кане. Система клавиатуры JIS является национальным стандартом, но существуют альтернативы, такие как клавиатура со сдвигом большого пальца , обычно используемая среди профессиональных машинисток.

Направление текста

Японский язык можно писать в двух направлениях . Стиль Ёкогаки пишет слева направо и сверху вниз, как и в английском языке. В стиле Татегаки сначала пишется сверху вниз, а затем движется справа налево.

Чтобы конкурировать с Ичитаро , Microsoft предоставила несколько обновлений для ранних японских версий Microsoft Word , включая поддержку нисходящего текста, таких как Word 5.0 Power Up Kit и Word 98. ^[5]^[6]

QuarkXPress был самым популярным программным обеспечением DTP в Японии в 1990-х годах, несмотря на длительный цикл разработки. Однако из-за отсутствия поддержки текста вниз его превзошел Adobe InDesign , который имел сильную поддержку текста вниз в нескольких обновлениях. ^[7]^[8]

В настоящее время ^{[ когда? ]} обработка нисходящего текста не завершена. Например, HTML не поддерживает татегаки , и японским пользователям приходится использовать таблицы HTML для его имитации. Однако уровень CSS 3 включает свойство " writing-mode", которое может отображать татегаки при задании значения " vertical-rl" (т.е. сверху вниз, справа налево). Текстовые процессоры и программное обеспечение DTP поддерживают его более полно.

Смотрите также

Внешние ссылки