stringtranslate.com

Вьетнамский язык и компьютеры

Вьетнамский язык написан латинским шрифтом с диакритическими знаками ( тонами ударения ), что требует некоторых приспособлений при наборе текста на телефоне или компьютере. Системы на основе программного обеспечения представляют собой форму написания на вьетнамском языке на телефонах или компьютерах с программным обеспечением, которое может быть установлено на устройстве или из стороннего программного обеспечения, такого как UniKey . Телекс является старейшим методом ввода, разработанным для кодирования вьетнамского языка с помощью его тонов. Другие методы ввода могут также включать VNI (клавиатура на основе цифровых клавиш) и VIQR . Метод ввода VNI не следует путать с кодовой страницей VNI.

Исторически вьетнамский язык также писался на языке чу-ном , который в последнее время в основном используется в церемониальных и традиционных целях и остается в сфере интересов историков и филологов . Были попытки набрать чу-хан и чу-ном с помощью существующих вьетнамских методов ввода, но они не получили широкого распространения. [1] [2] Иногда вьетнамский язык можно набирать без тоновых знаков, которые вьетнамские носители языка обычно могут угадать в зависимости от контекста.

Шрифты и кодировки символов

вьетнамский алфавит

Обычно на одной вьетнамской гласной размещают два диакритических знака. Некоторые шрифты накладывают эти диакритические знаки друг на друга, а другие смещают тоновый знак.

Кодировки символов

Существует около 46 кодировок символов для представления вьетнамского алфавита . [3] Unicode стал самой популярной формой для многих мировых систем письма благодаря своей большой совместимости и программной поддержке. Диакритические знаки могут кодироваться либо как комбинированные символы , либо как предварительно составленные символы , которые разбросаны по блокам Latin-1 Supplement , Latin Extended-A , Latin Extended-B и Latin Extended Additional . Вьетнамский символ đồng закодирован в блоке Currency Symbols .

Охват вьетнамского языка в Unicode претерпел несколько изменений с 1990-х годов. Ранние версии Unicode кодировали dấu huyền и dấu sắc как U+0340 ◌̀ COMBINING GRAVE TONE MARK и U+0341 ◌́ COMBINING ACUTE TONE MARK соответственно. В 2001 году эти два символа были объявлены устаревшими как дублирующие кодировки U+0300 ◌̀ COMBINING GRAVE ACCENT и U+0301 ◌́ COMBINING ACUTE ACCENT ; [4] это изменение было включено в Unicode 3.2, выпущенный в 2002 году. [5] С выпуском Unicode 5.2 в 2009 году U+0340 ◌̀ и U+0341 ◌́ не были устаревшими, но не поощрялись. [6] [7] Исторически вьетнамский язык использовал другие символы за пределами современного алфавита. Средневьетнамская буква B с росчерком (ꞗ) включена в латинский расширенный блок D. Апекс отдельно не кодируется в Unicode, поскольку он происходит от португальской тильды , тогда как dấu ngã , который происходит от греческого perispomeni , всегда неправильно кодировался как тильда. В качестве обходного пути U+1DC4 ◌᷄ COMBINING MACRON-ACUTE представляет апекс в Викитека и Викисловарь .

Для систем, не поддерживающих Unicode, были разработаны десятки 8-битных вьетнамских кодовых страниц . [3] Наиболее часто используемыми из них были VISCII , VSCII (TCVN 5712:1993), VNI , VPS и Windows-1258 . [8] [9] Там, где требуется ASCII , например, при обеспечении читаемости в текстовых электронных письмах, вьетнамские буквы часто кодируются в соответствии с Vietnamese Quoted-Readable (VIQR) или VSCII Mnemonic (VSCII-MNEM), [10] хотя использование любой из схем переменной ширины резко сократилось после принятия Unicode во Всемирной паутине . Например, поддержка всех вышеупомянутых 8-битных кодировок, за исключением Windows-1258, была прекращена в программном обеспечении Mozilla в 2014 году. [11]

Многие вьетнамские шрифты, предназначенные для настольных издательских систем, закодированы в VNI или TCVN3 ( VSCII ). [9] Такие шрифты известны как «шрифты ABC». [12] Популярные веб-браузеры не поддерживают специальные вьетнамские кодировки, поэтому любая веб-страница, использующая эти шрифты, отображается как непонятный моджибаке на системах, где они не установлены.

Справа буква í, которая сохраняет свое название

Вьетнамский язык часто складывает диакритические знаки, поэтому дизайнеры шрифтов должны заботиться о том, чтобы сложенные диакритические знаки не сталкивались с соседними буквами или строками. Когда знак тона используется вместе с другим диакритическим знаком, смещение знака тона вправо сохраняет последовательность и позволяет избежать замедления саккад . [13] В рекламных вывесках и в рукописном письме диакритические знаки часто принимают формы, незнакомые другим латинским алфавитам. Например, строчная буква I сохраняет свой заголовок в ì , , ĩ и í . [14] Эти нюансы редко учитываются в вычислительных средах.

Подходы к кодированию символов

Вьетнамское письмо требует 134 дополнительных букв (между обоими регистрами) помимо 52, уже присутствующих в ASCII. [15] Это превышает 128 дополнительных символов, доступных в обычной расширенной кодировке ASCII. Хотя это можно решить с помощью кодировки переменной ширины (как это делается в UTF-8 ), ряд подходов были использованы другими кодировками для поддержки вьетнамского языка без этого:

Кодовые точки Unicode

В следующей таблице приведены коды Unicode для всех вьетнамских букв, не входящих в набор ASCII.

Замена шрифта

Многие шрифты поддерживают подмножество латинской письменности, в котором отсутствует большая часть вьетнамского алфавита. Из-за высокой плотности вьетнамских символов во вьетнамском тексте веб-браузеры, реализующие замену шрифтов , надежно создают эффект записки о выкупе , когда на веб-странице указан неподходящий шрифт.

Чу Ном

𬖾
Символ имени для phở [17]

Unicode включает в себя более 10 000 символов Nôm как часть репертуара Unicode CJK Unified Ideographs . Из этих символов 10 082 можно найти в блоке CJK Unified Ideographs Extension B , в то время как остальные распределены между блоками CJK Unified Ideographs , CJK Unified Ideographs Extension A и CJK Unified Ideographs Extension C. Еще 1028 символов, включая более 400 символов, специфичных для языка Tày , закодированы в блоке CJK Unified Ideographs Extension E. Символы взяты из вьетнамских стандартов TCVN 5773:1993 и TCVN 6909:2001 [ошибка для TCVN 6056:1995?], а также из исследований Han-Nom Research Institute и других групп. [18] Все символы в TCVN 5773:1993 и около 95% символов в TCVN 6909:2001 [ошибка для TCVN 6056:1995?] имеют соответствующие кодовые точки в Unicode 5.1, хотя сам TCVN 5773:1993 сопоставил большинство своих символов с областью частного использования Unicode. [19] Unicode 13.0 добавил два диакритических символа в блок идеографических символов и знаков пунктуации , которые обычно использовались для обозначения заимствованных символов в chữ Nôm . [20] [21]

Два наиболее полных шрифта Nôm — это Nôm Na Tống Light , разработанный Vietnamese Nôm Preservation Foundation [ 22] , и разработанный сообществом HAN NOM A / HAN NOM B [23] , оба из которых помещают большое количество нестандартизированных символов в зоны частного использования .

База данных Unihan Консорциума Unicode включает вьетнамские чтения некоторых символов, но не различает китайско-вьетнамские и номские чтения.

Как и в других системах письма CJKV , чу-ном традиционно пишется вертикально , сверху вниз и справа налево.

Chữ Hán и chữ Nôm также могут быть аннотированы с использованием рубиновых символов , что аналогично chữ Quốc Ngữ для вьетнамского языка. [24]

Ввод текста

Пишущая машинка Olympia Splendid 33, раскладка AĐERTY (на основе AZERTY ), использовалась во Вьетнаме в 1960-х годах, экспонат Музея города Хошимин

Чисто физическая вьетнамская клавиатура была бы непрактичной из-за огромного количества комбинаций буква-диакритический знак-диакритический знак в алфавите, например ờ, ị. Вместо этого вьетнамский ввод полагается на шаблонные программные раскладки клавиатуры, виртуальные клавиатуры или методы ввода (также известные как IME).

Раскладки клавиатуры

Вьетнамские раскладки клавиатуры используют мертвые клавиши для набора букв с диакритическими знаками. Большинство настольных операционных систем включают вьетнамскую раскладку клавиатуры, похожую на TCVN 6064:1995  [vi] , вьетнамский национальный стандарт. Ранее пишущие машинки использовали вьетнамскую раскладку на основе AZERTY (AĐERTY). [25]

Методы ввода

xvnkb, IME, совместимый с фреймворком X Input Method в системах Unix, поддерживает вывод в шести кодировках символов.

Три наиболее распространенных вьетнамских метода ввода — Telex , VNI и VIQR . Telex обозначает диакритические знаки, используя буквы, которые вряд ли появятся в конце слова, в то время как VNI переназначает цифровые клавиши или функциональные клавиши, а VIQR переназначает различные знаки препинания. Соглашения Telex и VIQR возникли в более раннюю эпоху телексных аппаратов и пишущих машинок соответственно.

Поддержка этих методов ввода обеспечивается редакторами методов ввода (IME), которые на вьетнамском языке называются bộ gõ , что буквально означает «клюв», «наборы для набора текста» или «ударные» в более общем смысле. IME могут предоставляться операционной системой, устанавливаться как стороннее приложение, устанавливаться как расширение браузера или предоставляться отдельным веб-сайтом в виде скрипта . К распространенным сторонним приложениям относятся GoTiengViet, UniKey , VietKey, VPSKeys , WinVNKey и xvnkb. В операционных системах типа Unix фреймворки IBus и SCIM поддерживают вьетнамский язык. Скрипты IME, такие как AVIM, Mudim и VietTyping, можно найти на большинстве вьетнамских досок объявлений , во вьетнамской Википедии и на других веб-сайтах с большим объемом текста. Вьетнамский веб-браузер Cốc Cốc поставляется со встроенным методом ввода.

Методы ввода позволяют составлять слова в более гибком порядке, чем позволяют раскладки клавиатуры. Например, чтобы ввести слово " viết " с помощью раскладки клавиатуры TCVN 6064:1995, нужно набрать , в этом порядке. Напротив, большинство IME позволяют пользователю вставлять диакритические знаки в конце слова: в Telex, в VNI или в VIQR. Некоторые IME даже позволяют вводить диакритические знаки перед их базовыми буквами. В зависимости от реализации IME также может быть возможно редактировать диакритические знаки существующего слова без повторного ввода слова.VI38TVIEETSVIET61VIET^'

Некоторые виртуальные клавиатуры дополняют стандартные мертвые клавиши специальными клавишами быстрого доступа. Например, с помощью клавиатуры VIQR, встроенной в iOS , можно добавить гудок к «U», нажав либо , либо специальную клавишу, которая не имеет аналога на физической клавиатуре.123#+=+◌̛

Когда методы ввода на вьетнамском языке недоступны, вьетнамский текст обычно печатается без диакритических знаков, а затем пишется от руки.

Заимствуя функцию, распространенную среди китайских методов ввода , некоторые вьетнамские IME позволяют полностью пропускать диакритические знаки, и вместо этого, после ввода основных букв, пользователь может выбрать ударное слово из списка кандидатов. Для того чтобы предоставить этот список автозаполнения , IME может потребоваться связаться с веб-службой . Некоторые IME также используют списки кандидатов, чтобы позволить пользователю преобразовать текст из вьетнамского алфавита в chữ Nôm , поскольку нет однозначного соответствия между буквенными словами и символами nôm .

Другие соображения

Типичный вьетнамский текст содержит большую долю сложных слов. Сложные слова никогда не пишутся через дефис в современном использовании, поэтому проверки орфографии ограничиваются проверкой отдельных слогов, если не консультироваться со статистической языковой моделью .

Вьетнамский язык имеет строгие правила правописания и мало исключений, поэтому системы преобразования текста в речь могут избегать поиска в словаре, за исключением случаев, когда они сталкиваются с иностранным заимствованным словом. Системы TTS должны учитывать тоны , которые важны для значения любого вьетнамского слова, например, má (мать) — это другое слово, чем mà (но).

Интернационализированные пользовательские интерфейсы, как правило, не могут использовать полный набор вьетнамских местоимений , которые можно было бы ожидать в традиционной социальной обстановке, даже когда о пользователе известно многое. Вместо этого пользовательские интерфейсы обычно используют общие местоимения, такие как tôi и bạn , некоторые из которых делают потенциально неверные предположения о возрасте пользователя и его отношениях с другими пользователями. Например, когда платформа социальных сетей уведомляет пользователя о более молодом пользователе, она может обратиться к последнему в третьем лице как anh ấy вместо em ấy , что приводит к тому, что пользователь неправильно истолковывает уведомление как ссылку на кого-то другого. [26]

Смотрите также

Ссылки

  1. ^ "Как набирать символы Хан Ном?". winvnkey.sourceforge.net . Получено 2022-12-08 .
  2. ^ "Chu Nom Resources". chunom.org . Получено 2022-12-08 .
  3. ^ аб Нго Динь Хок; Трун Ты Бинь (21 июля 2014 г.). «Экспресс-руководство для WinVNKey». WinVNKey . Проверено 5 октября 2014 г.
  4. ^ ISO/IEC JTC1/SC2/WG2 (10 октября 2001 г.). Отчет о связи с консорциумом Unicode (Отчет). Международная организация по стандартизации . L2/01-378 . Получено 5 июля 2024 г.{{cite report}}: CS1 maint: числовые имена: список авторов ( ссылка )
  5. Whistler, Ken (1 августа 2001 г.). Анализ устаревания символов в стандарте Unicode (отчет). Технический комитет Unicode. L2/01-301 . Получено 5 июля 2024 г.
  6. ^ "Объединение диакритических знаков". Таблицы кодов символов Unicode 7.0 . Консорциум Unicode . 16 июня 2014 г. Получено 5 октября 2014 г.
  7. ^ Бафф, Шарлотта (16 сентября 2018 г.). Несоответствия в устаревании аннотаций к таблицам кодов (PDF) (Отчет). Технический комитет Unicode. L2/18-301 . Получено 5 июля 2024 г. .
  8. ^ Нго, Хок Динь; Тран, Ту Бинь. "5. Зачем нужна конвертация вьетнамской кодировки (набор символов – кодировка)?". Некоторые специальные функции WinVNKey .
  9. ^ ab "Chon Font chữ, bang mã để gõ tiếng Việt" . Bộ gõ tiếng Việt.Com (на вьетнамском языке). МангВН. 2009. Архивировано из оригинала 20 ноября 2010 года.
  10. ^ Ланде, Кен (2009). Обработка информации CJKV (2-е изд.). O'Reilly Media . С. 47–49. ISBN 978-0-596-51447-1– через Google Книги.
  11. ^ Сивонен, Генри (2014-09-26). «Изменения кодировки символов в mc требуют действия cc». mozilla.dev.apps.thunderbird .
  12. ^ Хоанг То; Нгуен Куан Сон; Нгуен Сан Тонг; Фан Куанг Минь; Фам Тук Чонг Лонг; Нгуен Куанг Хиоп; Бой Ван Киен; Нгуен Ич Винь (20 июля 2014 г.). Sử ký Tinh Vân: 20 năm sẻ chia và sáng tạo [История Тинхвана: 20 лет обмена и творчества ] (на вьетнамском языке). Том. 1. Группа Тинхван. п. 37 – через Google Книги.
  13. ^ Транг, Донни. «Проблемы дизайна». Вьетнамская типографика . Получено 10 апреля 2018 г.
  14. ^ См., например: "Viết Thư". Выборка для чтения на вьетнамском языке (на вьетнамском языке) (2-е изд.). Army Language School . 1956. С. 98–100.
  15. ^ abcde "2. Обзор текущих соглашений". Отчет о стандартизации кодировки вьетнамских символов - Спецификации кодировки символов VISCII и VIQR 1.1 (Технический отчет). Viet-Std Group. 1992. С. 10.
  16. ^ "Unicode & Vietnamese Legacy Character Coders". Часто задаваемые вопросы о вьетнамском Unicode . TCVN3 не является двухбайтовым, но из-за особенностей его кодировки заглавные буквы (гласные) отображаются в отдельный заглавный шрифт, который похож на обычный строчный.
  17. ^ Трун Ван Кием (2004). «фу». Giúp đọc Nôm và Hán Việt (на вьетнамском языке) (4-е изд.).[1]
  18. ^ Нгуен Куанг Хонг. «Giới thiệu Kho chữ Hán Nom mã hoá» [Введение в репертуар кодированных персонажей Хан Нома] (на вьетнамском языке). Вьетнамский фонд сохранения Нома.
  19. ^ Лунде 2009, стр. 152–153.
  20. ^ Коллинз, Ли; Нго Тхань Ньян (6 ноября 2017 г.). «Предложение о кодировании двух вьетнамских знаков альтернативного чтения» (PDF) .
  21. ^ «Предлагаемые новые символы: The Pipeline». Консорциум Unicode. 8 мая 2019 г. Получено 26 мая 2019 г.
  22. ^ "Nôm Font". Vietnamese Nôm Preservation Foundation . Получено 5 октября 2014 г.
  23. ^ Đỗ Quốc Bảo; То Минь Там; Тьен Вьен Вьен Чиу (8 декабря 2005 г.). «Набор шрифтов UNICODE Han Nom» . Проверено 5 октября 2014 г.
  24. ^ Лунде 2009, стр. 529.
  25. Дункан, Джон Уильям (2005-12-22), VietNamese Typewriter , получено 2020-07-11
  26. ^ Jacob, Raquel (2 февраля 2022 г.). «Language Guidelines – Vietnamese». Unbabel . Получено 18 июля 2022 г. .

Дальнейшее чтение

Внешние ссылки