stringtranslate.com

Арабская письменность в Unicode

Многие письменности в Unicode , такие как арабская , имеют специальные орфографические правила , которые требуют, чтобы определенные комбинации буквенных форм были объединены в специальные лигатурные формы . В английском языке общий амперсанд (&) развился из лигатуры, в которой были объединены рукописные латинские буквы e и t (написание et , латинское для и ). [1] Правила, регулирующие образование лигатуры в арабском языке, могут быть довольно сложными, требуя специальных технологий формирования письменности, таких как арабская каллиграфическая машина DecoType Томаса Мило. [2]

Начиная с Unicode 16.0, арабская письменность содержится в следующих блоках : [3]

Базовый диапазон арабских символов кодирует стандартные буквы и диакритические знаки, но не кодирует контекстные формы (U+0621–U+0652 напрямую основаны на ISO 8859-6 ); а также включает в себя наиболее распространенные диакритические знаки и арабо-индийские цифры . Диапазон арабских дополнительных символов кодирует варианты букв, в основном используемые для записи африканских (неарабских) языков. Диапазоны арабских расширенных-B и арабских расширенных-A кодируют дополнительные коранические аннотации и варианты букв, используемые для различных неарабских языков. Диапазон арабских презентационных форм-A кодирует контекстные формы и лигатуры вариантов букв, необходимых для персидского, урду, синдхи и центральноазиатских языков. Диапазон арабских презентационных форм-B кодирует формы пробелов арабских диакритических знаков и более контекстные формы букв. Формы представления присутствуют только для совместимости со старыми стандартами и в настоящее время не требуются для кодирования текста. [4] Блок арабских математических алфавитных символов кодирует символы, используемые в арабских математических выражениях. Блок индийских чисел сияк содержит специализированное подмножество арабского письма, которое использовалось для бухгалтерского учета в Индии во времена Империи Великих Моголов с 17-го века до середины 20-го века. [5] [6] Блок османских чисел сияк содержит специализированное подмножество арабского письма, также известное как числа сиякат , которое использовалось для бухгалтерского учета в османских турецких документах. [6]

Контекстные формы

Ниже приведена демонстрация базового алфавита, используемого в современном стандартном арабском языке, иллюстрирующая, как арабские буквы должны отображаться в разных контекстах. Кодовые точки, перечисленные как контекстные формы, должны « не использоваться в общем обмене» [4] . В Unicode есть другие методы кодирования разницы, если это необходимо, например, Zero-width joiner .

Пунктуация и украшения

В обычном арабском шрифте используются только арабский вопросительный знак ⟨ ؟ ⟩ и арабская запятая ⟨ ، ⟩, а запятая часто заменяется латинской запятой ⟨ , ⟩, которая также используется в качестве десятичного разделителя при использовании восточно-арабских цифр (например, ⟨100,6⟩ по сравнению с ⟨ ١٠٠,٦ ⟩).

Лигатуры слов

В арабских презентационных формах-A есть несколько символов, определенных как «словесные лигатуры» для терминов, часто используемых в формульных выражениях на арабском языке. Они редко используются вне профессиональной литургической типографии, также графема Rial обычно пишется полностью, а не лигатурой.

Блоки кода

арабский

Таблица символов

Компактный стол

Арабское приложение

Арабский расширенный-B

Арабский расширенный-А

Арабские формы представления A

В основном это лигатуры, которые можно создать из символов предыдущих таблиц, за исключением графем, похожих на скобки ﴾ ﴿ , а некоторые из них являются лигатурами обычных литургических фраз.

Арабские формы представления B

Все они могут быть созданы из символов базовой таблицы.

Числовые символы Руми

Арабский расширенный-C

Индийские числа Siyaq

Османские числа Сияка

Арабские математические алфавитные символы

Ссылки

  1. ^ «Каково происхождение амперсанда (&)?»
  2. ^ unicode.org Биография: Томас Мило - DecoType
  3. ^ "UAX #24: Файл данных скрипта". База данных символов Unicode . Консорциум Unicode.
  4. ^ ab "Раздел 9.2: Арабский язык, арабские формы представления-B". Стандарт Unicode . Консорциум Unicode. Сентябрь 2024 г.
  5. ^ Пандей, Аншуман (2015-11-05). "L2/15-121R2: Предложение по кодированию индийских чисел сияк" (PDF) .
  6. ^ ab "Глава 22: Символы". Unicode, Inc. Сентябрь 2024 г.
  7. ^ Устарело с версии Unicode 6.0 История изменений UCD «Конкретная комбинация алефа с этим знаком гласной должна быть записана с помощью последовательности <U+0627 АРАБСКАЯ БУКВА АЛЕФ, U+065F АРАБСКАЯ ВОЛНИСТАЯ ХАМЗА НИЖЕ>, а не с помощью символа U+0673 АРАБСКАЯ БУКВА АЛЕФ С ВОЛНИСТАЮЩЕЙ ХАМЗОЙ НИЖЕ, который устарел и не является канонически эквивалентным. «Раздел 9.2: Арабский язык, Дополнительные знаки гласных». Стандарт Unicode . Консорциум Unicode. Сентябрь 2024 г.

Внешние ссылки