Многие письменности в Unicode , такие как арабская , имеют специальные орфографические правила , которые требуют, чтобы определенные комбинации буквенных форм были объединены в специальные лигатурные формы . В английском языке общий амперсанд (&) развился из лигатуры, в которой были объединены рукописные латинские буквы e и t (написание et , латинское для и ). [1] Правила, регулирующие образование лигатуры в арабском языке, могут быть довольно сложными, требуя специальных технологий формирования письменности, таких как арабская каллиграфическая машина DecoType Томаса Мило. [2]
Начиная с Unicode 16.0, арабская письменность содержится в следующих блоках : [3]
- Арабский (0600–06FF, 256 символов)
- Приложение на арабском языке (0750–077F, 48 символов)
- Арабский расширенный-B (0870–089F, 42 символа)
- Арабский расширенный-A (08A0–08FF, 96 символов)
- Арабские формы представления-A (FB50–FDFF, 631 символ)
- Арабские формы представления-B (FE70–FEFF, 141 символ)
- Числовые символы Руми (10E60–10E7F, 31 символ)
- Арабский расширенный-C (10EC0-10EFF, 7 символов)
- Индийские сиякские цифры (1EC70–1ECBF, 68 символов)
- Османские цифры сияка (1ED00–1ED4F, 61 символ)
- Символы арабского математического алфавита (1EE00–1EEFF, 143 символа)
Базовый диапазон арабских символов кодирует стандартные буквы и диакритические знаки, но не кодирует контекстные формы (U+0621–U+0652 напрямую основаны на ISO 8859-6 ); а также включает в себя наиболее распространенные диакритические знаки и арабо-индийские цифры . Диапазон арабских дополнительных символов кодирует варианты букв, в основном используемые для записи африканских (неарабских) языков. Диапазоны арабских расширенных-B и арабских расширенных-A кодируют дополнительные коранические аннотации и варианты букв, используемые для различных неарабских языков. Диапазон арабских презентационных форм-A кодирует контекстные формы и лигатуры вариантов букв, необходимых для персидского, урду, синдхи и центральноазиатских языков. Диапазон арабских презентационных форм-B кодирует формы пробелов арабских диакритических знаков и более контекстные формы букв. Формы представления присутствуют только для совместимости со старыми стандартами и в настоящее время не требуются для кодирования текста. [4]
Блок арабских математических алфавитных символов кодирует символы, используемые в арабских математических выражениях. Блок индийских чисел сияк содержит специализированное подмножество арабского письма, которое использовалось для бухгалтерского учета в Индии во времена Империи Великих Моголов с 17-го века до середины 20-го века. [5] [6]
Блок османских чисел сияк содержит специализированное подмножество арабского письма, также известное как числа сиякат , которое использовалось для бухгалтерского учета в османских турецких документах. [6]
Контекстные формы
Ниже приведена демонстрация базового алфавита, используемого в современном стандартном арабском языке, иллюстрирующая, как арабские буквы должны отображаться в разных контекстах. Кодовые точки, перечисленные как контекстные формы, должны « не использоваться в общем обмене» [4] . В Unicode есть другие методы кодирования разницы, если это необходимо, например, Zero-width joiner .
Пунктуация и украшения
В обычном арабском шрифте используются только арабский вопросительный знак ⟨ ؟ ⟩ и арабская запятая ⟨ ، ⟩, а запятая часто заменяется латинской запятой ⟨ , ⟩, которая также используется в качестве десятичного разделителя при использовании восточно-арабских цифр (например, ⟨100,6⟩ по сравнению с ⟨ ١٠٠,٦ ⟩).
- U+060C ، АРАБСКАЯ ЗАПЯТАЯ
- U+060D ؍ АРАБСКИЙ РАЗДЕЛИТЕЛЬ ДАТЫ
- U+060E ؎ АРАБСКИЙ ПОЭТИЧЕСКИЙ СТИХ ЗНАК
- U+060F ؏ АРАБСКИЙ ЗНАК МИСРА
- U+061B ؛ АРАБСКАЯ ТОЧКА С ЗАПЯТОЙ
- U+061E ؞ АРАБСКИЙ ЗНАК ПРЕПИНАНИЯ С ТРОЙНОЙ ТОЧКОЙ
- U+061F ؟ АРАБСКИЙ ВОПРОСИТЕЛЬНЫЙ ЗНАК
- U+066D ٭ АРАБСКАЯ ПЯТИКОНЕЧНАЯ ЗВЕЗДА
- U+06D4 ۔ АРАБСКАЯ ТОЧКА
- U+06DD АРАБСКИЙ КОНЕЦ АЯТА
- U+06DE ۞ АРАБСКОЕ НАЧАЛО RUB EL HIZB
- U+06E9 ۩ АРАБСКОЕ МЕСТО САДЖДА
- U+06FD ۽ АРАБСКИЙ ЗНАК СИНДСКИЙ АМПЕРСАНД
- U+FD3E ﴾ Арабская декоративная левая скобка
- U+FD3F ﴿ Арабская декоративная правая скобка
Лигатуры слов
В арабских презентационных формах-A есть несколько символов, определенных как «словесные лигатуры» для терминов, часто используемых в формульных выражениях на арабском языке. Они редко используются вне профессиональной литургической типографии, также графема Rial обычно пишется полностью, а не лигатурой.
- U+FDF0 ﷰ АРАБСКАЯ ЛИГАТУРА САЛЛА, ИСПОЛЬЗУЕМАЯ КАК КОРАНИЧЕСКИЙ ЗНАК СТОП, ИЗОЛЯЦИОННАЯ ФОРМА ( صلى , стилизовано под صلے )
- U+FDF1 ﷱ АРАБСКАЯ ЛИГАТУРА КАЛА, ИСПОЛЬЗУЕМАЯ КАК КОРАНИЧЕСКИЙ ЗНАК СТОП, ИЗОЛЯЦИОННАЯ ФОРМА ( قلى , стилизовано под قلے )
- U + FDF2 ﷲ АРАБСКАЯ ЛИГАТУРА АЛЛАХ ИЗОЛИРОВАННАЯ ФОРМА ( اللّٰه )
- U+FDF3 ﷳ АРАБСКАЯ ЛИГАТУРА АКБАР ИЗОЛИРОВАННАЯ ФОРМА ( اكبر ), как во фразе الله اكبر Аллаху акбар
- U+FDF4 ﷴ АРАБСКАЯ ЛИГАТУРА МОХАММАДА ИЗОЛИРОВАННАЯ ФОРМА ( محمد )
- U+FDF5 ﷵ АРАБСКАЯ ЛИГАТУРА САЛАМ, ИЗОЛИРОВАННАЯ ФОРМА ( صلعم , аббревиатура от صلى الله عليه وسلم «мир ему»)
- U+FDF6 ﷶ АРАБСКАЯ ЛИГАТУРА ИЗОЛИРОВАННАЯ ФОРМА РАСУЛА ( رسول )
- U+FDF7 ﷷ АРАБСКАЯ ЛИГАТУРА ИЗОЛИРОВАННАЯ ФОРМА ALAYHE ( عليه )
- U+FDF8 ﷸ АРАБСКАЯ ЛИГАТУРА ВАСАЛЛАМ ИЗОЛИРОВАННАЯ ФОРМА ( وسلم )
- U+FDF9 ﷹ АРАБСКАЯ ЛИГАТУРА САЛЛА ИЗОЛИРОВАННАЯ ФОРМА ( صلى )
- U + FDFA ﷺ АРАБСКАЯ ЛИГАТУРА САЛЛАЛАХУ АЛАЙХЕ ВАСАЛЛАМ ( صلى الله عليه وسلم «мир ему»)
- U+FDFB ﷻ АРАБСКАЯ ЛИГАТУРА JALLAJALALOUHOU ( جل جلاله )
- U+FDFC ﷼ ЗНАК РИАЛА ( ريال )
- U+FDFD ﷽ АРАБСКАЯ ЛИГАТУРА БИСМИЛЛА АР-РАХМАН АР-РАХИМ ( بسم الله الرحمن الرحيم bism-i llāh-i r-raḥman-i r-raḥīm )
Блоки кода
арабский
Таблица символов
Компактный стол
Арабское приложение
Арабский расширенный-B
Арабский расширенный-А
Арабские формы представления A
В основном это лигатуры, которые можно создать из символов предыдущих таблиц, за исключением графем, похожих на скобки ﴾ ﴿ , а некоторые из них являются лигатурами обычных литургических фраз.
Арабские формы представления B
Все они могут быть созданы из символов базовой таблицы.
Числовые символы Руми
Арабский расширенный-C
Индийские числа Siyaq
Османские числа Сияка
Арабские математические алфавитные символы
Ссылки
- ^ «Каково происхождение амперсанда (&)?»
- ^ unicode.org Биография: Томас Мило - DecoType
- ^ "UAX #24: Файл данных скрипта". База данных символов Unicode . Консорциум Unicode.
- ^ ab "Раздел 9.2: Арабский язык, арабские формы представления-B". Стандарт Unicode . Консорциум Unicode. Сентябрь 2024 г.
- ^ Пандей, Аншуман (2015-11-05). "L2/15-121R2: Предложение по кодированию индийских чисел сияк" (PDF) .
- ^ ab "Глава 22: Символы". Unicode, Inc. Сентябрь 2024 г.
- ^ Устарело с версии Unicode 6.0 История изменений UCD «Конкретная комбинация алефа с этим знаком гласной должна быть записана с помощью последовательности <U+0627 АРАБСКАЯ БУКВА АЛЕФ, U+065F АРАБСКАЯ ВОЛНИСТАЯ ХАМЗА НИЖЕ>, а не с помощью символа U+0673 АРАБСКАЯ БУКВА АЛЕФ С ВОЛНИСТАЮЩЕЙ ХАМЗОЙ НИЖЕ, который устарел и не является канонически эквивалентным. «Раздел 9.2: Арабский язык, Дополнительные знаки гласных». Стандарт Unicode . Консорциум Unicode. Сентябрь 2024 г.
Внешние ссылки
- Oibane. "Проблемы Unicode". Арабский на Linux . Архивировано из оригинала 2008-02-03.
- Арабский. "Арабский: unicode <-> глифы, 2-сторонний преобразователь". Java-апплет, преобразующий глифы в unicode (и unicode в глифы). Он учитывает лигатуры, lam-alif, диакритические знаки и т. д .
- Шехерезада или Шехерезада Новая — расширенный арабский шрифт, разработанный SIL International и распространяемый по лицензии SIL Open Font License (OFL).
- Harmattan — расширенный арабский шрифт, разработанный SIL International для Западной Африки, распространяемый по лицензии SIL Open Font License (OFL)