stringtranslate.com

Скрипт (Юникод)

В Unicode скрипт это набор букв и других письменных знаков, используемых для представления текстовой информации в одной или нескольких системах письма . [1] Некоторые скрипты поддерживают одну и только одну систему письма и язык , например, армянский . Другие скрипты поддерживают множество различных систем письма; например, латинский скрипт поддерживает английский , французский , немецкий , итальянский , вьетнамский , саму латынь и несколько других языков. Некоторые языки используют несколько альтернативных систем письма и, таким образом, также используют несколько скриптов; например, в турецком арабский скрипт использовался до 20-го века , но перешел на латиницу в начале 20-го века. Более или менее дополнительными к скриптам являются символы и управляющие символы Unicode .

Унифицированные диакритические знаки и унифицированные знаки пунктуации часто имеют свойство «общего» или «унаследованного» письма. Однако отдельные письма часто имеют свою собственную пунктуацию и диакритические знаки , так что многие письма включают не только буквы, но и диакритические и другие знаки, знаки препинания, цифры и даже свои собственные идиосинкразические символы и пробелы .

Unicode 16.0 определяет 168 отдельных письменностей, включая 99 современных и 69 древних или исторических письменностей. [2] [3] Еще больше письменностей находятся в процессе кодирования или предварительно выделены для кодирования в дорожных картах. [4]

Определение и классификация

Когда несколько языков используют один и тот же алфавит, часто существуют некоторые различия, особенно в диакритических знаках и других знаках. Например, шведский и английский оба используют латинский алфавит. Однако шведский включает символ å (иногда называемый шведским O ), в то время как английский не имеет такого символа. Также английский не использует диакритическое объединяющее кольцо выше для любого символа. В целом, языки, использующие один и тот же алфавит, используют много одинаковых символов. Несмотря на эти периферийные различия в шведской и английской системах письма, говорят, что они используют один и тот же латинский алфавит. Таким образом, абстракция алфавитов Unicode является базовой техникой организации. Различия между различными алфавитами или системами письма сохраняются и поддерживаются с помощью гибких алфавитов Unicode, объединяющих знаки и алгоритмов сопоставления.

Сценарий против системы письма

Система письма иногда рассматривается как синоним «письменности». Однако его также можно использовать как конкретную систему письма, поддерживаемую письменностью. Например, вьетнамская система письма поддерживается латиницей. Система письма может также охватывать более одной письменности; например, японская система письма использует письменности хань , хирагана и катакана .

Большинство систем письма можно в целом разделить на несколько категорий: логографические , слоговые , алфавитные (или сегментные ), абугида , абджад и фичеатуральные ; однако все черты любой из них могут быть найдены в любой данной системе письма в разных пропорциях, что часто затрудняет чистую категоризацию системы. Термин сложная система иногда используется для описания тех, где примесь делает классификацию проблематичной.

Unicode поддерживает все эти типы систем письма посредством своих многочисленных скриптов. Unicode также добавляет дополнительные свойства к символам, чтобы помочь различать различные символы и способы их поведения в алгоритмах обработки текста Unicode.

Значения специальных свойств скрипта

В дополнение к явным или определенным свойствам скрипта, Unicode использует три специальных значения: [5]

Общий
Unicode может назначить символ в UCS только одному сценарию. Однако многие символы — те, которые не являются частью формальной системы письма на естественном языке или унифицированы во многих системах письма — могут использоваться в более чем одном сценарии (например, знаки валют, символы, цифры и знаки препинания). В этих случаях Unicode определяет их как принадлежащие к «общему» сценарию ( код ISO 15924 «Zyyy»).
Унаследованный
Многие диакритические знаки и непробеловые объединяющие символы могут применяться к символам из более чем одного алфавита. В этих случаях Unicode назначает их «унаследованному» алфавиту (код ISO 15924 Zinh), что означает, что они имеют тот же класс алфавита, что и базовый символ, с которым они объединяются, и поэтому в разных контекстах они могут рассматриваться как принадлежащие к разным алфавитам. Например, U+0308  ̈   ОБЪЕДИНЯЮЩАЯ ДИАРЕЗА может сочетаться либо с U+0065 e ЛАТИНСКАЯ СТРОЧНАЯ БУКВА E для создания латинской ë , либо с U+0435 е КИРИЛЛИЧЕСКАЯ СТРОЧНАЯ БУКВА IE для кириллической ё . В первом случае он наследует латинский алфавит базового символа, тогда как во втором случае он наследует кириллический алфавит базового символа.
Неизвестный
Значение «неизвестный» шрифт (код ISO 15924 Zzzz) присваивается неназначенным, предназначенным для личного пользования, несимвольным и суррогатным кодовым точкам.

Категории персонажей в сценариях

Unicode предоставляет общее свойство категории для каждого символа. Таким образом, в дополнение к принадлежности к скрипту каждый символ также имеет общую категорию. Обычно скрипты включают в себя буквенные символы, включая: заглавные буквы, строчные буквы и буквы-модификаторы. Некоторые символы считаются заглавными буквами для нескольких предварительно составленных лигатур, таких как Dz (U+01F2). Такие заглавные лигатуры все есть в латинском и греческом скриптах и ​​все являются совместимыми символами , и поэтому Unicode не рекомендует их использовать авторам. Маловероятно, что в будущем будут добавлены новые заглавные буквы.

Большинство систем письма не различают заглавные и строчные буквы. Для этих систем письма все буквы относятся к категории «другие буквы» или «модификаторы». Идеограммы, такие как идеограммы Unihan, также относятся к категории «другие буквы». Однако несколько систем письма различают заглавные и строчные буквы: латиница, кириллица, греческий, армянский, грузинский и Deseret. Даже для этих систем письма есть некоторые буквы, которые не являются ни заглавными, ни строчными.

Шрифты также могут содержать любые другие общие символы категории, такие как знаки (диакритические и иные), цифры (цифры), знаки препинания , разделители (разделители слов, такие как пробелы), символы и неграфические символы формата . Они включаются в конкретный шрифт, когда они уникальны для этого шрифта. Другие такие символы, как правило, унифицированы и включены в блоки пунктуации или диакритических знаков. Однако основная часть символов в любом шрифте (кроме общих и унаследованных шрифтов) — это буквы.

Список закодированных скриптов

Начиная с версии 16.0 , Unicode определяет 168 сценариев (называемых «Псевдонимами» или «Псевдонимами значений свойств») на основе списка ISO 15924. Кроме того, Unicode присваивает Zyyyкоду ISO 15924 для неопределенных сценариев имя «Общий», коду ISO 15924 Zinhдля унаследованных сценариев — «Унаследованный», а коду ISO 15924 для некодированных сценариев — «Неизвестный» Zzzz. Существуют коды сценариев, определенные ISO 15924, но не используемые в Unicode, включая Zsym(Символы) и Zmth(Математическая нотация).

Отсутствующие скрипты в Unicode

Проект Missing Scripts, в котором приняли участие представители Университета прикладных наук Майнца , Национальной школы типографских исследований (ANRT) в Нанси и Калифорнийского университета в Беркли , составил список из 131 письменности, которые еще не были закодированы в стандарте Unicode , из 294 письменностей, признанных в соответствии с текущим состоянием исследований. [6]

Смотрите также

Ссылки

  1. ^ "Глоссарий". unicode.org .
  2. ^ "База данных символов Unicode: Скрипты". unicode.org .
  3. ^ "Глава 14: Дополнительные древние и исторические письмена". Стандарт Unicode, версия 15.0 (PDF) . Маунтин-Вью, Калифорния: Unicode, Inc. Сентябрь 2022 г. ISBN 978-1-936213-32-0.
  4. ^ https://www.unicode.org/roadmaps/ Дорожные карты к Unicode
  5. ^ "UAX #24: Свойство скрипта Unicode". www.unicode.org .
  6. ^ "Системы письма мира". www.worldswritingsystems.org . Получено 2024-10-04 .

Внешние ссылки