stringtranslate.com

Общая пунктуация

Общая пунктуация — это блок Unicode , содержащий знаки препинания , пробелы и символы форматирования для использования со всеми скриптами и системами письма. Включены пробелы определенной ширины , форматы соединения, направленные форматы, умные кавычки , архаичные и новые знаки препинания, такие как интерробанг , и невидимые математические операторы.

Дополнительные знаки пунктуации находятся в блоке дополнительных знаков пунктуации и разбросаны по десяткам других блоков Unicode.

Блокировать

Несколько символов в этом блоке обычно не отображаются с помощью непосредственно видимого глифа. Десять пробельных символов U+2002 по U+200B (фиксированный en или 1⁄2 em , em , 1⁄3 em , 1⁄4 em , 1⁄6 em , пробел между цифрами и знаками препинания , переменный тонкий или 1⁄5 em и пробел для волос , фиксированный пробел нулевой ширины ) и U+205F ( математический средний или пробел 2⁄9 em ) отличаются горизонтальной шириной, в то время как U+2000 и U+2001 ( en и em quad ) фактически являются псевдонимами U+2002 и U+2003 соответственно; еще два, U+202F и U+2060 (неправильно названный word joiner ) являются вариантами U+2009 или U+2004 и U+200B, которые запрещают переносы строк. Три символа нулевой ширины U+200B — U+200D ( пробел, несоединитель и соединитель ) различаются тем, как они влияют на лигирование и формирование смежных букв, таких как контекстные формы в арабском языке. Одиннадцать невидимых символов U+200E, U+200F ( знак слева направо и справа налево ), U+202A — U+202E ( встраивает, выталкивает и переопределяет ) и U+2066 — U+2069 ( изолирует ) управляют направлением текста, если только разметка более высокого уровня не переопределяет их. Существуют явные разделители строк и абзацев в U+2028 и U+2029.

Селекторы вариаций

Начиная с Unicode 16 (2024), блок имеет последовательности вариаций , определенные для восточноазиатских позиционных вариантов пунктуации фигурных кавычек '...' и "...". Они используют U+FE00 VARIATION SELECTOR-1 (VS01) и U+FE01 VARIATION SELECTOR-2 (VS02): [3]

Ожидается, что неполноширинные формы будут разделены пробелом с одной стороны, полноширинные формы — нет:

Красные углы регистрации отмечают метрики глифа и показывают, как глиф выравнивается в пространстве, отведенном для символа. Для отображения переменной ширины (слева) ожидается смежный пробел; для отображения CJK полной ширины (справа) пробел не нужен.

В вертикальном тексте полноширинные формы должны отображаться несколько иначе и даже как обычные кавычки CJK「...」 и 『...』, если свойство вертикальной ориентации установлено на «Hans»:

Поведение CJK общих кавычек в горизонтальном и вертикальном тексте при добавлении селектора вариантов VS02. Горизонтальный столбец слева — это столбец VS2 предыдущей таблицы.

Эмодзи

Блок общей пунктуации содержит два эмодзи : U+203C и U+2049. [4] [5]

Блок имеет четыре стандартизированных варианта, определенных для указания стиля эмодзи (U+FE0F VS16) или текстового представления (U+FE0E VS15) для двух эмодзи, оба из которых по умолчанию имеют текстовое представление. [6]

История

В следующих документах, связанных с Unicode, описаны цель и процесс определения конкретных символов в блоке общей пунктуации:

Ссылки

  1. ^ "База данных символов Unicode". Стандарт Unicode . Получено 2023-07-26 .
  2. ^ "Перечисленные версии стандарта Unicode". Стандарт Unicode . Получено 2023-07-26 .
  3. ^ Лунде, Кен (14.10.2023). «L2/23-212R: Предложение добавить стандартизированные последовательности вариаций для четырех кавычек» (PDF) .
  4. ^ "UTR #51: Unicode Emoji". Консорциум Unicode. 2023-09-05.
  5. ^ "UCD: Данные эмодзи для UTR #51". Консорциум Unicode. 2023-02-01.
  6. ^ "UTS #51 Последовательности вариаций эмодзи". Консорциум Unicode.