К 1960-м годам компьютерной и телекоммуникационной промышленности в странах Первого мира стало очевидно , что необходим непатентованный метод кодирования символов. Международная организация по стандартизации (ISO) инкапсулировала латинский алфавит в свой стандарт кодировки символов 7 бит ( ISO/IEC 646 ). Чтобы добиться широкого признания, эта инкапсуляция основывалась на популярном использовании. Стандарт был основан на уже опубликованном Американском стандартном коде для обмена информацией , более известном как ASCII , который включал в набор символов 26 × 2 буквы английского алфавита . Более поздние стандарты, выпущенные ISO, например ISO/IEC 8859 (кодировка символов 8 бит) и ISO/IEC 10646 ( Unicode Latin ), продолжали определять 26 × 2 буквы английского алфавита как базовый латинский алфавит с расширениями для обработки других букв в других языках. [1]
Заглавные буквы: буквы начинаются с U+FF21 и содержат строку ПОЛНОШИРИННАЯ ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА в своих описаниях.
Строчные буквы: буквы начинаются с U+FF41 и содержат строку ПОЛНОШИРИННАЯ ЛАТИНСКАЯ СТРОЧНАЯ БУКВА в своих описаниях.
Хронология стандартов кодирования
1865 г. Международный код Морзе был стандартизирован на Международном телеграфном конгрессе в Париже, а позднее стал стандартом Международного союза электросвязи (МСЭ).
1963/1964: EBCDIC (разработан IBM и поддерживает те же алфавитные символы, что и ASCII, но с другими кодовыми значениями)
1965-04-30: Ратифицирован ECMA как ECMA-6 [5] на основе работы, проделанной Техническим комитетом ECMA TC1 с декабря 1960 года. [5]
1972: ISO 646 ( стандарт кодировки 7-битных символов ISO , использующий те же значения алфавитного кода, что и ASCII, пересмотренный во втором издании ISO 646:1983 и третьем издании ISO/IEC 646:1991 как совместный стандарт ISO/IEC )
1983: ITU-T Rec. T.51 | ISO/IEC 6937 (многобайтовое расширение ASCII)
1990: Unicode 1.0 (разработанный Консорциумом Unicode ), [6] [7] содержащийся в блоке « C0 Controls and Basic Latin » с использованием тех же буквенных кодовых значений, что и ASCII и ISO/IEC 646
Впоследствии были опубликованы другие версии Unicode, и позднее он также стал совместным стандартом ISO/IEC , как указано ниже.
1993: ISO/IEC 10646-1 :1993, стандарт ISO/IEC для символов в Unicode 1.1
Впоследствии были опубликованы другие версии ISO/IEC 10646-1 и одна из версий ISO/IEC 10646-2. С 2003 года стандарты публикуются под названием «ISO/IEC 10646» без разделения на две части.
Известные упущения из-за этих правил включают испанский , эсперанто , филиппинский и немецкий . Немецкий алфавит иногда традиционно считается содержащим только 26 букв (при этом ⟨ä⟩ , ⟨ö⟩ , ⟨ü⟩ считаются вариантами, а ⟨ß⟩ считается лигатурой ⟨ſ⟩ ( длинное s ) и ⟨s⟩ ), но текущие немецкие орфографические правила включают ⟨ä⟩ , ⟨ö⟩ , ⟨ü⟩ , ⟨ß⟩ в алфавите, помещённом после ⟨Z⟩ . В испанской орфографии буквы ⟨n⟩ и ⟨ñ⟩ различны; тильда в этом случае не считается диакритическим знаком.
* Искусственные языки
Английский язык — один из немногих современных европейских языков, не требующих диакритических знаков для родных слов (хотя некоторые американские издатели используют диарезис в таких словах, как « coöperation »). [c] [9]
Интерлингва , искусственный язык, никогда не использует диакритические знаки, за исключением неассимилированных заимствованных слов. Однако их можно удалить, если они не используются для изменения гласной (например, cafe , от французского : café ). [10]
Малайский и индонезийский (основанный на малайском) используют весь латинский алфавит и не требуют диакритических знаков и лигатур. Однако в учебных материалах по малайскому и индонезийскому языкам может использоваться ⟨é⟩ (E с острым ударением) для пояснения произношения буквы E; в этом случае ⟨e⟩ произносится как /ə/, в то время как ⟨é⟩ произносится как /e/, а (è) произносится как /ɛ/. Многие из более чем 700 языков Индонезии также используют индонезийский алфавит для записи своих языков, некоторые — например, яванский — добавляют диакритические знаки é и è, а некоторые опускают q, x и z.
Обычно коса пишется без диакритических знаков, но при желании можно использовать диакритические знаки над ⟨a, e, i, o, u⟩ для обозначения тонов: ⟨à, á, â, ä⟩ .
Нумерация столбцов
Для нумерации столбцов в таблице или диаграмме обычно используется римский (латинский) алфавит. Это позволяет избежать путаницы с номерами строк, использующими арабские цифры . Например, таблица 3 на 3 будет содержать столбцы A, B и C, расположенные напротив строк 1, 2 и 3. Если требуется больше столбцов после Z (обычно это последняя буква алфавита), столбец сразу после Z будет AA, за ним следует AB и т. д. (см. биективную систему счисления с основанием 26 ). Это можно увидеть, прокрутив страницу вправо в программе для работы с электронными таблицами, такой как Microsoft Excel или LibreOffice Calc .
Это двузначные «буквы» для столбцов таблицы, так же как числа от 10 до 99 являются двузначными числами. Греческий алфавит имеет похожую расширенную форму, которая использует такие двузначные буквы при необходимости, но она используется для глав братства, а не столбцов таблицы.
Двузначные буквы для пунктов списка — AA, BB, CC и т. д., в отличие от описанной выше системы позиционных значений для столбцов таблицы.
^ Традиционно считается, что итальянский алфавит состоит всего из 21 буквы, не считая j , k , w , x , y . Однако на практике эти буквы встречаются в ряде заимствованных слов. J также встречается в некоторых исконно итальянских именах собственных как вариант написания полугласного i .
^ Примечание для португальского языка: k и y (но не w ) были частью алфавита до нескольких реформ правописания в 20 веке, целью которых было изменить этимологическое португальское написание на более простое фонетическое. Эти буквы были заменены другими буквами с тем же звучанием: так, psychology стало psicologia , kioske стало quiosque , martyr стало mártir и т. д. В настоящее время k , w , и y встречаются только в иностранных словах и их производных терминах и в научных сокращениях (например, km , byronismo ). Эти буквы снова считаются частью алфавита после Соглашения об орфографии португальского языка 1990 года , которое вступило в силу 1 января 2009 года в Бразилии. См. Реформы португальской орфографии .
^ В качестве примера статьи, содержащей диэрезис в "coöperate", а также ударения в заимствованных словах в английском языке, таких как седиль в "façades" и циркумфлекс в слове "crêpe", см. Графтон, Энтони (23 октября 2006 г.). "Книги: The Nutty Professors, The history of academic charisma". The New Yorker .
Ссылки
^ abc "Internationalisation standardization of 7-bit codes, ISO 646". Ассоциация трансъевропейских исследовательских и образовательных сетей (TERENA) . Получено 3 октября 2010 г.
^ "C0 Controls and Basic Latin" (PDF) . Unicode.org . Получено 8 августа 2016 г. .
^ "Формы половинной и полной ширины" (PDF) . Unicode.org . Получено 8 августа 2016 г. .
^ "The Postal History of ICAO". www.icao.int . Архивировано из оригинала 12 февраля 2019 г. Получено 17 февраля 2019 г.
^ ab Standard ECMA-6: 7-Bit Coded Character Set (PDF) (5-е изд.). Женева, Швейцария: Европейская ассоциация производителей компьютеров (Ecma). Март 1985 г. Архивировано из оригинала (PDF) 29 мая 2016 г. . Получено 29 мая 2016 г. Технический комитет TC1 ECMA впервые собрался в декабре 1960 г. для подготовки стандартных кодов для целей ввода/вывода. 30 апреля 1965 г. Стандарт ECMA-6 был принят Генеральной ассамблеей ECMA.
^ "База данных символов Unicode". Стандарт Unicode . Получено 22 марта 2013 г.
↑ Стандарт Unicode, версия 1.0, том 1. Addison-Wesley Publishing Company, Inc. 1990. ISBN0-201-56788-1.
↑ Не «буквы», по: Ager, Simon . «Latino sine Flexione». Omniglot . Latino sine Flexione alphabet . Получено 14 апреля 2023 г.
^ "Странный знак New Yorker — диэрезис". 16 декабря 2010 г. Архивировано из оригинала 16 декабря 2010 г.
^ "Введение в СВУ (на английском)". www.interlingua.com . Получено 21 сентября 2020 г. .