stringtranslate.com

ИСО/МЭК 8859-1

ISO/IEC 8859-1:1998 , Информационные технологии — 8-битные однобайтовые кодированные графические наборы символов — Часть 1: Латинский алфавит № 1 , является частью серии ISO/IEC 8859 стандартных кодировок символов на основе ASCII , первое издание опубликовано в 1987 году. ISO/IEC 8859-1 кодирует то, что он называет « латинским алфавитом № 1 », состоящим из 191 символа латинского алфавита . Эта схема кодировки символов используется по всей Америке , Западной Европе , Океании и большей части Африки . Она является основой для некоторых популярных 8-битных наборов символов и первых двух блоков символов в Unicode .

По состоянию на июль 2024 года 1,2% всех веб-сайтов используют ISO/IEC 8859-1 . [1] [2] Это наиболее заявленная однобайтовая кодировка символов, но поскольку веб-браузеры и стандарт HTML5 [3] интерпретируют их как надмножество Windows-1252 , эти документы могут включать символы из этого набора. В зависимости от страны или языка использование веб-сайта может быть выше среднего мирового показателя: в Бразилии оно составляет 3,4%, [4] а в Германии — 2,7%. [5] [6]

ISO-8859-1 был (согласно стандарту, по крайней мере) кодировкой по умолчанию для документов, доставляемых по HTTP с типом MIME , начинающимся с text/, кодировкой по умолчанию для значений определенных описательных заголовков HTTP и определял набор символов, разрешенных в документах HTML  3.2. Он указан многими другими стандартами. [ нужен пример ] На практике надмножественная кодировка Windows-1252 является более вероятной эффективной кодировкой по умолчанию [7] и все чаще стандарты (по крайней мере неофициально) [ требуется разъяснение ] используют по умолчанию UTF-8 .

ISO-8859-1 — это предпочитаемое IANA название для этого стандарта, дополненное управляющими кодами C0 и C1 из ISO/IEC 6429. Зарегистрированы следующие другие псевдонимы: iso-ir-100 , csISOLatin1 , latin1 , l1 , IBM819 , Кодовая страница 28591 , также известная как Windows-28591, используется для него в Windows. [8] IBM называет его кодовой страницей 819 или CP819 ( CCSID  819 ). [9] [10] [11] [12] Oracle называет его WE8ISO8859P1 . [13]

Покрытие

Каждый символ кодируется как одно восьмибитное кодовое значение. Эти кодовые значения могут использоваться практически в любой системе обмена данными для общения на следующих языках (хотя это может исключать правильные кавычки , например, для многих языков, включая немецкий и исландский ):

Современные языки с полным охватом

Примечания
  1. ^ Базовая классическая орфография
  2. ^ Письмо Руми
  3. ^ Букмол и нюнорск
  4. ^ Европейские и бразильские

Языки с неполным покрытием

ISO-8859-1 обычно использовался [ требуется ссылка ] для некоторых языков, даже несмотря на то, что в нем отсутствуют символы, используемые этими языками. В большинстве случаев отсутствуют только несколько букв или они используются редко, и их можно заменить символами, которые есть в ISO-8859-1, используя некоторую форму типографской аппроксимации . В следующей таблице перечислены такие языки.

Буква ÿ , которая встречается во французском языке очень редко, в основном в названиях городов, таких как L'Haÿ-les-Roses, и никогда не встречается в начале слов, включается только в строчной форме. Место, соответствующее ее заглавной форме, занимает строчная буква ß из немецкого языка, в котором на момент создания стандарта не было заглавной формы .

Кавычки

Для некоторых языков, перечисленных выше, отсутствуют правильные типографские кавычки« » , так как включены только , " ", и ' '. Кроме того, эта схема не предусматривает ориентированные (6- или 9-образные) одинарные или двойные кавычки. Некоторые шрифты будут отображать пробельный гравис (0x60) и апостроф (0x27) как соответствующую пару ориентированных одинарных кавычек (см. Кавычки § Пишущие машинки и ранние компьютеры ), но это не считается частью современного стандарта.

Надстрочные цифры

Только 3 надстрочные цифры были закодированы: ²в 0xB2 ³, в 0xB3 и ¹в 0xB9, без цифры 0 и цифр 4–9. Кроме того, ни одна из подстрочных цифр не была закодирована. Обходным путем было бы использование форматирования расширенного текста для цифр, не охваченных этим стандартом.

История

ISO 8859-1 был основан на наборе многонациональных символов (MCS), который использовался Digital Equipment Corporation (DEC) в популярном терминале VT220 в 1983 году. Он был разработан в Европейской ассоциации производителей компьютеров (ECMA) и опубликован в марте 1985 года как ECMA-94 [14] , под этим названием он иногда известен и по сей день. Второе издание ECMA-94 (июнь 1986 года) [15] также включало ISO 8859-2 , ISO 8859-3 и ISO 8859-4 как часть спецификации.

Первоначальный проект ISO 8859-1 поместил французские Œ и œ в кодовые точки 215 (0xD7) и 247 (0xF7), как в MCS. Однако делегат из Франции, не будучи ни лингвистом, ни типографом, ложно заявил, что это не независимые французские буквы сами по себе, а просто лигатуры (вроде fi или fl ), что было поддержано делегатской командой из Bull Publishing Company, которая в то время регулярно не печатала французский язык с Œ/œ в своем фирменном стиле. Англоязычный делегат из Канады настоял на сохранении Œ/œ, но получил отказ от французского делегата и команды из Bull. Эти кодовые точки вскоре были заполнены × и ÷ по предложению немецкой делегации. Поддержка французского языка еще больше сократилась, когда было снова ложно заявлено, что буква ÿ «не французская», что привело к отсутствию заглавной Ÿ . Фактически, буква ÿ встречается в ряде французских имен собственных, а заглавная буква использовалась в словарях и энциклопедиях. [16] Эти символы были добавлены в ISO/IEC 8859-15:1999 . BraSCII соответствует оригинальному проекту.

В 1985 году Commodore приняла ECMA-94 для своей новой операционной системы AmigaOS . [17] Матричный принтер Seikosha MP-1300AI, используемый с Amiga 1000, включал эту кодировку. [ необходима цитата ]

В 1990 году первая версия Unicode использовала кодовые точки ISO-8859-1 в качестве первых 256 кодовых точек Unicode.

В 1992 году IANA зарегистрировала таблицу символов ISO_8859-1:1987 , более известную по ее предпочтительному имени MIME ISO-8859-1 (обратите внимание на дополнительный дефис над ISO 8859-1), надмножество ISO 8859-1, для использования в Интернете . Эта карта назначает управляющие коды C0 и C1 неназначенным кодовым значениям, таким образом, обеспечивая 256 символов через каждое возможное 8-битное значение.

Макет кодовой страницы

Похожие наборы символов

ИСО/МЭК 8859-15

ISO/IEC 8859-15 был разработан в 1999 году как обновление ISO/IEC 8859-1. Он предоставляет некоторые символы для французского и финского текста и знак евро , которые отсутствуют в ISO/IEC 8859-1. Это потребовало удаления некоторых редко используемых символов из ISO/IEC 8859-1, включая символы дробей и диакритические знаки без букв: ¤, ¦, ¨, ´, ¸, ¼, ½, и ¾. По иронии судьбы, три из недавно добавленных символов ( Œ, œ, и Ÿ) уже присутствовали в наборе многонациональных символов (MCS) DEC 1983 года , предшественнике ISO/IEC 8859-1 (1987). Поскольку их исходные кодовые точки теперь использовались повторно для других целей, символы пришлось ввести заново под другими, менее логичными кодовыми точками.

ISO-IR-204, более незначительная модификация (называемая кодовой страницей 61235 в FreeDOS), [18] была зарегистрирована в 1998 году, изменяя ISO-8859-1 путем замены универсального знака валюты (¤) на знак евро [19] (та же замена, что и в ISO-8859-15).

Windows-1252

Популярный набор символов Windows-1252 добавляет все недостающие символы, предусмотренные ISO/IEC 8859-15 , а также ряд типографских символов, заменяя редко используемые элементы управления C1 в диапазоне от 128 до 159 ( шестнадцатеричные от 80 до 9F). Очень часто текст Windows-1252 ошибочно маркируют как текст в ISO-8859-1. Обычным результатом было то, что все кавычки и апострофы (созданными «умными кавычками» в программном обеспечении для обработки текстов) были заменены вопросительными знаками или квадратиками в операционных системах, отличных от Windows, что затрудняло чтение текста. Многие веб-браузеры и почтовые клиенты будут интерпретировать управляющие коды ISO-8859-1 как символы Windows-1252, и это поведение было позже стандартизировано в HTML5 . [20]

Мак Роман

Компьютер Apple Macintosh представил кодировку символов под названием Mac Roman в 1984 году. Она была предназначена для использования в западноевропейских настольных издательских системах . Это надмножество ASCII, в котором содержится большинство символов, входящих в ISO-8859-1, и все дополнительные символы из Windows-1252, но в совершенно ином расположении. Несколько печатных символов, входящих в ISO/IEC 8859-1, но не входящих в этот набор, часто являются источником проблем при редактировании текста на веб-сайтах с использованием старых браузеров Macintosh, включая последнюю версию Internet Explorer для Mac .

Другой

В DOS есть кодовая страница 850 , в которой есть все печатные символы, имеющиеся в ISO-8859-1, хотя и в совершенно ином расположении, а также наиболее широко используемые графические символы из кодовой страницы 437 .

В период с 1989 [21] по 2015 год компания Hewlett-Packard использовала другой надмножество ISO-8859-1 на многих своих калькуляторах. Этот фирменный набор символов иногда также назывался просто «ECMA-94». [21] У HP также есть кодовая страница 1053 , которая добавляет средний оттенок (▒, U+2592) в 0x7F. [22]

Несколько кодовых страниц EBCDIC были специально разработаны так, чтобы иметь тот же набор символов, что и ISO-8859-1, чтобы обеспечить простоту преобразования между ними.

Смотрите также

Ссылки

  1. ^ "Исторические тенденции в статистике использования кодировок символов для веб-сайтов, июль 2024 г.". W3Techs . Архивировано из оригинала 4 апреля 2024 г. Получено 2024-07-19 .
  2. ^ Коуэн, Джон; Солтано, Сэм (август 2014 г.). «Источник статистики кодирования символов?». W3Techs . Архивировано из оригинала 4 апреля 2024 г.
  3. ^ "Encoding". WHATWG . 27 января 2015 г., раздел 5.2 Имена и метки. Архивировано из оригинала 4 февраля 2015 г. Получено 4 февраля 2015 г.
  4. ^ "Распределение кодировок символов среди веб-сайтов, использующих Бразилию". W3Techs . Архивировано из оригинала 4 апреля 2024 г. Получено 2024-07-19 .
  5. ^ "Распределение кодировок символов среди веб-сайтов, использующих .de". W3Techs . Архивировано из оригинала 4 апреля 2024 года . Получено 2024-07-19 .
  6. ^ "Распределение кодировок символов среди веб-сайтов, использующих немецкий язык". W3Techs . Архивировано из оригинала 4 апреля 2024 г. Получено 2023-01-16 .
  7. ^ "c++ - Какова собственная узкая строковая кодировка в Windows?". Stack Overflow . Январь 2011 г. Получено 16.02.2023 .
  8. ^ "Идентификаторы кодовых страниц". Microsoft Corporation . Получено 2010-12-19 .
  9. ^ "Информационный документ о кодовой странице 819". Архивировано из оригинала 2017-01-16.
  10. ^ "Информационный документ CCSID 819". Архивировано из оригинала 27.03.2016.
  11. ^ Кодовая страница CPGID 00819 (pdf) (PDF) , IBM
  12. ^ Кодовая страница CPGID 00819 (txt), IBM
  13. ^ Бэрд, Кэти; Чиба, Дэн; Чу, Уинсон; Фань, Джессика; Хо, Клэр; Лоу, Саймон; Ли, Джефф; Линсли, Питер; Мацуда, Кени; Оскрофт, Тамзин; Такеда, Шиге; Танака, Линус; Тозава, Макото; Трут, Барри; Цудзимото, Маюми; Ву, Ин; Яу, Майкл; Ю, Тим; Ван, Чао; Вонг, Саймон; Чжан, Вейран; Чжэн, Лэй; Чжу, Янь; Мур, Валери (2002) [1996]. "Приложение A: Данные о локали". Руководство по поддержке глобализации баз данных Oracle9i (PDF) (выпуск 2 (9.2) ред.). Корпорация Oracle . Oracle A96529-01. Архивировано (PDF) из оригинала 2017-02-14 . Получено 14.02.2017 .
  14. ^ ab Стандарт ECMA-94: 8-битный однобайтовый кодированный графический набор символов (PDF) (1-е изд.). Европейская ассоциация производителей компьютеров (ECMA). Март 1985 г. [1984-12-14]. Архивировано (PDF) из оригинала 2016-12-02 . Получено 2016-12-01 . […] С 1982 года в ECMA, а также в ANSI/X3L2 была признана срочность необходимости в 8-битном однобайтовом кодированном наборе символов, и между двумя группами состоялся обмен многочисленными рабочими документами. В феврале 1984 года ECMA TC1 представил в ISO/TC97/SC2 предложение о таком кодированном наборе символов. На своем заседании в апреле 1984 года SC решил представить в TC97 предложение о новом пункте работы по этой теме. Технические обсуждения во время и после этой встречи привели к тому, что TC1 принял схему кодирования, предложенную X3L2. Часть 1 проекта международного стандарта DTS 8859 основана на этом совместном предложении ANSI/ECMA. […] Принят в качестве стандарта ECMA Генеральной Ассамблеей 13–14 декабря 1984 г. […]
  15. ^ "Второе издание ECMA-94 (июнь 1986 г.)" (PDF) .
  16. ^ Андре, Жак (1996). «ISO Latin-1, норма кодировки европейских символов? Трое французских символов в отсутствии!» (PDF) . Cahiers GUTenberg (на французском языке) (25): 65–77. дои : 10.5802/cg.205.
  17. ^ Малышев, Михаил (2003-01-10). "Регистрация новой кодировки [Amiga-1251]". ATO-RU (Организация переводов Amiga - Русский отдел). Архивировано из оригинала 2016-12-05 . Получено 2016-12-05 .
  18. ^ "Cpi/CPIISO/Codepage.TXT в главном · FDOS/Cpi". GitHub .
  19. ^ ITS Information Technology Standardization (1998-09-16). Дополнительный набор для альтернативы Latin-1 со знаком EURO (PDF) . ITSCJ/ IPSJ . ISO-IR -204.
  20. ^ van Kesteren, Anne (27 января 2015 г.). "5.2 Имена и метки". Стандарт кодирования . WHATWG . Архивировано из оригинала 4 февраля 2015 г. Получено 4 февраля 2015 г.
  21. ^ ab HP 82240B Infrared Printer (1-е изд.). Корваллис, штат Орегон, США: Hewlett-Packard . Август 1989 г. Номер повторного заказа HP 82240-90014.
  22. ^ "Кодовая страница 1053" (PDF) . Архивировано из оригинала (PDF) 2013-01-21.

Внешние ссылки