ISO/IEC 8859-1:1998 , Информационные технологии — 8-битные однобайтовые кодированные графические наборы символов — Часть 1: Латинский алфавит № 1 , является частью серии ISO/IEC 8859 стандартных кодировок символов на основе ASCII , первое издание опубликовано в 1987 году. ISO/IEC 8859-1 кодирует то, что он называет « латинским алфавитом № 1 », состоящим из 191 символа латинского алфавита . Эта схема кодировки символов используется по всей Америке , Западной Европе , Океании и большей части Африки . Она является основой для некоторых популярных 8-битных наборов символов и первых двух блоков символов в Unicode .
По состоянию на июль 2024 года [обновлять]1,2% всех веб-сайтов используют ISO/IEC 8859-1 . [1] [2] Это наиболее заявленная однобайтовая кодировка символов, но поскольку веб-браузеры и стандарт HTML5 [3] интерпретируют их как надмножество Windows-1252 , эти документы могут включать символы из этого набора. В зависимости от страны или языка использование веб-сайта может быть выше среднего мирового показателя: в Бразилии оно составляет 3,4%, [4] а в Германии — 2,7%. [5] [6]
ISO-8859-1 был (согласно стандарту, по крайней мере) кодировкой по умолчанию для документов, доставляемых по HTTP с типом MIME , начинающимся с text/
, кодировкой по умолчанию для значений определенных описательных заголовков HTTP и определял набор символов, разрешенных в документах HTML 3.2. Он указан многими другими стандартами. [ нужен пример ] На практике надмножественная кодировка Windows-1252 является более вероятной эффективной кодировкой по умолчанию [7] и все чаще стандарты (по крайней мере неофициально) [ требуется разъяснение ] используют по умолчанию UTF-8 .
ISO-8859-1 — это предпочитаемое IANA название для этого стандарта, дополненное управляющими кодами C0 и C1 из ISO/IEC 6429. Зарегистрированы следующие другие псевдонимы: iso-ir-100 , csISOLatin1 , latin1 , l1 , IBM819 , Кодовая страница 28591 , также известная как Windows-28591, используется для него в Windows. [8] IBM называет его кодовой страницей 819 или CP819 ( CCSID 819 ). [9] [10] [11] [12] Oracle называет его WE8ISO8859P1 . [13]
Каждый символ кодируется как одно восьмибитное кодовое значение. Эти кодовые значения могут использоваться практически в любой системе обмена данными для общения на следующих языках (хотя это может исключать правильные кавычки , например, для многих языков, включая немецкий и исландский ):
ISO-8859-1 обычно использовался [ требуется ссылка ] для некоторых языков, даже несмотря на то, что в нем отсутствуют символы, используемые этими языками. В большинстве случаев отсутствуют только несколько букв или они используются редко, и их можно заменить символами, которые есть в ISO-8859-1, используя некоторую форму типографской аппроксимации . В следующей таблице перечислены такие языки.
Буква ÿ , которая встречается во французском языке очень редко, в основном в названиях городов, таких как L'Haÿ-les-Roses, и никогда не встречается в начале слов, включается только в строчной форме. Место, соответствующее ее заглавной форме, занимает строчная буква ß из немецкого языка, в котором на момент создания стандарта не было заглавной формы .
Для некоторых языков, перечисленных выше, отсутствуют правильные типографские кавычки« »
, так как включены только , " "
, и ' '
. Кроме того, эта схема не предусматривает ориентированные (6- или 9-образные) одинарные или двойные кавычки. Некоторые шрифты будут отображать пробельный гравис (0x60) и апостроф (0x27) как соответствующую пару ориентированных одинарных кавычек (см. Кавычки § Пишущие машинки и ранние компьютеры ), но это не считается частью современного стандарта.
Только 3 надстрочные цифры были закодированы: ²
в 0xB2 ³
, в 0xB3 и ¹
в 0xB9, без цифры 0 и цифр 4–9. Кроме того, ни одна из подстрочных цифр не была закодирована. Обходным путем было бы использование форматирования расширенного текста для цифр, не охваченных этим стандартом.
ISO 8859-1 был основан на наборе многонациональных символов (MCS), который использовался Digital Equipment Corporation (DEC) в популярном терминале VT220 в 1983 году. Он был разработан в Европейской ассоциации производителей компьютеров (ECMA) и опубликован в марте 1985 года как ECMA-94 [14] , под этим названием он иногда известен и по сей день. Второе издание ECMA-94 (июнь 1986 года) [15] также включало ISO 8859-2 , ISO 8859-3 и ISO 8859-4 как часть спецификации.
Первоначальный проект ISO 8859-1 поместил французские Œ и œ в кодовые точки 215 (0xD7) и 247 (0xF7), как в MCS. Однако делегат из Франции, не будучи ни лингвистом, ни типографом, ложно заявил, что это не независимые французские буквы сами по себе, а просто лигатуры (вроде fi или fl ), что было поддержано делегатской командой из Bull Publishing Company, которая в то время регулярно не печатала французский язык с Œ/œ в своем фирменном стиле. Англоязычный делегат из Канады настоял на сохранении Œ/œ, но получил отказ от французского делегата и команды из Bull. Эти кодовые точки вскоре были заполнены × и ÷ по предложению немецкой делегации. Поддержка французского языка еще больше сократилась, когда было снова ложно заявлено, что буква ÿ «не французская», что привело к отсутствию заглавной Ÿ . Фактически, буква ÿ встречается в ряде французских имен собственных, а заглавная буква использовалась в словарях и энциклопедиях. [16] Эти символы были добавлены в ISO/IEC 8859-15:1999 . BraSCII соответствует оригинальному проекту.
В 1985 году Commodore приняла ECMA-94 для своей новой операционной системы AmigaOS . [17] Матричный принтер Seikosha MP-1300AI, используемый с Amiga 1000, включал эту кодировку. [ необходима цитата ]
В 1990 году первая версия Unicode использовала кодовые точки ISO-8859-1 в качестве первых 256 кодовых точек Unicode.
В 1992 году IANA зарегистрировала таблицу символов ISO_8859-1:1987 , более известную по ее предпочтительному имени MIME ISO-8859-1 (обратите внимание на дополнительный дефис над ISO 8859-1), надмножество ISO 8859-1, для использования в Интернете . Эта карта назначает управляющие коды C0 и C1 неназначенным кодовым значениям, таким образом, обеспечивая 256 символов через каждое возможное 8-битное значение.
ISO/IEC 8859-15 был разработан в 1999 году как обновление ISO/IEC 8859-1. Он предоставляет некоторые символы для французского и финского текста и знак евро , которые отсутствуют в ISO/IEC 8859-1. Это потребовало удаления некоторых редко используемых символов из ISO/IEC 8859-1, включая символы дробей и диакритические знаки без букв: ¤
, ¦
, ¨
, ´
, ¸
, ¼
, ½
, и ¾
. По иронии судьбы, три из недавно добавленных символов ( Œ
, œ
, и Ÿ
) уже присутствовали в наборе многонациональных символов (MCS) DEC 1983 года , предшественнике ISO/IEC 8859-1 (1987). Поскольку их исходные кодовые точки теперь использовались повторно для других целей, символы пришлось ввести заново под другими, менее логичными кодовыми точками.
ISO-IR-204, более незначительная модификация (называемая кодовой страницей 61235 в FreeDOS), [18] была зарегистрирована в 1998 году, изменяя ISO-8859-1 путем замены универсального знака валюты (¤) на знак евро [19] (та же замена, что и в ISO-8859-15).
Популярный набор символов Windows-1252 добавляет все недостающие символы, предусмотренные ISO/IEC 8859-15 , а также ряд типографских символов, заменяя редко используемые элементы управления C1 в диапазоне от 128 до 159 ( шестнадцатеричные от 80 до 9F). Очень часто текст Windows-1252 ошибочно маркируют как текст в ISO-8859-1. Обычным результатом было то, что все кавычки и апострофы (созданными «умными кавычками» в программном обеспечении для обработки текстов) были заменены вопросительными знаками или квадратиками в операционных системах, отличных от Windows, что затрудняло чтение текста. Многие веб-браузеры и почтовые клиенты будут интерпретировать управляющие коды ISO-8859-1 как символы Windows-1252, и это поведение было позже стандартизировано в HTML5 . [20]
Компьютер Apple Macintosh представил кодировку символов под названием Mac Roman в 1984 году. Она была предназначена для использования в западноевропейских настольных издательских системах . Это надмножество ASCII, в котором содержится большинство символов, входящих в ISO-8859-1, и все дополнительные символы из Windows-1252, но в совершенно ином расположении. Несколько печатных символов, входящих в ISO/IEC 8859-1, но не входящих в этот набор, часто являются источником проблем при редактировании текста на веб-сайтах с использованием старых браузеров Macintosh, включая последнюю версию Internet Explorer для Mac .
В DOS есть кодовая страница 850 , в которой есть все печатные символы, имеющиеся в ISO-8859-1, хотя и в совершенно ином расположении, а также наиболее широко используемые графические символы из кодовой страницы 437 .
В период с 1989 [21] по 2015 год компания Hewlett-Packard использовала другой надмножество ISO-8859-1 на многих своих калькуляторах. Этот фирменный набор символов иногда также назывался просто «ECMA-94». [21] У HP также есть кодовая страница 1053 , которая добавляет средний оттенок (▒, U+2592) в 0x7F. [22]
Несколько кодовых страниц EBCDIC были специально разработаны так, чтобы иметь тот же набор символов, что и ISO-8859-1, чтобы обеспечить простоту преобразования между ними.
[…] С 1982 года в ECMA, а также в ANSI/X3L2 была признана срочность необходимости в 8-битном однобайтовом кодированном наборе символов, и между двумя группами состоялся обмен многочисленными рабочими документами. В феврале 1984 года ECMA TC1 представил в ISO/TC97/SC2 предложение о таком кодированном наборе символов. На своем заседании в апреле 1984 года SC решил представить в TC97 предложение о новом пункте работы по этой теме. Технические обсуждения во время и после этой встречи привели к тому, что TC1 принял схему кодирования, предложенную X3L2. Часть 1 проекта международного стандарта DTS 8859 основана на этом совместном предложении ANSI/ECMA. […] Принят в качестве стандарта ECMA Генеральной Ассамблеей 13–14 декабря 1984 г. […]