Единицы информации

В цифровых вычислениях и телекоммуникациях единицей информации является емкость некоторой стандартной системы хранения данных или канала связи , используемая для измерения пропускной способности других систем и каналов. В теории информации единицы информации также используются для измерения информации, содержащейся в сообщениях, и энтропии случайных величин.

Наиболее часто используемыми единицами емкости хранения данных являются бит — емкость системы, имеющей только два состояния, и байт ( или октет ), который эквивалентен восьми битам. Из них можно образовать кратные этим единицам с помощью префиксов SI (префиксы степени десяти) или более новых двоичных префиксов IEC (префиксы степени двойки).

Первичные единицы

В 1928 году Ральф Хартли обнаружил фундаментальный принцип хранения ^{[1] , который}был дополнительно формализован Клодом Шенноном в 1945 году: информация, которая может храниться в системе, пропорциональна логарифму N возможных состояний этой системы, обозначенному log _b N. . Изменение основания логарифма с b на другое число c приводит к умножению значения логарифма на фиксированную константу, а именно log _c N = (log _c b ) log _b N . Следовательно, выбор базы b определяет единицу измерения информации. В частности, если b — целое положительное число, то единицей измерения является количество информации, которое может храниться в системе с b возможными состояниями.

Когда b равно 2, единицей измерения является шеннон , равный информационному содержанию одного «бита» (сумма двоичной цифры ^[2] ). Например, система с 8 возможными состояниями может хранить до log ₂ 8 = 3 бит информации. Другие названные подразделения включают:

База б = 3: единица измерения называется « трит » и равна log ₂ 3 (≈ 1,585) бит. ^[3]
База б = 10: единица измерения называется десятичной цифрой , хартли , баном , децитом или дитом и равна log ₂ 10 (≈ 3,322) битам. ^[1]^[4]^[5]^[6]
Основание b = e , основание натуральных логарифмов: единица называется nat , nit или nepit (от Neperian ) и имеет размер log ₂ e (≈ 1,443) бит. ^[1]

Trit, Ban и Nat редко используются для измерения емкости хранилища; но nat, в частности, часто используется в теории информации, потому что натуральные логарифмы математически более удобны, чем логарифмы в других системах счисления.

Единицы, производные от бита

Для наборов или групп битов используются несколько условных имен.

Байт

Исторически байтом называлось количество битов, используемых для кодирования символа текста в компьютере, что зависело от аппаратной архитектуры компьютера; но сегодня это почти всегда означает восемь битов – то есть октет . Байт может представлять 256 (2 ⁸ ) различных значений, например неотрицательные целые числа от 0 до 255 или целые числа со знаком от -128 до 127. Стандарт IEEE 1541-2002 определяет «B» (верхний регистр) в качестве символа для байт ( IEC 80000-13 использует «o» для октета на французском языке, ^{[nb 1]} , но также допускает использование «B» на английском языке, что и используется на самом деле). Байты или кратные им почти всегда используются для указания размеров компьютерных файлов и емкости единиц хранения. Большинство современных компьютеров и периферийных устройств предназначены для манипулирования данными целыми байтами или группами байтов, а не отдельными битами.

Клев

Группа из четырех битов или половины байта иногда называется полубайтом , полубайтом или полубайтом. Эта единица чаще всего используется в контексте представлений шестнадцатеричных чисел, поскольку полубайт содержит тот же объем информации, что и одна шестнадцатеричная цифра. ^[7]

Крошка

Группа из двух бит или четверти байта называлась крохой ^[8] и часто использовалась в ранних 8-битных вычислениях (см. Atari 2600 , ZX Spectrum ). ^{[ нужна цитация ]} Сейчас он практически не существует.

Слово, блок и страница

Компьютеры обычно манипулируют битами группами фиксированного размера, условно называемыми словами . Количество битов в слове обычно определяется размером регистров ЦП компьютера или количеством битов данных, которые извлекаются из его основной памяти за одну операцию. В архитектуре IA-32 , более известной как x86-32, слово имеет длину 32 бита, но в других прошлых и текущих архитектурах используются слова с 4, 8, 9, 12, 13, 16, 18, 20, 21, 22, 24. , 25, 29, 30, 31, 32, 33, 35, 36, 38, 39, 40, 42, 44, 48, 50, 52, 54, 56, 60, 64, 72 [9] бит или ^другие .

В некоторых машинных инструкциях и компьютерных форматах чисел используются два слова («двойное слово» или «двойное слово») или четыре слова («четверное слово» или «четверное слово»).

Кэши компьютерной памяти обычно работают с блоками памяти, состоящими из нескольких последовательных слов. Эти единицы обычно называются блоками кэша или, в кэшах ЦП , строками кэша .

Системы виртуальной памяти разделяют основную память компьютера на еще более крупные единицы, традиционно называемые страницами .

Систематические кратные

Термины для больших количеств битов могут быть сформированы с использованием стандартного диапазона префиксов SI для степеней 10, например, кило = 10 ³ = 1000 (как в килобите или кбите), мега = 10 ⁶ = 1 000 000 (как в мегабите или кбите ). Мбит) и гига = 10 ⁹ = 1 000 000 000 (как в гигабите или Гбите). Эти префиксы чаще используются для кратных байтов, например, килобайта (1 КБ = 8000 бит), мегабайта (1 МБ = 8 000 000 бит ) и гигабайта (1 ГБ = 8 000 000 000 бит ).

Однако по техническим причинам емкость компьютерной памяти и некоторых запоминающих устройств часто кратна некоторой большой степени двойки, например 2 ²⁸ = 268 435 456 байт. Чтобы избежать таких громоздких чисел, люди часто меняли префиксы СИ, обозначая ближайшую степень двойки, например, используя префикс килограмм для 2 ¹⁰ = 1024, мега для 2 ²⁰ = 1 048 576 и гига для 2 ³⁰ = 1 073. 741 824 и так далее. Например, чип оперативной памяти емкостью 2 ²⁸ байт будет называться 256-мегабайтным чипом. Таблица ниже иллюстрирует эти различия.

Раньше буква K использовалась в верхнем регистре вместо k в нижнем регистре для обозначения 1024 вместо 1000. Однако такое использование никогда не применялось последовательно.

С другой стороны, для внешних систем хранения данных (таких как оптические диски ) префиксы SI обычно используются с десятичными значениями (степени 10). Многие попытки были направлены на устранение путаницы путем предоставления альтернативных обозначений для кратных степени двойки. В 1998 году Международная электротехническая комиссия (МЭК) выпустила стандарт для этой цели, определив серию двоичных префиксов , в которых в качестве основной системы счисления используется 1024 вместо 1000: ^[10]

В стандарте памяти JEDEC JESD88F отмечается, что определения кило (K), гига (G) и мега (M), основанные на степени двойки, включены только для отражения общего использования, но в противном случае они устарели. ^[11]

Примеры размеров

1 бит: ответ на вопрос да/нет.
1 байт: число от 0 до 255.
90 байт: достаточно для хранения типичной строки текста из книги.
512 байт = 0,5 КиБ: типичный сектор жесткого диска .
1024 байта = 1 КиБ: классический размер блока в файловых системах UNIX .
2048 байт = 2 КиБ: сектор CD-ROM.
4096 байт = 4 КиБ: страница памяти в x86 (начиная с Intel 80386 ).
4 кБ: Примерно одна страница текста из романа
120 КБ: Текст типичной карманной книжки.
1 МБ: растровое изображение размером 1024×1024 пикселей с 256 цветами (глубина цвета 8 бит на пиксель).
3 МБ: Трехминутная песня (133 кбит/с).
650–900 МБ – CD-ROM
1 ГБ: 114 минут несжатого звука CD-качества со скоростью 1,4 Мбит/с.
32/64/128 ГБ: три распространенных размера USB-накопителей.
6 ТБ: размер жесткого диска стоимостью 100 долларов (по состоянию на начало 2022 г.).
20 ТБ: самый большой жесткий диск (на начало 2022 г.).
100 ТБ: самый большой коммерчески доступный твердотельный накопитель (по состоянию на начало 2022 г.).
200 ТБ: самый большой твердотельный накопитель (прогноз на середину 2022 г.)
1.3 ЗБ: Прогноз объема всего Интернета в 2016 году

Устаревшие и необычные агрегаты

Названы еще несколько единиц хранения информации:

1 бит: унибит, ^[12]^[13] нюх ^{[ нужна ссылка ]}
2 бита: дибит, ^[14]^[15]^{[12] [}^16] крошка, ^[8] четвертая цифра, ^[17] четверка, четверть, вкус, тайсте, лакомый кусочек, вкусный кусочек, лизнуть, лизнуть, полуоткусить, фыркнуть, нет ^[18]
3 бита: трибит, ^[14]^[15]^[12] триада, ^[19] триада, ^[20]^[21] триббл
4 бита: символ (в Intel 4004 ^[22] – однако на других процессорах символы обычно имеют ширину 8 бит или больше), для других см. полубайт .
5 бит: пентада, пентада, ^[23] никель, никель ^{[ нужна ссылка ]}
6 бит: байт (в ранних машинах IBM , использующих буквенные символы BCD ), шестнадцатеричный, шестнадцатеричный, ^[23]^[24] секстет ^[19]
7 бит: гептада, гептада ^[23]
8 бит: октет , обычно также называемый байтом.
9 бит: nonet, ^[25] используется редко
10 бит: деклет, ^[26]^[27]^[28]^[29] декле, ^[30] декле, дайм ^{[ нужна ссылка ]}
12 бит: плита ^[31]^[32]^[33]
15 бит: посылка (в CDC 6600 и CDC 7600 )
16 бит: дублет, ^[34] wyde, ^[3]^[35] посылка (на Cray-1 ), тарелка, playte, chomp, chawmp (на 32-битной машине) ^[36]
18 бит: чавкать, чавпать (на 36-битной машине) ^[36]
32 бита: четверка, ^[34]^[37]^[38] тетра, ^[^35] ужин, ужин, болтовня (на 32-битной ^машине⁾
48 бит: глотать, болтать (при обстоятельствах, которые ^{остаются}^{неясными )}
64 бита: октлет, ^[34] окта ^[35]
96 бит: bentobox (в ОС ITRON )
128 бит: гекслет ^[34]^[39]
16 байт: абзац (на процессорах Intel x86 ) ^[40]^[41]
256 байт: страница (на процессорах Intel 4004, ^[22] 8080 и 8086, ^[40] также на многих других 8-битных процессорах — обычно намного больше на многих 16-битных/32-битных процессорах)
6 тритов : трит ^[42]
комбит, комслово ^[43]^[44]^[45]

Некоторые из этих названий являются жаргонными , устаревшими или используются только в очень ограниченном контексте.

Смотрите также

Метрический префикс
Размер файла
ISO 80000-13 (Величины и единицы. Часть 13. Информатика и технологии)

Примечания

^ Однако аббревиатуру «o» IEC 80000-13 для октетов можно спутать с постфиксом «o», обозначающим восьмеричные числа в соглашении Intel .

Внешние ссылки

Представление числовых значений и единиц СИ в строках символов для обмена информацией.
Битовый калькулятор – производит преобразования между битами, байтами, килобитами, килобайтами, мегабитами, мегабайтами, гигабитами, гигабайтами, терабитами, терабайтами, петабитами, петабайтами, эксабитами, эксабайтами, зеттабитами, зеттабайтами, йоттабитами, йоттабайтами.
Документ о стандартизированных единицах измерения для использования в информационных технологиях
Конвертер байтов данных
Высокоточные преобразователи единиц измерения