В цифровых вычислениях и телекоммуникациях единицей информации является емкость некоторой стандартной системы хранения данных или канала связи , используемая для измерения пропускной способности других систем и каналов. В теории информации единицы информации также используются для измерения информации, содержащейся в сообщениях, и энтропии случайных величин.
Наиболее часто используемыми единицами емкости хранения данных являются бит — емкость системы, имеющей только два состояния, и байт ( или октет ), который эквивалентен восьми битам. Из них можно образовать кратные этим единицам с помощью префиксов SI (префиксы степени десяти) или более новых двоичных префиксов IEC (префиксы степени двойки).
Первичные единицы
В 1928 году Ральф Хартли обнаружил фундаментальный принцип хранения [1] , который был дополнительно формализован Клодом Шенноном в 1945 году: информация, которая может храниться в системе, пропорциональна логарифму N возможных состояний этой системы, обозначенному log b N. . Изменение основания логарифма с b на другое число c приводит к умножению значения логарифма на фиксированную константу, а именно log c N = (log c b ) log b N . Следовательно, выбор базы b определяет единицу измерения информации. В частности, если b — целое положительное число, то единицей измерения является количество информации, которое может храниться в системе с b возможными состояниями.
Когда b равно 2, единицей измерения является шеннон , равный информационному содержанию одного «бита» (сумма двоичной цифры [2] ). Например, система с 8 возможными состояниями может хранить до log 2 8 = 3 бит информации. Другие названные подразделения включают:
База б = 3
единица измерения называется « трит » и равна log 2 3 (≈ 1,585) бит. [3]
База б = 10
единица измерения называется десятичной цифрой , хартли , баном , децитом или дитом и равна log 2 10 (≈ 3,322) битам. [1] [4] [5] [6]
единица называется nat , nit или nepit (от Neperian ) и имеет размер log 2 e (≈ 1,443) бит. [1]
Trit, Ban и Nat редко используются для измерения емкости хранилища; но nat, в частности, часто используется в теории информации, потому что натуральные логарифмы математически более удобны, чем логарифмы в других системах счисления.
Единицы, производные от бита
Для наборов или групп битов используются несколько условных имен.
Байт
Исторически байтом называлось количество битов, используемых для кодирования символа текста в компьютере, что зависело от аппаратной архитектуры компьютера; но сегодня это почти всегда означает восемь битов – то есть октет . Байт может представлять 256 (2 8 ) различных значений, например неотрицательные целые числа от 0 до 255 или целые числа со знаком от -128 до 127. Стандарт IEEE 1541-2002 определяет «B» (верхний регистр) в качестве символа для байт ( IEC 80000-13 использует «o» для октета на французском языке, [nb 1] , но также допускает использование «B» на английском языке, что и используется на самом деле). Байты или кратные им почти всегда используются для указания размеров компьютерных файлов и емкости единиц хранения. Большинство современных компьютеров и периферийных устройств предназначены для манипулирования данными целыми байтами или группами байтов, а не отдельными битами.
Клев
Группа из четырех битов или половины байта иногда называется полубайтом , полубайтом или полубайтом. Эта единица чаще всего используется в контексте представлений шестнадцатеричных чисел, поскольку полубайт содержит тот же объем информации, что и одна шестнадцатеричная цифра. [7]
Крошка
Группа из двух бит или четверти байта называлась крохой [8] и часто использовалась в ранних 8-битных вычислениях (см. Atari 2600 , ZX Spectrum ). [ нужна цитация ] Сейчас он практически не существует.
Слово, блок и страница
Компьютеры обычно манипулируют битами группами фиксированного размера, условно называемыми словами . Количество битов в слове обычно определяется размером регистров ЦП компьютера или количеством битов данных, которые извлекаются из его основной памяти за одну операцию. В архитектуре IA-32 , более известной как x86-32, слово имеет длину 32 бита, но в других прошлых и текущих архитектурах используются слова с 4, 8, 9, 12, 13, 16, 18, 20, 21, 22, 24. , 25, 29, 30, 31, 32, 33, 35, 36, 38, 39, 40, 42, 44, 48, 50, 52, 54, 56, 60, 64, 72 [9] бит или другие .
Кэши компьютерной памяти обычно работают с блоками памяти, состоящими из нескольких последовательных слов. Эти единицы обычно называются блоками кэша или, в кэшах ЦП , строками кэша .
Термины для больших количеств битов могут быть сформированы с использованием стандартного диапазона префиксов SI для степеней 10, например, кило = 10 3 = 1000 (как в килобите или кбите), мега = 10 6 = 1 000 000 (как в мегабите или кбите ). Мбит) и гига = 10 9 = 1 000 000 000 (как в гигабите или Гбите). Эти префиксы чаще используются для кратных байтов, например, килобайта (1 КБ = 8000 бит), мегабайта (1 МБ = 8 000 000 бит ) и гигабайта (1 ГБ = 8 000 000 000 бит ).
Однако по техническим причинам емкость компьютерной памяти и некоторых запоминающих устройств часто кратна некоторой большой степени двойки, например 2 28 = 268 435 456 байт. Чтобы избежать таких громоздких чисел, люди часто меняли префиксы СИ, обозначая ближайшую степень двойки, например, используя префикс килограмм для 2 10 = 1024, мега для 2 20 = 1 048 576 и гига для 2 30 = 1 073. 741 824 и так далее. Например, чип оперативной памяти емкостью 2 28 байт будет называться 256-мегабайтным чипом. Таблица ниже иллюстрирует эти различия.
Раньше буква K использовалась в верхнем регистре вместо k в нижнем регистре для обозначения 1024 вместо 1000. Однако такое использование никогда не применялось последовательно.
С другой стороны, для внешних систем хранения данных (таких как оптические диски ) префиксы SI обычно используются с десятичными значениями (степени 10). Многие попытки были направлены на устранение путаницы путем предоставления альтернативных обозначений для кратных степени двойки. В 1998 году Международная электротехническая комиссия (МЭК) выпустила стандарт для этой цели, определив серию двоичных префиксов , в которых в качестве основной системы счисления используется 1024 вместо 1000: [10]
В стандарте памяти JEDEC JESD88F отмечается, что определения кило (K), гига (G) и мега (M), основанные на степени двойки, включены только для отражения общего использования, но в противном случае они устарели. [11]
Примеры размеров
1 бит: ответ на вопрос да/нет.
1 байт: число от 0 до 255.
90 байт: достаточно для хранения типичной строки текста из книги.
256 байт: страница (на процессорах Intel 4004, [22] 8080 и 8086, [40] также на многих других 8-битных процессорах — обычно намного больше на многих 16-битных/32-битных процессорах)
^ Биби, Нельсон HF (22 августа 2017 г.). «Глава I. Целочисленная арифметика». Справочник по математическим вычислениям - Программирование с использованием портативной библиотеки программного обеспечения MathCW (1-е изд.). Солт-Лейк-Сити, Юта, США: Springer International Publishing AG . п. 970. дои : 10.1007/978-3-319-64110-2. ISBN978-3-319-64109-6. LCCN 2017947446. S2CID 30244721.
^ Стандарт ISO /IEC: ISO/IEC 80000-13 :2008. Настоящий стандарт отменяет и заменяет подразделы 3.8 и 3.9 МЭК 60027-2:2005. Единственное существенное изменение — добавление явных определений некоторых величин. Интернет-каталог ИСО
^ Ассоциация твердотельных технологий JEDEC (февраль 2018 г.). «Словарь терминов по твердотельным технологиям - 7-е издание». ДЖЕСД88Ф . Проверено 25 июня 2021 г.
^ аб Штайнбух, Карл В .; Вагнер, Зигфрид В., ред. (1967) [1962]. Написано в Карлсруэ, Германия. Taschenbuch der Nachrichtenverarbeitung (на немецком языке) (2-е изд.). Берлин / Гейдельберг / Нью-Йорк: Springer-Verlag OHG . стр. 835–836. LCCN 67-21079. Титул № 1036.
^ аб Штайнбух, Карл В .; Вебер, Вольфганг; Хайнеманн, Трауте, ред. (1974) [1967]. Написано в Карлсруэ/Бохуме. Taschenbuch der Informatik - Band III - Anwendungen und spezielle Systeme der Nachrichtenverarbeitung (на немецком языке). Том. 3 (3-е изд.). Берлин / Гейдельберг / Нью-Йорк: Springer Verlag . стр. 357–358. ISBN3-540-06242-4. LCCN 73-80607.
^ Бертрам, Х. Нил (1994). Теория магнитной записи (1-е изд.). Издательство Кембриджского университета . ISBN0-521-44973-1. 9-780521-449731. […] Запись импульса потребовала бы записи одного или двух разрядов перехода сколь угодно близко друг к другу. […]
^ Control Data 8092 TeleProgrammer: Справочное руководство по программированию (PDF) . Миннеаполис, Миннесота, США: Control Data Corporation . 1964. ИВП 107а. Архивировано (PDF) из оригинала 25 мая 2020 г. Проверено 27 июля 2020 г.
^ аб Свобода, Антонин ; Уайт, Доннамай Э. (2016) [2012, 1985, 1 августа 1979]. Advanced Logical Circuit Design Techniques (PDF) (перепечатанное электронное переиздание). Garland STPM Press (оригинальный выпуск) / WhitePubs Enterprises, Inc. (переиздание). ISBN0-8240-7014-3. LCCN 78-31384. Архивировано (PDF) из оригинала 14 апреля 2017 г. Проверено 15 апреля 2017 г.[2][3]
^ Пол, Рейнхольд (2013). Elektrotechnik und Elektronik für Informatiker - Grundgebiete der Elektronik (на немецком языке). Том. 2. Б. Г. Тойбнер Штутгарт/ Шпрингер . ISBN978-3-32296652-0. Проверено 3 августа 2015 г.
^ Бёме, Герт; Борн, Вернер; Вагнер, Б.; Шварце, Г. (2 июля 2013 г.) [1969]. Райхенбах, Юрген (ред.). Программирование Prozeßrechnern. Reihe Automatisierungstechnik (на немецком языке). Том. 79. VEB Verlag Technik [de] Berlin, перепечатка: Springer Verlag . дои : 10.1007/978-3-663-02721-8. ISBN978-3-663-00808-8. 03.09.4185.
^ ab «Термины и сокращения / 4.1. Пересечение границ страницы». Руководство по программированию на языке ассемблера MCS-4 — Руководство по программированию микрокомпьютерной системы INTELLEC 4 (PDF) (предварительное издание). Санта-Клара, Калифорния, США: Корпорация Intel . Декабрь 1973 г. стр. v, 2–6, 4–1. MCS-030-1273-1. Архивировано (PDF) из оригинала 01 марта 2020 г. Проверено 02 марта 2020 г. […] Бит — наименьшая единица информации, которая может быть представлена. (Бит может находиться в одном из двух состояний: 0 или 1). […] Байт — группа из 8 последовательных битов, занимающих одну ячейку памяти. […] Символ — группа из 4 последовательных битов данных. […] программы хранятся либо в ПЗУ, либо в программном ОЗУ, оба из которых разделены на страницы . Каждая страница состоит из 256 8-битных ячеек. Адреса от 0 до 255 составляют первую страницу, адреса 256–511 — вторую страницу и так далее. […](Примечание. В этом руководстве по Intel 4004 термин « символ» используется для обозначения 4-битных, а не 8-битных объектов данных . Intel перешла на использование более распространенного термина « полубайт» для 4-битных объектов в своей документации для последующего процессора 4040 уже в 1974 году. )
^ Штайнбух, Карл В. , изд. (1962). Написано в Карлсруэ, Германия. Taschenbuch der Nachrichtenverarbeitung (на немецком языке) (1-е изд.). Берлин / Геттинген / Нью-Йорк: Springer-Verlag OHG . п. 1076. LCCN 62-14511.
^ Криспин, Марк Р. (2005). RFC 4042: UTF-9 и UTF-18 .
^ Стандарт IEEE для арифметики с плавающей запятой. 29 августа 2008 г. стр. 1–70. doi :10.1109/IEESTD.2008.4610935. ISBN978-0-7381-5752-8. Проверено 10 февраля 2016 г.
^ Эрл, Марк А. (21 ноября 2008 г.). Алгоритмы и аппаратные средства для десятичного умножения (Диссертация). Университет Лихай (опубликовано в 2009 г.). ISBN978-1-10904228-3. 1109042280 . Проверено 10 февраля 2016 г.
^ Кнейзель, Рональд Т. (2015). Числа и компьютеры. Спрингер Верлаг . ISBN9783319172606. 3319172603 . Проверено 10 февраля 2016 г.
^ Збичак, Джо. «Краткая документация по AS1600» . Проверено 28 апреля 2013 г.
^ «Электронная система обработки данных 315» (PDF) . НКР . Ноябрь 1965 г. NCR MPN ST-5008-15. Архивировано (PDF) из оригинала 24 мая 2016 г. Проверено 28 января 2015 г.
^ Бардин, Гилель (1963). «Семинар NCR 315» (PDF) . Сообщение об использовании компьютера . 2 (3). Архивировано (PDF) из оригинала 24 мая 2016 г.
^ Шнайдер, Карл (2013) [1970]. Datenverarbeitungs-Lexikon [ Лексикон информационных технологий ] (на немецком языке) (переиздание в твердом переплете в мягкой обложке, 1-е изд.). Висбаден, Германия: Springer Fachmedien Wiesbaden GmbH / Betriebswirtschaftlicher Verlag Dr. Th. Габлер ГмбХ . стр. 201, 308. doi : 10.1007/978-3-663-13618-7. ISBN978-3-409-31831-0. Проверено 24 мая 2016 г. […] плита , абк. aus syllable = Silbe, die kleinste adressierbare Informationseinheit für 12 bit zur Übertragung von zwei Alphazeichen или Drei numerischen Zeichen. (NCR) […] Аппаратное обеспечение: Datenstruktur: NCR 315-100 / NCR 315-RMC; Слово: Силбе; Биты: 12; Байты: –; Дезимальзиферн: 3; Цайхен: 2; Gleitkommadarstellung: fest verdrahtet; Мантисс: 4 Силбена; Экспонента: 1 Зильбе (11 Стеллен + 1 Ворцайхен) […] [ плита , сокр. для слога = слог, наименьшая адресуемая единица информации на 12 бит для передачи двух буквенных символов или трех цифровых символов. (NCR) […] Аппаратное обеспечение: Структура данных: NCR 315-100 / NCR 315-RMC ; Длина слова : Слог ; Биты : 12; Байты : –; Десятичные цифры : 3; Персонажей: 2; Формат с плавающей запятой : фиксированный; Мантисса : 4 слога; Экспонента : 1 слог (11 цифр + 1 префикс)]
^ abcd Стандарт IEEE для 32-битной микропроцессорной архитектуры. Институт инженеров по электротехнике и электронике, Inc., 1995. стр. 5–7. doi : 10.1109/IEESTD.1995.79519. ISBN1-55937-428-4. Проверено 10 февраля 2016 г.(Примечание. Стандарт определяет дублеты, квадлеты, октлеты и гекслеты как 2, 4, 8 и 16 байтов , придавая количество битов (16, 32, 64 и 128) только как второстепенное значение. Это может быть важно, учитывая, что байты исторически не всегда понимались как означающие 8 бит ( октетов ).)
^ Труды . Симпозиум по опыту работы с распределенными и многопроцессорными системами (SEDMS). Том. 4. Ассоциация USENIX . 1993.
^ ab «1. Введение: выравнивание сегментов». Утилиты семейства 8086 — Руководство пользователя для систем разработки на базе 8080/8085 (PDF) . Версия E (A620/5821 6K DD изд.). Санта-Клара, Калифорния, США: Корпорация Intel . Май 1982 г. [1980, 1978]. п. 1-6. Номер заказа: 9800639-04. Архивировано (PDF) из оригинала 29 февраля 2020 г. Проверено 29 февраля 2020 г.
^ Брюсенцов, Н.П.; Маслов, С.П.; Рамиль Альварес, судья; Жоголев Е.А. «Разработка троичных компьютеров в МГУ» . Проверено 20 января 2010 г.
^ США 4319227, Малиновский, Кристофер В.; Риндерле, Хайнц и Зигле, Мартин, «Трехуровневая система сигнализации», выпущено 9 марта 1982 г., передано AEG-Telefunken.
^ "US4319227". Google .
^ "US4319227" (PDF) . Патентные изображения .
Внешние ссылки
Представление числовых значений и единиц СИ в строках символов для обмена информацией.