Наиболее часто используемыми единицами емкости хранения данных являются бит , емкость системы, которая имеет только два состояния, и байт (или октет ), который эквивалентен восьми битам. Кратные единицы этих единиц могут быть образованы из них с помощью префиксов СИ (префиксы степени десяти) или более новых двоичных префиксов МЭК (префиксы степени двух).
Первичные единицы
В 1928 году Ральф Хартли сформулировал фундаментальный принцип хранения [1] , который был дополнительно формализован Клодом Шенноном в 1945 году: информация, которая может быть сохранена в системе, пропорциональна логарифму N возможных состояний этой системы, обозначаемому как log b N . Изменение основания логарифма с b на другое число c приводит к умножению значения логарифма на фиксированную константу, а именно log c N = (log c b ) log b N . Таким образом, выбор основания b определяет единицу измерения информации. В частности, если b — положительное целое число, то единицей является количество информации, которое может быть сохранено в системе с b возможными состояниями.
Когда b равно 2, единицей является шеннон , равный информационному содержанию одного «бита» (разновидность двоичной цифры [2] ). Например, система с 8 возможными состояниями может хранить до log 2 8 = 3 бит информации. Другие единицы, которые были названы, включают:
Основание b = 3
единица называется « трит » и равна log 2 3 (≈ 1,585) бит. [3]
Основание b = 10
единица называется десятичной цифрой , хартли , бан , децит или дит и равна log 2 10 (≈ 3,322) бит. [1] [4] [5] [6]
единица называется нат , нит или непит (от неперианского ) и стоит log 2 e (≈ 1,443) бит. [1]
Трит, бан и нат редко используются для измерения емкости памяти; но нат, в частности, часто используется в теории информации, поскольку натуральные логарифмы математически более удобны, чем логарифмы в других основаниях.
Единицы, полученные из бита
Для коллекций или групп битов используется несколько условных названий.
Байт
Исторически байт был числом бит, используемых для кодирования символа текста в компьютере, что зависело от архитектуры компьютерного оборудования, но сегодня это почти всегда означает восемь бит – то есть октет . 8-битный байт может представлять 256 (2 8 ) различных значений, таких как неотрицательные целые числа от 0 до 255 или целые числа со знаком от −128 до 127. Стандарт IEEE 1541-2002 определяет «B» (заглавную букву) как символ для байта ( IEC 80000-13 использует «o» для октета во французском языке, [nb 1], но также допускает «B» в английском языке). Байты или их кратные почти всегда используются для указания размеров компьютерных файлов и емкости единиц хранения. Большинство современных компьютеров и периферийных устройств предназначены для обработки данных в целых байтах или группах байтов, а не в отдельных битах.
Клев
Группа из четырех бит, или половина байта, иногда называется полубайтом , нибблом или ниблом. Эта единица чаще всего используется в контексте шестнадцатеричных представлений чисел, поскольку полубайт имеет то же количество возможных значений, что и одна шестнадцатеричная цифра. [7]
Слово, блок и страница
Компьютеры обычно манипулируют битами в группах фиксированного размера, традиционно называемых словами . Количество бит в слове обычно определяется размером регистров в ЦП компьютера или количеством бит данных, которые извлекаются из его основной памяти за одну операцию. В архитектуре IA-32 , более известной как x86-32, слово состоит из 32 бит, но другие прошлые и современные архитектуры используют слова с 4, 8, 9, 12, 13, 16, 18, 20, 21, 22, 24, 25, 29, 30, 31, 32, 33, 35, 36, 38, 39, 40, 42, 44, 48, 50, 52, 54, 56, 60, 64, 72 [8] битами или другими.
Кэши памяти компьютера обычно работают с блоками памяти, состоящими из нескольких последовательных слов. Эти единицы обычно называются блоками кэша , или, в кэшах ЦП , строками кэша .
Термины для больших количеств битов могут быть образованы с использованием стандартного ряда префиксов СИ для степеней 10, например, кило = 10 3 = 1000 (как в килобите или кбите), мега = 10 6 = 1 000 000 (как в мегабите или Мбите) и гига = 10 9 = 1 000 000 000 (как в гигабите или Гбите). Эти префиксы чаще используются для кратных байтов, как в килобайте (1 кБ = 8000 бит), мегабайте (1 МБ = 8 000 000 бит ) и гигабайте (1 ГБ = 8 000 000 000 бит ).
Однако по техническим причинам емкость компьютерной памяти и некоторых единиц хранения часто кратна какой-то большой степени двойки, например, 2 28 = 268 435 456 байт. Чтобы избежать таких громоздких чисел, люди часто перепрофилировали префиксы СИ, чтобы обозначить ближайшую степень двойки, например, используя префикс кило для 2 10 = 1024, мега для 2 20 = 1 048 576 и гига для 2 30 = 1 073 741 824 и т. д. Например, чип оперативной памяти с емкостью 2 28 байт будет называться чипом емкостью 256 мегабайт. Таблица ниже иллюстрирует эти различия.
Раньше для обозначения числа 1024 вместо 1000 использовалась заглавная буква K вместо строчной k . Однако такое использование не применялось последовательно.
С другой стороны, для внешних систем хранения (таких как оптические диски ) префиксы СИ обычно используются с их десятичными значениями (степенями 10). Было предпринято много попыток разрешить путаницу, предоставив альтернативные обозначения для кратных степеней двойки. Международная электротехническая комиссия (МЭК) выпустила стандарт для этой цели, определив ряд двоичных префиксов , которые используют 1024 вместо 1000 в качестве основного основания: [9]
Стандарт памяти JEDEC JESD88F отмечает, что определения кило (К), гига (Г) и мега (М), основанные на степенях двойки, включены только для отражения общепринятого использования, но в остальном они устарели. [10]
Примеры размеров
1 бит: Ответ на вопрос «да/нет»
1 байт: число от 0 до 255
90 байт: достаточно для хранения типичной строки текста из книги
1 ТБ: размер жесткого диска стоимостью 30 долларов (по состоянию на начало 2024 года)
6 ТБ: размер жесткого диска стоимостью 100 долларов (по состоянию на начало 2022 г.)
16 ТБ: размер небольшого/дешевого корпоративного жесткого диска SAS стоимостью 130 долларов США (по состоянию на начало 2024 года)
24 ТБ: размер жесткого диска «видео» стоимостью 440 долларов (по состоянию на начало 2024 года)
32 ТБ: самый большой жесткий диск (по состоянию на середину 2024 г.)
100 ТБ: самый большой коммерчески доступный твердотельный накопитель (по состоянию на середину 2024 г.)
200 ТБ: самый большой твердотельный накопитель, созданный (прогноз на середину 2022 г.)
1,6 ПБ (1600 ТБ): объем возможного хранилища на одном сервере 2U (мировой рекорд по состоянию на 2021 год при использовании твердотельных накопителей емкостью 100 ТБ). [11]
1.3 ZB: Прогноз объема всего интернета в 2016 году
Устаревшие и необычные единицы
Были названы еще несколько единиц хранения информации:
128 бит: гекслет, [35] [40] абзац (на процессорах Intel x86 ) [41] [42]
256 байт: страница (на процессорах Intel 4004, [23] 8080 и 8086, [41] а также многих других 8-битных процессорах – как правило, намного больше на многих 16-битных/32-битных процессорах)
ISO 80000-13 (Величины и единицы – Часть 13: Информационная наука и технологии)
Примечания
^ Однако, если игнорировать правило СИ о включении пробела перед единицей, то сокращение IEC 80000-13 «o» для октетов можно спутать с постфиксом «o» для обозначения восьмеричных чисел в системе Intel .
Ссылки
^ abc Абрамсон, Норман (1963). Теория информации и кодирование . McGraw-Hill .
^ Mackenzie, Charles E. (1980). Coded Character Sets, History and Development (PDF) . The Systems Programming Series (1-е изд.). Addison-Wesley Publishing Company, Inc. стр. xii. ISBN978-0-201-14460-4. LCCN 77-90165. Архивировано (PDF) из оригинала 26 мая 2016 г. Получено 25 августа 2019 г.
^ Кумар, И. Рави (2001). Комплексная статистическая теория коммуникации .
^ Nybble на dictionary reference.com; источник: Jargon File 4.2.0, дата обращения 12 августа 2007 г.
^ Beebe, Nelson HF (2017-08-22). "Глава I. Целочисленная арифметика". Справочник по вычислению математических функций - Программирование с использованием библиотеки переносимого программного обеспечения MathCW (1-е изд.). Солт-Лейк-Сити, Юта, США: Springer International Publishing AG . стр. 970. doi :10.1007/978-3-319-64110-2. ISBN978-3-319-64109-6. LCCN 2017947446. S2CID 30244721.
^ Стандарт ISO /IEC — ISO/IEC 80000 -13:2008. Этот стандарт отменяет и заменяет подпункты 3.8 и 3.9 стандарта IEC 60027-2:2005. Единственным существенным изменением является добавление явных определений для некоторых величин. Онлайн-каталог ISO
^ "Словарь терминов по твердотельным технологиям – 7-е издание". Ассоциация твердотельных технологий JEDEC. Февраль 2018 г. С. 100, 118, 135. JESD88F . Получено 25.06.2021 .
^ Малеваль, Жан Жак (2021-02-12). "Nimbus Data SSD сертифицированы для использования с серверами Dell EMC PowerEdge". StorageNewsletter . Получено 2024-05-30 .
^ аб Штайнбух, Карл В .; Вагнер, Зигфрид В., ред. (1967) [1962]. Написано в Карлсруэ, Германия. Taschenbuch der Nachrichtenverarbeitung (на немецком языке) (2-е изд.). Берлин / Гейдельберг / Нью-Йорк: Springer-Verlag OHG . стр. 835–836. LCCN 67-21079. Титул № 1036.
^ аб Штайнбух, Карл В .; Вебер, Вольфганг; Хайнеманн, Трауте, ред. (1974) [1967]. Написано в Карлсруэ/Бохуме. Taschenbuch der Informatik - Band III - Anwendungen und spezielle Systeme der Nachrichtenverarbeitung (на немецком языке). Том. 3 (3-е изд.). Берлин / Гейдельберг / Нью-Йорк: Springer Verlag . стр. 357–358. ISBN3-540-06242-4. LCCN 73-80607.
^ Бертрам, Х. Нил (1994). Теория магнитной записи (1-е изд.). Cambridge University Press . ISBN0-521-44973-1. 9-780521-449731. […] Запись импульса будет включать запись дибита или двух переходов произвольно близко друг к другу. […]
^ ab Svoboda, Antonín ; White, Donnamaie E. (2016) [2012, 1985, 1979-08-01]. Advanced Logical Circuit Design Techniques (PDF) (перепечатанное электронное переиздание). Garland STPM Press (оригинальный выпуск) / WhitePubs Enterprises, Inc. (переиздание). ISBN0-8240-7014-3. LCCN 78-31384. Архивировано (PDF) из оригинала 2017-04-14 . Получено 2017-04-15 .[1][2]
^ Пол, Рейнхольд (2013). Elektrotechnik und Elektronik für Informatiker - Grundgebiete der Elektronik (на немецком языке). Том. 2. Б. Г. Тойбнер Штутгарт/ Шпрингер . ISBN978-3-32296652-0. Получено 2015-08-03 .
^ Бёме, Герт; Борн, Вернер; Вагнер, Б.; Шварце, Г. (2 июля 2013 г.) [1969]. Райхенбах, Юрген (ред.). Программирование Prozeßrechnern. Reihe Automatisierungstechnik (на немецком языке). Том. 79. VEB Verlag Technik [de] Berlin, перепечатка: Springer Verlag . дои : 10.1007/978-3-663-02721-8. ISBN978-3-663-00808-8. 9/3/4185.
^ ab "Термины и сокращения / 4.1 Пересечение границ страниц". Руководство по программированию на языке ассемблера MCS-4 - Руководство по программированию микрокомпьютерной системы INTELLEC 4 (PDF) (Предварительное издание). Санта-Клара, Калифорния, США: Intel Corporation . Декабрь 1973 г. стр. v, 2-6, 4-1. MCS-030-1273-1. Архивировано (PDF) из оригинала 01.03.2020 г. Получено 02.03.2020 г. [ …] Бит - наименьшая единица информации, которая может быть представлена. (Бит может находиться в одном из двух состояний I 0 или 1). […] Байт - группа из 8 смежных бит, занимающая одну ячейку памяти. […] Символ - группа из 4 смежных бит данных. […] программы хранятся либо в ПЗУ, либо в ОЗУ программ, оба из которых разделены на страницы . Каждая страница состоит из 256 8-битных ячеек. Адреса от 0 до 255 составляют первую страницу, 256-511 составляют вторую страницу и так далее. […](Примечание. В этом руководстве по процессору Intel 4004 термин «символ» используется для обозначения 4-битных, а не 8-битных объектов данных . В своей документации для следующего процессора 4040 компания Intel перешла на использование более распространенного термина «полубайт» для 4-битных объектов еще в 1974 году.)
^ Штайнбух, Карл В. , изд. (1962). Написано в Карлсруэ, Германия. Taschenbuch der Nachrichtenverarbeitung (на немецком языке) (1-е изд.). Берлин / Геттинген / Нью-Йорк: Springer-Verlag OHG . п. 1076. LCCN 62-14511.
^ Криспин, Марк Р. (2005). RFC 4042: UTF-9 и UTF-18 .
^ Стандарт IEEE для арифметики с плавающей точкой. 29 августа 2008 г. С. 1–70. doi :10.1109/IEEESTD.2008.4610935. ISBN978-0-7381-5752-8. Получено 2016-02-10 .
^ Эрл, Марк А. (2008-11-21). Алгоритмы и аппаратные разработки для десятичного умножения (диссертация). Университет Лихай (опубликовано в 2009 году). ISBN978-1-10904228-3. 1109042280 . Получено 2016-02-10 .
^ Кнойзель, Рональд Т. (2015). Числа и компьютеры. Springer Verlag . ISBN9783319172606. 3319172603 . Получено 2016-02-10 .
^ Шнайдер, Карл (2013) [1970]. Datenverarbeitungs-Lexikon [ Лексикон информационных технологий ] (на немецком языке) (перепечатка в твердом переплете, 1-е изд.). Висбаден, Германия: Springer Fachmedien Wiesbaden GmbH / Betriebswirtschaftlicher Verlag Dr. Th. Габлер ГмбХ . стр. 201, 308. doi :10.1007/978-3-663-13618-7. ISBN978-3-409-31831-0. Проверено 24 мая 2016 г. […] плита , абк. aus syllable = Silbe, die kleinste adressierbare Informationseinheit für 12 bit zur Übertragung von zwei Alphazeichen или drei numerischen Zeichen. (NCR) […] Аппаратное обеспечение: Datenstruktur: NCR 315-100 / NCR 315-RMC; Слово: Силбе; Биты: 12; Байты: –; Дезимальзиферн: 3; Цайхен: 2; Gleitkommadarstellung: fest verdrahtet; Мантисс: 4 Силбена; Экспонента: 1 Зильбе (11 Стеллен + 1 Ворцайхен) […] [ плита , сокр. для слога = слог, наименьшая адресуемая информационная единица для 12 бит для передачи двух алфавитных символов или трех цифровых символов. (NCR) […] Аппаратное обеспечение: Структура данных: NCR 315-100 / NCR 315-RMC ; Длина слова : Слог ; Биты : 12; Байты : –; Десятичные цифры : 3; Символы: 2; Формат с плавающей точкой : жестко запрограммирован; Мантисса : 4 слога; Экспонента : 1 слог (11 цифр + 1 префикс)]
^ abcd Стандарт IEEE для архитектуры 32-битного микропроцессора. Институт инженеров по электротехнике и электронике, Inc. 1995. стр. 5–7. doi :10.1109/IEEESTD.1995.79519. ISBN1-55937-428-4. Получено 2016-02-10 .(Примечание. Стандарт определяет дублеты, квадлеты, октеты и гекслеты как 2, 4, 8 и 16 байтов , указывая количество битов (16, 32, 64 и 128) только как вторичное значение. Это может быть важно, учитывая, что исторически байты не всегда понимались как 8 бит ( октеты ).)
^ Труды . Симпозиум по опыту работы с распределенными и многопроцессорными системами (SEDMS). Том 4. Ассоциация USENIX . 1993.
^ ab "1. Введение: Выравнивание сегментов". 8086 Family Utilities - Руководство пользователя для систем разработки на базе 8080/8085 (PDF) . Редакция E (A620/5821 6K DD ed.). Санта-Клара, Калифорния, США: Intel Corporation . Май 1982 г. [1980, 1978]. стр. 1-6. Номер заказа: 9800639-04. Архивировано (PDF) из оригинала 29.02.2020 . Получено 29.02.2020 .
^ Брусенцов, Н. П.; Маслов, СП; Рамиль Альварес, Х.; Жоголев, Е. А. "Развитие троичных компьютеров в Московском государственном университете" . Получено 2010-01-20 .
^ США 4319227, Малиновский, Кристофер В.; Риндерле, Хайнц и Зигле, Мартин, «Трехуровневая система сигнализации», выпущено 9 марта 1982 г., передано AEG-Telefunken.
^ "US4319227". Google .
^ "US4319227" (PDF) . Изображения патентов .
Внешние ссылки
Представление числовых значений и единиц СИ в строках символов для обмена информацией