stringtranslate.com

Двоичные данные

Двоичные данные — это данные , единица которых может принимать только два возможных состояния. Они часто обозначаются как 0 и 1 в соответствии с двоичной системой счисления и булевой алгеброй .

Двоичные данные встречаются во многих различных технических и научных областях, где их можно называть по-разному, включая бит (двоичную цифру) в информатике , истинностное значение в математической логике и смежных областях и двоичную переменную в статистике.

Математические и комбинаторные основы

Дискретная переменная, которая может принимать только одно состояние , содержит нулевую информацию , а 2 — это следующее натуральное число после 1. Вот почему бит , переменная, имеющая только два возможных значения, является стандартной первичной единицей информации .

Набор из n бит может иметь 2 n состояний: подробности см . в разделе двоичное число . Количество состояний набора дискретных переменных зависит экспоненциально от количества переменных и только как степенной закон от количества состояний каждой переменной. Десять бит имеют больше ( 1024 ) состояний, чем три десятичных цифры ( 1000 ). 10 кбит более чем достаточно для представления информации ( числа или чего-либо еще), требующей 3 к десятичных цифр, поэтому информация, содержащаяся в дискретных переменных с 3 , 4, 5, 6, 7, 8, 9, 10 ... состояниями, может быть когда-либо заменена выделением в два, три или четыре раза большего количества бит. Таким образом, использование любого другого меньшего числа, чем 2, не дает преимущества.

Диаграмма Хассе : представление булевой алгебры в виде ориентированного графа

Более того, Булева алгебра предоставляет удобную математическую структуру для набора битов с семантикой набора пропозициональных переменных . Операции булевой алгебры известны в информатике как « побитовые операции ». Булевы функции также хорошо изучены теоретически и легко реализуемы либо с помощью компьютерных программ , либо с помощью так называемых логических вентилей в цифровой электронике . Это способствует использованию битов для представления различных данных, даже изначально не двоичных.

В статистике

В статистике бинарные данные — это статистический тип данных, состоящий из категориальных данных , которые могут принимать ровно два возможных значения, например «A» и «B» или «орел» и «решка». Их также называют дихотомическими данными , а более старый термин — квантовые данные . [1] Эти два значения часто называют в общем «успех» и «неудача». [1] Как форма категориальных данных бинарные данные являются номинальными данными , то есть значения качественно различны и не могут сравниваться численно. Однако значения часто представляются как 1 или 0, что соответствует подсчету количества успехов в одном испытании: 1 (успех…) или 0 (неудача); см. § Подсчет.

Часто двоичные данные используются для представления одного из двух концептуально противоположных значений, например:

Однако его также можно использовать для данных, которые, как предполагается, имеют только два возможных значения, даже если они концептуально не противоположны или концептуально не представляют все возможные значения в пространстве. Например, двоичные данные часто используются для представления партийного выбора избирателей на выборах в Соединенных Штатах, то есть республиканской или демократической . В этом случае нет никакой неотъемлемой причины, по которой должны существовать только две политические партии , и действительно, в США существуют другие партии, но они настолько незначительны, что их обычно просто игнорируют. Моделирование непрерывных данных (или категориальных данных более чем из 2 категорий) в качестве бинарной переменной для целей анализа называется дихотомизацией (созданием дихотомии ). Как и всякая дискретизация, она включает в себя ошибку дискретизации , но цель состоит в том, чтобы узнать что-то ценное, несмотря на ошибку: рассматривать ее как незначительную для поставленной цели, но помнить, что ее нельзя считать незначительной в целом.

Бинарные переменные

Двоичная переменная — это случайная величина двоичного типа, то есть с двумя возможными значениями. Независимые и одинаково распределенные (iid) двоичные переменные следуют распределению Бернулли , но в общем случае двоичные данные не обязательно должны исходить из iid-переменных. Общее количество iid-бинарных переменных (эквивалентно, суммы iid-бинарных переменных, закодированных как 1 или 0) следуют биномиальному распределению , но когда двоичные переменные не являются iid, распределение не обязательно должно быть биномиальным.

Подсчет

Подобно категориальным данным, двоичные данные можно преобразовать в вектор данных количества , записав одну координату для каждого возможного значения и подсчитав 1 для значения, которое встречается, и 0 для значения, которое не встречается. [2] Например, если значениями являются A и B, то набор данных A, A, B можно представить в виде количества как (1, 0), (1, 0), (0, 1). После преобразования в количество двоичные данные можно сгруппировать , а количество сложить. Например, если набор A, A, B сгруппирован, общее количество составит (2, 1): 2 A и 1 B (из 3 испытаний).

Поскольку существует только два возможных значения, это можно упростить до одного счетчика (скалярного значения), рассматривая одно значение как «успех», а другое как «неудача», кодируя значение успеха как 1, а неудачи как 0 (используя только координату для значения «успех», а не координату для значения «неудача»). Например, если значение A считается «успехом» (и, таким образом, B считается «неудачей»), набор данных A, A, B будет представлен как 1, 1, 0. При группировке значения добавляются, в то время как количество попыток обычно отслеживается неявно. Например, A, A, B будут сгруппированы как 1 + 1 + 0 = 2 успеха (вне попыток). Идя другим путем, данные счетчика с являются двоичными данными, причем два класса — 0 (неудача) или 1 (успех).

Количество двоичных переменных iid подчиняется биномиальному распределению, где ⁠ ⁠ — общее количество испытаний (точки в сгруппированных данных).

Регрессия

Регрессионный анализ на прогнозируемых результатах, которые являются бинарными переменными, известен как бинарная регрессия ; когда двоичные данные преобразуются в данные подсчета и моделируются как переменные iid (чтобы они имели биномиальное распределение), можно использовать биномиальную регрессию . Наиболее распространенными методами регрессии для двоичных данных являются логистическая регрессия , пробит-регрессия или родственные типы моделей бинарного выбора .

Аналогично, количество категориальных переменных iid с более чем двумя категориями может быть смоделировано с помощью мультиномиальной регрессии . Количество не-iid двоичных данных может быть смоделировано с помощью более сложных распределений, таких как бета-биномиальное распределение ( сложное распределение ). В качестве альтернативы, связь может быть смоделирована без необходимости явно моделировать распределение выходной переменной, используя методы из обобщенных линейных моделей , таких как квазиправдоподобие и квазибиномиальная модель; см. Overdispersion § Binomial .

В области компьютерных наук

Двоичное изображение QR-кода , представляющее 1 бит на пиксель, в отличие от типичного 24-битного изображения с истинным цветом .

В современных компьютерах двоичные данные относятся к любым данным, представленным в двоичной форме, а не интерпретированным на более высоком уровне или преобразованным в какую-либо другую форму. На самом низком уровне биты хранятся в бистабильном устройстве, таком как триггер . Хотя большинство двоичных данных имеют символическое значение (за исключением don't cares ), не все двоичные данные являются числовыми. Некоторые двоичные данные соответствуют компьютерным инструкциям , таким как данные в регистрах процессора, декодируемые блоком управления в цикле выборка-декодирование-выполнение . Компьютеры редко изменяют отдельные биты по соображениям производительности. Вместо этого данные выравниваются в группы из фиксированного числа бит, обычно 1 байт (8 бит). Следовательно, «двоичные данные» в компьютерах на самом деле являются последовательностями байтов. На более высоком уровне доступ к данным осуществляется группами из 1 слова (4 байта) для 32-битных систем и 2 слов для 64-битных систем.

В прикладной информатике и в области информационных технологий термин двоичные данные часто специально противопоставляется текстовым данным , имея в виду любые данные, которые не могут быть интерпретированы как текст . Различие между «текстом» и «двоичным» иногда может относиться к семантическому содержанию файла (например, письменный документ против цифрового изображения ). Однако оно часто конкретно относится к тому, интерпретируются ли отдельные байты файла как текст (см. кодировку символов ) или не могут быть интерпретированы таким образом. Когда подразумевается это последнее значение, иногда используются более конкретные термины двоичный формат и текстовый(уальный) формат . Семантически текстовые данные могут быть представлены в двоичном формате (например, при сжатии или в определенных форматах, которые смешивают различные виды кодов форматирования, как в формате doc, используемом Microsoft Word ); напротив, данные изображения иногда представлены в текстовом формате (например, формат изображения X PixMap, используемый в X Window System ).

1 и 0 — это не что иное, как два разных уровня напряжения. Вы можете заставить компьютер понимать 1 для более высокого напряжения и 0 для более низкого напряжения. Существует много разных способов сохранения двух уровней напряжения. Если вы видели дискету, то вы найдете магнитную ленту с покрытием из ферромагнитного материала, это тип парамагнитного материала, который имеет домены, выровненные в определенном направлении, чтобы дать остаточное магнитное поле даже после удаления токов через материалы или магнитное поле. Во время загрузки данных на магнитную ленту магнитное поле передается в одном направлении, чтобы вызвать сохраненную ориентацию домена 1, а если магнитное поле передается в другом направлении, то сохраненная ориентация домена равна 0. Таким образом, как правило, сохраняются данные 1 и 0. [3]

Смотрите также

Ссылки

  1. ^ ab Collett 2002, стр. 1.
  2. ^ Агрести, Алан (2012). "1.2.2 Мультиномиальное распределение". Категориальный анализ данных (3-е изд.). Wiley. стр. 6. ISBN 978-0470463635.
  3. ^ Гул, Наджам (2022-08-18). «Как разные типы данных хранятся в форме 0 и 1?». Curiosity Tea . Получено 2023-01-05 .