Двоичные данные

Двоичные данные — это данные , единица которых может принимать только два возможных состояния. Они часто обозначаются как 0 и 1 в соответствии с двоичной системой счисления и булевой алгеброй .

Двоичные данные встречаются во многих различных технических и научных областях, где их можно называть по-разному, включая бит (двоичная цифра) в информатике , истинностное значение в математической логике и связанных областях, а также двоичную переменную в статистике.

Математические и комбинаторные основы

Дискретная переменная , которая может принимать только одно состояние, содержит нулевую информацию , а 2 — следующее натуральное число после 1. Вот почему бит — переменная, имеющая только два возможных значения, — является стандартной первичной единицей информации .

Набор из $n$ битов может иметь $2 n$ состояний: подробности см. в разделе «Двоичные числа» . Число состояний набора дискретных переменных зависит экспоненциально от количества переменных и только по степенному закону от количества состояний каждой переменной. Десять битов имеют больше состояний ( 1024 ), чем три десятичных цифры ( 1000 ). $10 тыс .$ битов более чем достаточно для представления информации ( числа или чего-либо еще), требующего $3 тыс.$ десятичных цифр, поэтому информация содержится в дискретных переменных с 3 , 4, 5, 6, 7, 8, 9, 10 ... состояния можно заменить, выделив в два, три или четыре раза больше битов. Таким образом, использование любого другого небольшого числа, кроме 2, не дает преимущества.

Более того, булева алгебра предоставляет удобную математическую структуру для набора битов с семантикой набора пропозициональных переменных . Операции булевой алгебры известны в информатике как « побитовые операции ». Булевы функции также хорошо изучены теоретически и легко реализуются либо с помощью компьютерных программ , либо с помощью так называемых логических элементов в цифровой электронике . Это способствует использованию битов для представления различных данных, даже тех, которые изначально не являются двоичными.

В статистике

В статистике двоичные данные — это статистический тип данных , состоящий из категориальных данных , которые могут принимать ровно два возможных значения, например «A» и «B» или «орёл» и «решка». Их также называют дихотомическими данными , а более старый термин — квантовые данные . ^[1] Эти две ценности часто называют «успехом» и «неудачей». ^[1] Как форма категориальных данных, двоичные данные являются номинальными данными , что означает, что значения качественно различны и не могут сравниваться численно. Однако значения часто представляются как 1 или 0, что соответствует подсчету количества успехов в одном испытании: 1 (успех…) или 0 (неудача); см. § Подсчет.

Часто двоичные данные используются для представления одного из двух концептуально противоположных значений, например:

результат эксперимента («успех» или «неудача»)
ответ на вопрос «да-нет» («да» или «нет»)
наличие или отсутствие какого-либо признака («есть» или «нет»)
истинность или ложность предложения («истинное» или «ложное», «правильное» или «неправильное»)

Однако его также можно использовать для данных, которые, как предполагается, имеют только два возможных значения, даже если они концептуально не противоположны или концептуально не представляют все возможные значения в пространстве. Например, двоичные данные часто используются для представления партийного выбора избирателей на выборах в Соединенных Штатах, т. е. республиканской или демократической . В этом случае не существует внутренней причины, по которой должны существовать только две политические партии , и действительно, в США существуют и другие партии, но они настолько незначительны, что их обычно просто игнорируют. Моделирование непрерывных данных (или категориальных данных более чем двух категорий) в виде двоичной переменной для целей анализа называется дихотомизацией (созданием дихотомии ). Как и всякая дискретизация, она включает в себя ошибку дискретизации , но цель состоит в том, чтобы узнать что-то ценное, несмотря на ошибку: рассматривать ее как пренебрежимо малую для поставленной цели, но помнить, что в целом ее нельзя считать пренебрежимо малой.

Бинарные переменные

Бинарная переменная — это случайная величина двоичного типа, то есть имеющая два возможных значения. Независимые и одинаково распределенные (iid) двоичные переменные подчиняются распределению Бернулли , но в целом двоичные данные не обязательно должны поступать из переменных iid. Общее количество двоичных переменных iid (эквивалентно суммам двоичных переменных iid, закодированных как 1 или 0) соответствует биномиальному распределению , но если двоичные переменные не являются iid, распределение не обязательно должно быть биномиальным.

Подсчет

Как и категориальные данные, двоичные данные можно преобразовать в вектор данных счетчика , записав одну координату для каждого возможного значения и отсчитав 1 для встречающегося значения и 0 для значения, которое не встречается. ^[2] Например, если значения A и B, то набор данных A, A, B может быть представлен в виде (1, 0), (1, 0), (0, 1). После преобразования в счетчики двоичные данные можно сгруппировать и добавить счетчики. Например, если набор A, A, B сгруппирован, общее количество будет (2, 1): 2 A и 1 B (из 3 попыток).

Поскольку существует только два возможных значения, это можно упростить до одного счетчика (скалярного значения), рассматривая одно значение как «успех», а другое как «неуспех», кодируя значение успеха как 1, а значение неудачи как 0 (используется только координата для значения «успех», а не координата для значения «неуспех»). Например, если значение A считается «успехом» (и, следовательно, B считается «неудачей»), набор данных A, A, B будет представлен как 1, 1, 0. При группировке значения суммируются. , тогда как количество испытаний обычно отслеживается неявно. Например, A, A, B будут сгруппированы как 1 + 1 + 0 = 2 успеха (вне испытаний). И наоборот, данные подсчета представляют собой двоичные данные, где два класса равны 0 (неудача) или 1 (успех). $n=3$ $n=1$

Подсчеты двоичных переменных iid следуют биномиальному распределению с общим количеством испытаний (точек в сгруппированных данных). $n$

Регрессия

Регрессионный анализ прогнозируемых результатов, которые являются двоичными переменными, известен как бинарная регрессия ; когда двоичные данные преобразуются в данные подсчета и моделируются как переменные iid (чтобы они имели биномиальное распределение), можно использовать биномиальную регрессию . Наиболее распространенными методами регрессии для двоичных данных являются логистическая регрессия , пробит-регрессия или родственные типы моделей двоичного выбора .

Аналогичным образом, количество категориальных переменных iid с более чем двумя категориями можно смоделировать с помощью полиномиальной регрессии . Подсчеты двоичных данных, отличных от iid, можно моделировать с помощью более сложных распределений, таких как бета-биномиальное распределение ( сложное распределение ). Альтернативно, взаимосвязь может быть смоделирована без необходимости явного моделирования распределения выходной переменной с использованием методов обобщенных линейных моделей , таких как квазиправдоподобие и квазибиномиальная модель; см. «Передисперсия § Биномиальная» .

В информатике

Двоичное изображение QR -кода , представляющее 1 бит на пиксель, в отличие от типичного 24-битного изображения в истинном цвете .

В современных компьютерах двоичные данные относятся к любым данным, представленным в двоичной форме, а не интерпретируемым на более высоком уровне или преобразованным в какую-либо другую форму. На самом низком уровне биты хранятся в бистабильном устройстве, таком как триггер . Хотя большинство двоичных данных имеют символическое значение (за исключением «все равно» ), не все двоичные данные являются числовыми. Некоторые двоичные данные соответствуют компьютерным инструкциям , например данные в регистрах процессора, декодированные блоком управления в цикле выборки-декодирования-выполнения . Компьютеры редко изменяют отдельные биты из соображений производительности. Вместо этого данные выравниваются по группам с фиксированным количеством бит, обычно по 1 байту (8 бит). Следовательно, «двоичные данные» в компьютерах на самом деле представляют собой последовательности байтов. На более высоком уровне доступ к данным осуществляется группами по 1 слову (4 байта) для 32-битных систем и по 2 слова для 64-битных систем.

В прикладной информатике и в области информационных технологий термин « двоичные данные» часто противопоставляется текстовым данным , имея в виду любой вид данных, которые нельзя интерпретировать как текст . Различие между «текстом» и «двоичным» иногда может относиться к семантическому содержанию файла (например, письменный документ и цифровое изображение ). Однако это часто относится конкретно к тому, могут ли отдельные байты файла интерпретироваться как текст (см. Кодировка символов ) или не могут быть так интерпретированы. Когда подразумевается последнее значение, иногда используются более конкретные термины «двоичный формат» и «текстовый (уальский) формат» . Семантически текстовые данные могут быть представлены в двоичном формате (например, в сжатом виде или в определенных форматах, в которых смешиваются различные виды кодов форматирования, как в формате документа, используемом Microsoft Word ); напротив, данные изображения иногда представляются в текстовом формате (например, формат изображения X PixMap , используемый в системе X Window ).

1 и 0 — это не что иное, как два разных уровня напряжения. Вы можете заставить компьютер понимать 1 для более высокого напряжения и 0 для более низкого напряжения. Существует много разных способов сохранить два уровня напряжения. Если вы видели дискету, то вы найдете магнитную ленту с покрытием из ферромагнитного материала, это тип парамагнитного материала, домены которого ориентированы в определенном направлении, чтобы создать остаточное магнитное поле даже после удаления токов через материалы или магнитное поле. Во время загрузки данных на магнитную ленту магнитное поле передается в одном направлении, чтобы вызвать сохраненную ориентацию домена 1, а если магнитное поле передается в другом направлении, то сохраненная ориентация домена равна 0. Таким образом, Обычно сохраняются данные 1 и 0. ^[3]