stringtranslate.com

Двоичные данные

Двоичные данные — это данные , единица которых может принимать только два возможных состояния. Они часто обозначаются как 0 и 1 в соответствии с двоичной системой счисления и булевой алгеброй .

Двоичные данные встречаются во многих различных технических и научных областях, где их можно называть по-разному, включая бит (двоичная цифра) в информатике , истинностное значение в математической логике и связанных областях, а также двоичную переменную в статистике.

Математические и комбинаторные основы

Дискретная переменная , которая может принимать только одно состояние, содержит нулевую информацию , а 2 — следующее натуральное число после 1. Вот почему бит — переменная, имеющая только два возможных значения, — является стандартной первичной единицей информации .

Набор из n битов может иметь 2 n состояний: подробности см. в разделе «Двоичные числа» . Число состояний набора дискретных переменных зависит экспоненциально от количества переменных и только по степенному закону от количества состояний каждой переменной. Десять битов имеют больше состояний ( 1024 ), чем три десятичных цифры ( 1000 ). 10 тыс . битов более чем достаточно для представления информации ( числа или чего-либо еще), требующего 3 тыс. десятичных цифр, поэтому информация содержится в дискретных переменных с 3 , 4, 5, 6, 7, 8, 9, 10 ... состояния можно заменить, выделив в два, три или четыре раза больше битов. Таким образом, использование любого другого небольшого числа, кроме 2, не дает преимущества.

Диаграмма Хассе : представление булевой алгебры в виде ориентированного графа

Более того, булева алгебра предоставляет удобную математическую структуру для набора битов с семантикой набора пропозициональных переменных . Операции булевой алгебры известны в информатике как « побитовые операции ». Булевы функции также хорошо изучены теоретически и легко реализуются либо с помощью компьютерных программ , либо с помощью так называемых логических элементов в цифровой электронике . Это способствует использованию битов для представления различных данных, даже тех, которые изначально не являются двоичными.

В статистике

В статистике двоичные данные — это статистический тип данных , состоящий из категориальных данных , которые могут принимать ровно два возможных значения, например «A» и «B» или «орёл» и «решка». Их также называют дихотомическими данными , а более старый термин — квантовые данные . [1] Эти две ценности часто называют «успехом» и «неудачей». [1] Как форма категориальных данных, двоичные данные являются номинальными данными , что означает, что значения качественно различны и не могут сравниваться численно. Однако значения часто представляются как 1 или 0, что соответствует подсчету количества успехов в одном испытании: 1 (успех…) или 0 (неудача); см. § Подсчет.

Часто двоичные данные используются для представления одного из двух концептуально противоположных значений, например:

Однако его также можно использовать для данных, которые, как предполагается, имеют только два возможных значения, даже если они концептуально не противоположны или концептуально не представляют все возможные значения в пространстве. Например, двоичные данные часто используются для представления партийного выбора избирателей на выборах в Соединенных Штатах, т. е. республиканской или демократической . В этом случае не существует внутренней причины, по которой должны существовать только две политические партии , и действительно, в США существуют и другие партии, но они настолько незначительны, что их обычно просто игнорируют. Моделирование непрерывных данных (или категориальных данных более чем двух категорий) в виде двоичной переменной для целей анализа называется дихотомизацией (созданием дихотомии ). Как и всякая дискретизация, она включает в себя ошибку дискретизации , но цель состоит в том, чтобы узнать что-то ценное, несмотря на ошибку: рассматривать ее как пренебрежимо малую для поставленной цели, но помнить, что в целом ее нельзя считать пренебрежимо малой.

Бинарные переменные

Бинарная переменная — это случайная величина двоичного типа, то есть имеющая два возможных значения. Независимые и одинаково распределенные (iid) двоичные переменные подчиняются распределению Бернулли , но в целом двоичные данные не обязательно должны поступать из переменных iid. Общее количество двоичных переменных iid (эквивалентно суммам двоичных переменных iid, закодированных как 1 или 0) соответствует биномиальному распределению , но если двоичные переменные не являются iid, распределение не обязательно должно быть биномиальным.

Подсчет

Как и категориальные данные, двоичные данные можно преобразовать в вектор данных счетчика , записав одну координату для каждого возможного значения и отсчитав 1 для встречающегося значения и 0 для значения, которое не встречается. [2] Например, если значения A и B, то набор данных A, A, B может быть представлен в виде (1, 0), (1, 0), (0, 1). После преобразования в счетчики двоичные данные можно сгруппировать и добавить счетчики. Например, если набор A, A, B сгруппирован, общее количество будет (2, 1): 2 A и 1 B (из 3 попыток).

Поскольку существует только два возможных значения, это можно упростить до одного счетчика (скалярного значения), рассматривая одно значение как «успех», а другое как «неуспех», кодируя значение успеха как 1, а значение неудачи как 0 (используется только координата для значения «успех», а не координата для значения «неуспех»). Например, если значение A считается «успехом» (и, следовательно, B считается «неудачей»), набор данных A, A, B будет представлен как 1, 1, 0. При группировке значения суммируются. , тогда как количество испытаний обычно отслеживается неявно. Например, A, A, B будут сгруппированы как 1 + 1 + 0 = 2 успеха (вне испытаний). И наоборот, данные подсчета представляют собой двоичные данные, где два класса равны 0 (неудача) или 1 (успех).

Подсчеты двоичных переменных iid следуют биномиальному распределению с общим количеством испытаний (точек в сгруппированных данных).

Регрессия

Регрессионный анализ прогнозируемых результатов, которые являются двоичными переменными, известен как бинарная регрессия ; когда двоичные данные преобразуются в данные подсчета и моделируются как переменные iid (чтобы они имели биномиальное распределение), можно использовать биномиальную регрессию . Наиболее распространенными методами регрессии для двоичных данных являются логистическая регрессия , пробит-регрессия или родственные типы моделей двоичного выбора .

Аналогичным образом, количество категориальных переменных iid с более чем двумя категориями можно смоделировать с помощью полиномиальной регрессии . Подсчеты двоичных данных, отличных от iid, можно моделировать с помощью более сложных распределений, таких как бета-биномиальное распределение ( сложное распределение ). Альтернативно, взаимосвязь может быть смоделирована без необходимости явного моделирования распределения выходной переменной с использованием методов обобщенных линейных моделей , таких как квазиправдоподобие и квазибиномиальная модель; см. «Передисперсия § Биномиальная» .

В информатике

Двоичное изображение QR -кода , представляющее 1 бит на пиксель, в отличие от типичного 24-битного изображения в истинном цвете .

В современных компьютерах двоичные данные относятся к любым данным, представленным в двоичной форме, а не интерпретируемым на более высоком уровне или преобразованным в какую-либо другую форму. На самом низком уровне биты хранятся в бистабильном устройстве, таком как триггер . Хотя большинство двоичных данных имеют символическое значение (за исключением «все равно» ), не все двоичные данные являются числовыми. Некоторые двоичные данные соответствуют компьютерным инструкциям , например данные в регистрах процессора, декодированные блоком управления в цикле выборки-декодирования-выполнения . Компьютеры редко изменяют отдельные биты из соображений производительности. Вместо этого данные выравниваются по группам с фиксированным количеством бит, обычно по 1 байту (8 бит). Следовательно, «двоичные данные» в компьютерах на самом деле представляют собой последовательности байтов. На более высоком уровне доступ к данным осуществляется группами по 1 слову (4 байта) для 32-битных систем и по 2 слова для 64-битных систем.

В прикладной информатике и в области информационных технологий термин « двоичные данные» часто противопоставляется текстовым данным , имея в виду любой вид данных, которые нельзя интерпретировать как текст . Различие между «текстом» и «двоичным» иногда может относиться к семантическому содержанию файла (например, письменный документ и цифровое изображение ). Однако это часто относится конкретно к тому, могут ли отдельные байты файла интерпретироваться как текст (см. Кодировка символов ) или не могут быть так интерпретированы. Когда подразумевается последнее значение, иногда используются более конкретные термины «двоичный формат» и «текстовый (уальский) формат» . Семантически текстовые данные могут быть представлены в двоичном формате (например, в сжатом виде или в определенных форматах, в которых смешиваются различные виды кодов форматирования, как в формате документа, используемом Microsoft Word ); напротив, данные изображения иногда представляются в текстовом формате (например, формат изображения X PixMap , используемый в системе X Window ).

1 и 0 — это не что иное, как два разных уровня напряжения. Вы можете заставить компьютер понимать 1 для более высокого напряжения и 0 для более низкого напряжения. Существует много разных способов сохранить два уровня напряжения. Если вы видели дискету, то вы найдете магнитную ленту с покрытием из ферромагнитного материала, это тип парамагнитного материала, домены которого ориентированы в определенном направлении, чтобы создать остаточное магнитное поле даже после удаления токов через материалы или магнитное поле. Во время загрузки данных на магнитную ленту магнитное поле передается в одном направлении, чтобы вызвать сохраненную ориентацию домена 1, а если магнитное поле передается в другом направлении, то сохраненная ориентация домена равна 0. Таким образом, Обычно сохраняются данные 1 и 0. [3]

Смотрите также

Рекомендации

  1. ^ аб Коллетт 2002, стр. 1.
  2. ^ Агрести, Алан (2012). «1.2.2 Полиномиальное распределение». Категориальный анализ данных (3-е изд.). Уайли. п. 6. ISBN 978-0470463635.
  3. ^ Гюль, Наджам (18 августа 2022 г.). «Как различные типы данных сохраняются в форме 0 и 1?». Чай любопытства . Проверено 5 января 2023 г.