Шеннон (символ: Sh) — единица информации, названная в честь Клода Шеннона , основателя теории информации . IEC 80000-13 определяет шеннон как информационное содержание, связанное с событием, когда вероятность наступления события равна 1/2 . Он понимается как таковой в области теории информации и концептуально отличается от бита , термина, используемого в обработке и хранении данных для обозначения одного экземпляра двоичного сигнала . Последовательность из n двоичных символов (например, содержащаяся в памяти компьютера или двоичной передаче данных) правильно описывается как состоящая из n бит, но информационное содержание этих n символов может быть больше или меньше n шеннонов в зависимости от априорной вероятности фактической последовательности символов. [1]
Шеннон также служит единицей информационной энтропии события, которая определяется как ожидаемое значение информационного содержания события (т. е. средневзвешенное по вероятности значение информационного содержания всех потенциальных событий). При наличии ряда возможных результатов, в отличие от информационного содержания, энтропия имеет верхнюю границу, которая достигается, когда возможные результаты равновероятны. Максимальная энтропия n бит равна n Sh. Еще одна величина, для которой она используется, — это пропускная способность канала , которая обычно является максимумом ожидаемого значения информационного содержания, закодированного по каналу, которое может быть передано с пренебрежимо малой вероятностью ошибки, как правило, в форме скорости передачи информации.
Тем не менее, термин биты информации или просто биты чаще можно услышать, даже в областях теории информации и связи , чем шенноны ; простое упоминание битов может быть поэтому двусмысленным. Использование единицы шеннон является явной ссылкой на количество информационного содержания, информационной энтропии или пропускной способности канала и не ограничивается двоичными данными, [2] тогда как «биты» могут также относиться к числу задействованных двоичных символов, как и термин, используемый в таких областях, как обработка данных.
Шеннон связан через константы пропорциональности с двумя другими единицами информации: [3]
Хартли , редко используемая единица, названа в честь Ральфа Хартли , инженера-электронщика, интересовавшегося емкостью каналов связи. Хотя его ранние работы были более ограниченными, предшествовавшие работам Шеннона, его также признали пионером теории информации. Так же , как Шеннон описывает максимально возможную информационную емкость двоичного символа, Хартли описывает информацию, которая может содержаться в 10-арном символе, то есть цифровом значении в диапазоне от 0 до 9, когда априорная вероятность каждого значения равна 1/10 . Коэффициент преобразования, указанный выше, определяется как log 10 (2).
В математических выражениях nat является более естественной единицей информации, но 1 nat не соответствует случаю, в котором все возможности равновероятны, в отличие от шеннона и хартли. В каждом случае формулы для количественной оценки информационной емкости или энтропии включают взятие логарифма выражения, включающего вероятности. Если используются логарифмы по основанию 2, результат выражается в шеннонах, если по основанию 10 ( десятичные логарифмы ), то результат выражается в хартли, а если натуральные логарифмы (по основанию e ), то результат выражается в натах. Например, информационная емкость 16-битной последовательности (достигаемая, когда все 65536 возможных последовательностей равновероятны) определяется как log(65536), таким образом, log 10 (65536) Hart ≈ 4,82 Hart , log e (65536) nat ≈ 11,09 nat , или log 2 (65536) Sh = 16 Sh .
В теории информации и производных областях, таких как теория кодирования , невозможно количественно оценить «информацию» в отдельном сообщении (последовательности символов) вне контекста, а скорее делается ссылка на модель канала (например, на частоту появления ошибок в битах ) или на базовую статистику источника информации. Таким образом, существуют различные меры информации или связанные с ней , все из которых могут использовать шеннон в качестве единицы. [ необходима цитата ]
Например, в приведенном выше примере можно сказать, что 16-битный канал имеет пропускную способность 16 Sh, но при подключении к определенному источнику информации, который отправляет только одно из 8 возможных сообщений, можно вычислить энтропию его выходных данных как не более 3 Sh. И если кто-то уже был проинформирован через побочный канал, в каком наборе из 4 возможных сообщений находится сообщение, то можно вычислить взаимную информацию нового сообщения (имеющего 8 возможных состояний) как не более 2 Sh. Хотя существует бесконечное количество возможностей для действительного числа, выбранного между 0 и 1, так называемая дифференциальная энтропия может использоваться для количественной оценки информационного содержания аналогового сигнала, например, связанного с улучшением отношения сигнал/шум или достоверностью проверки гипотезы . [ требуется ссылка ]
Système International d'unités рекомендует использовать шеннон ( Ш) в качестве единицы информации вместо бита , чтобы отличить количество информации от количества данных, которые могут быть использованы для представления этой информации. Таким образом, согласно стандарту СИ, H ( X ) фактически должен быть выражен в шеннонах. Энтропия одного бита лежит между 0 и 1 Ш.