Основная величина, полученная из вероятности возникновения определенного события из случайной величины
В теории информации информационное содержание , самоинформация , неожиданность или информация Шеннона — это базовая величина, выведенная из вероятности конкретного события, происходящего от случайной величины . Ее можно рассматривать как альтернативный способ выражения вероятности, во многом похожий на шансы или логарифм шансов , но имеющий особые математические преимущества в контексте теории информации.
Информация Шеннона может быть интерпретирована как количественная оценка уровня «неожиданности» конкретного результата. Поскольку это такая базовая величина, она также появляется в нескольких других параметрах, таких как длина сообщения, необходимая для передачи события при оптимальном исходном кодировании случайной величины.
Информация Шеннона тесно связана с энтропией , которая является ожидаемым значением собственной информации случайной величины, количественно определяя, насколько случайная величина удивительна «в среднем». Это среднее количество собственной информации, которое наблюдатель ожидает получить о случайной величине при ее измерении. [1]
Содержание информации может быть выражено в различных единицах информации , из которых наиболее распространенной является «бит» (более формально называемый шенноном ) , как поясняется ниже.
Термин «недоумение» используется в языковом моделировании для количественной оценки неопределенности, присущей набору предполагаемых событий.
Определение
Определение самоинформации Клода Шеннона было выбрано с учетом нескольких аксиом:
- Событие с вероятностью 100% совершенно неудивительно и не несет никакой информации.
- Чем менее вероятно событие, тем оно удивительнее и тем больше информации оно несет.
- Если два независимых события измеряются отдельно, то общий объем информации представляет собой сумму самоинформации отдельных событий.
Подробный вывод приведен ниже, но можно показать, что существует уникальная функция вероятности, которая удовлетворяет этим трем аксиомам с точностью до мультипликативного масштабного коэффициента. В широком смысле, если задано действительное число и событие с вероятностью , информационное содержание определяется следующим образом:
Основание b соответствует масштабному коэффициенту выше. Различные варианты b соответствуют различным единицам информации: когда b = 2 , единицей является шеннон (символ Sh), часто называемый «битом»; когда b = e , единицей является естественная единица информации (символ nat); и когда b = 10 , единицей является хартли (символ Hart).
Формально, если задана дискретная случайная величина с функцией массы вероятности , то самоинформация измерения как результат определяется как [2]
Использование обозначения для самоинформации выше не является универсальным. Поскольку обозначение также часто используется для связанного количества взаимной информации , многие авторы используют строчную букву для самоэнтропии, отражая использование заглавной буквы для энтропии.
Характеристики
Монотонно убывающая функция вероятности
Для заданного вероятностного пространства измерение более редких событий интуитивно более «удивительно» и дает больше информационного содержания, чем более распространенные значения. Таким образом, самоинформация является строго убывающей монотонной функцией вероятности, или иногда называемой «антитонной» функцией.
В то время как стандартные вероятности представлены действительными числами в интервале , самоинформация представлена расширенными действительными числами в интервале . В частности, для любого выбора логарифмического основания мы имеем следующее:
- Если вероятность возникновения конкретного события составляет 100%, то его самоинформация такова : его возникновение «совершенно неудивительно» и не несет никакой информации.
- Если вероятность наступления конкретного события составляет 0%, то его внутренняя информация такова : его наступление «бесконечно удивительно».
Отсюда можно вывести несколько общих свойств:
- Интуитивно больше информации можно получить, наблюдая неожиданное событие — оно «удивительно».
- Это устанавливает неявную связь между собственной информацией случайной величины и ее дисперсией .
Отношение к логарифмическим коэффициентам
Информация Шеннона тесно связана с логарифмическими шансами . В частности, если задано некоторое событие , предположим, что это вероятность его возникновения, а это вероятность его не возникновения. Тогда у нас есть следующее определение логарифмических шансов:
Это можно выразить как разность двух информаций Шеннона:
Другими словами, логарифм шансов можно интерпретировать как уровень неожиданности, когда событие не происходит, за вычетом уровня неожиданности, когда событие происходит .
Аддитивность независимых событий
Информационное содержание двух независимых событий является суммой информационного содержания каждого события. Это свойство известно как аддитивность в математике и сигма-аддитивность в частности в теории меры и вероятности. Рассмотрим две независимые случайные величины с функциями массы вероятности и соответственно. Совместная функция массы вероятности равна
поскольку и независимы . Информационное содержание результата равно См
. § Две независимые , одинаково распределенные игральные кости ниже для примера.
Соответствующее свойство для правдоподобий заключается в том, что логарифмическая вероятность независимых событий является суммой логарифмических вероятностей каждого события. Интерпретируя логарифмическую вероятность как «поддержку» или отрицательную неожиданность (степень, в которой событие поддерживает данную модель: модель поддерживается событием в той степени, в которой событие не является неожиданным, учитывая модель), это означает, что независимые события добавляют поддержку: информация, которую два события вместе предоставляют для статистического вывода, является суммой их независимой информации.
Связь с энтропией
Энтропия Шеннона случайной величины, указанной выше, по
определению равна ожидаемому информационному содержанию измерения . [3] : 11 [4] : 19–20
Ожидание берется по дискретным значениям на его носителе .
Иногда энтропию называют «самоинформацией» случайной величины, возможно, потому, что энтропия удовлетворяет , где — взаимная информация самой себя. [5]
Для непрерывных случайных величин соответствующим понятием является дифференциальная энтропия .
Примечания
Эта мера также называется неожиданностью , поскольку она представляет собой « сюрприз » от видения результата (крайне маловероятный результат очень удивителен). Этот термин (как логарифмическая мера вероятности) был введен Майроном Трибусом в его книге 1961 года «Термостатика и термодинамика» . [6] [7]
Когда событие представляет собой случайную реализацию (переменной), самоинформация переменной определяется как ожидаемое значение самоинформации реализации.
Самоинформация является примером правильного правила подсчета очков . [ необходимо разъяснение ]
Примеры
Справедливое подбрасывание монеты
Рассмотрим испытание Бернулли по подбрасыванию честной монеты . Вероятности событий выпадения монеты орлом и решкой (см. честная монета и аверс и реверс ) равны половине каждого, . При измерении переменной как орла связанный с ней прирост информации равен, так что прирост информации от честной монеты, выпавшей орлом, равен 1 шеннону . [2] Аналогично, прирост информации от измерения решки равен
Честный бросок кубика
Предположим, у нас есть честная шестигранная игральная кость . Значение броска игральной кости — это дискретная равномерная случайная величина с функцией массы вероятности. Вероятность выпадения 4 равна , как и для любого другого допустимого броска. Таким образом, информационное содержание выпадения 4 равно информации.
Две независимые, одинаково распределенные игральные кости
Предположим, что у нас есть две независимые, одинаково распределенные случайные величины, каждая из которых соответствует независимому честному броску 6-гранной кости. Совместное распределение и равно
Информационное содержание случайной величины может быть также
рассчитано с помощью аддитивности событий.
Если мы получаем информацию о значении игральных костей, не зная, какое значение имела игральная кость, мы можем формализовать подход с помощью так называемых переменных подсчета
для , тогда и подсчеты имеют полиномиальное распределение
Для проверки этого события 6 результатов соответствуют событию и общая вероятность 1/6 . Это единственные события, которые добросовестно сохраняются с идентичностью того, какой кубик выпал с каким результатом, потому что результаты одинаковы. Без знания того, как отличить кубик от других чисел, другие комбинации соответствуют одному кубику, выпавшему одно число, и другому кубику, выпавшему другое число, каждое из которых имеет вероятность 1/18 . Действительно, , как и требовалось.
Неудивительно, что информационное содержание обучения, что оба кубика были брошены с одним и тем же конкретным числом, больше информационного содержания обучения, что один кубик был одним числом, а другой — другим числом. Возьмем для примера события и для . Например, и .
Содержание информации:
Пусть будет событием, что обе кости выпали с одинаковым значением, а будет событием, что кости выпали с разным значением. Тогда и . Информационное содержание событий равно
Масса вероятности или функция плотности (совместно мера вероятности ) суммы двух независимых случайных величин является сверткой каждой меры вероятности . В случае независимых честных бросков 6-гранных игральных костей случайная величина имеет функцию массы вероятности , где представляет собой дискретную свертку . Результат имеет вероятность . Следовательно, утверждаемая информация
Общее дискретное равномерное распределение
Обобщая приведенный выше пример § Честного броска игральной кости, рассмотрим общую дискретную равномерную случайную величину (DURV). Для удобства определим . Функция массы вероятности равна В общем случае значения DURV не обязательно должны быть целыми числами или для целей теории информации даже равномерно распределенными; они должны быть только равновероятными . [2] Прирост информации любого наблюдения равен
Особый случай: постоянная случайная величина
Если выше, вырождается в постоянную случайную величину с распределением вероятностей, детерминированно заданным как и вероятностной мерой меры Дирака . Единственное значение, которое может принимать, это детерминированно , поэтому информационное содержание любого измерения равно В общем случае, нет никакой информации, полученной из измерения известного значения. [2]
Категориальное распределение
Обобщая все вышеперечисленные случаи, рассмотрим категориальную дискретную случайную величину с функцией поддержки и вероятности, заданной формулой
Для целей теории информации значения не обязательно должны быть числами ; они могут быть любыми взаимоисключающими событиями на пространстве меры конечной меры , нормализованными к мере вероятности . Без потери общности можно предположить, что категориальное распределение поддерживается на множестве ; математическая структура изоморфна в терминах теории вероятностей , а следовательно, и теории информации .
Информация о результате предоставляется
Из этих примеров можно вычислить информацию любого набора независимых DRV с известными распределениями по аддитивности .
Вывод
По определению, информация передается от исходного субъекта, владеющего информацией, к получающему субъекту только тогда, когда получатель не знал эту информацию априори . Если получающий субъект заранее знал содержание сообщения с уверенностью до его получения, объем информации полученного сообщения равен нулю. Только когда предварительное знание содержания сообщения получателем менее 100% определенно, сообщение фактически передает информацию.
Например, цитируя персонажа комика Джорджа Карлина (хиппи-диппи-синоптика) :
Прогноз погоды на сегодня: темно. Ночью темно, к утру будет широко рассеянный свет. [8]
Если предположить, что человек не проживает вблизи полярных регионов , то объем информации, содержащейся в этом прогнозе, равен нулю, поскольку еще до получения прогноза известно, что с наступлением ночи всегда наступает темнота.
Соответственно, количество собственной информации, содержащейся в сообщении, передающем содержание, информирующее о наступлении события , зависит только от вероятности этого события.
для некоторой функции , которая будет определена ниже. Если , то . Если , то .
Далее, по определению, мера самоинформации неотрицательна и аддитивна. Если сообщение, информирующее о событии, является пересечением двух независимых событий и , то информация о событии, происходящем, является информацией составного сообщения как о независимых событиях, так и о происходящем. Количество информации составного сообщения, как ожидается, будет равно сумме количеств информации отдельных компонентных сообщений и соответственно:
Из-за независимости событий и вероятность события равна
Однако применение функции приводит к
Благодаря работе над функциональным уравнением Коши , единственными монотонными функциями, имеющими свойство,
являются логарифмические функции . Единственное операциональное различие между логарифмами разных оснований заключается в различных масштабных константах, поэтому мы можем предположить
где — натуральный логарифм . Поскольку вероятности событий всегда находятся в диапазоне от 0 до 1, а информация, связанная с этими событиями, должна быть неотрицательной, это требует, чтобы .
Принимая во внимание эти свойства, самоинформация, связанная с результатом с вероятностью, определяется как:
Чем меньше вероятность события , тем больше количество собственной информации, связанной с сообщением о том, что событие действительно произошло. Если указанный выше логарифм имеет основание 2, то единицей измерения является шеннон . Это наиболее распространенная практика. При использовании натурального логарифма с основанием единицей измерения будет нат . Для логарифма с основанием 10 единицей измерения информации является хартли .
В качестве краткой иллюстрации, информационное содержание, связанное с результатом 4 орла (или любого конкретного результата) в 4 последовательных подбрасываниях монеты, будет 4 шеннона (вероятность 1/16), а информационное содержание, связанное с получением результата, отличного от указанного, будет ~0,09 шеннона (вероятность 15/16). Подробные примеры см. выше.
Смотрите также
Ссылки
- ^ Джонс, Д.С., Элементарная теория информации , т., Clarendon Press, Оксфорд, стр. 11–15, 1979 г.
- ^ abcd Макмахон, Дэвид М. (2008). Объяснение квантовых вычислений . Хобокен, Нью-Джерси: Wiley-Interscience. ISBN 9780470181386. OCLC 608622533.
- ^ Борда, Моника (2011). Основы теории информации и кодирования. Springer. ISBN 978-3-642-20346-6.
- ^ Хан, Те Сан; Кобаяши, Кинго (2002). Математика информации и кодирования. Американское математическое общество. ISBN 978-0-8218-4256-0.
- ^ Томас М. Кавер, Джой А. Томас; Элементы теории информации; стр. 20; 1991.
- ^ Р. Б. Бернстайн и Р. Д. Левин (1972) «Энтропия и химические изменения. I. Характеристика энергетических распределений продуктов (и реагентов) в столкновениях реактивных молекул: дефицит информации и энтропии», Журнал химической физики 57 , ссылка 434–449.
- ↑ Майрон Трибус (1961) Термодинамика и термостатика: введение в энергию, информацию и состояния материи с инженерными приложениями (Д. Ван Ностранд, 24 West 40 Street, New York 18, Нью-Йорк, США) Трибус, Майрон (1961), стр. 64–66 заимствовано.
- ^ "Цитата Джорджа Карлина". www.goodreads.com . Получено 01.04.2021 .
Дальнейшее чтение
Внешние ссылки
- Примеры неожиданных мер
- «Сюрпризная» запись в глоссарии молекулярной теории информации
- Байесовская теория неожиданности