В теории вероятностей и теории информации взаимная информация ( МИ ) двух случайных величин является мерой взаимной зависимости между двумя переменными. Более конкретно, она количественно определяет « количество информации » (в таких единицах , как шенноны ( биты ), наты или хартли ), полученное об одной случайной величине путем наблюдения за другой случайной величиной. Понятие взаимной информации тесно связано с понятием энтропии случайной величины, фундаментальным понятием в теории информации, которое количественно определяет ожидаемое «количество информации», содержащееся в случайной величине.
Пусть будет парой случайных величин со значениями в пространстве . Если их совместное распределение равно и маргинальные распределения равны и , взаимная информация определяется как
Обратите внимание, что согласно свойству расхождения Кульбака–Лейблера , оно равно нулю именно тогда, когда совместное распределение совпадает с произведением маргинальных значений, т. е. когда и независимы (и, следовательно, наблюдение ничего не говорит вам о ). является неотрицательным, это мера цены кодирования в виде пары независимых случайных величин, хотя на самом деле это не так.
В случае совместно непрерывных случайных величин двойная сумма заменяется двойным интегралом : [3] : 251
где теперь — совместная функция плотности вероятности и , а и — предельные функции плотности вероятности и соответственно.
Мотивация
Интуитивно, взаимная информация измеряет информацию, которой и делятся: она измеряет, насколько знание одной из этих переменных уменьшает неопределенность относительно другой. Например, если и независимы, то знание не дает никакой информации о и наоборот, поэтому их взаимная информация равна нулю. С другой стороны, если является детерминированной функцией и является детерминированной функцией тогда вся информация, передаваемая делится с : знание определяет значение и наоборот. В результате взаимная информация такая же, как неопределенность, содержащаяся в (или ), а именно энтропия (или ) . Совершенно особый случай этого — когда и являются одной и той же случайной величиной.
Взаимная информация является мерой неотъемлемой зависимости, выраженной в совместном распределении и относительно предельного распределения и при допущении независимости. Взаимная информация, таким образом, измеряет зависимость в следующем смысле: если и только если и являются независимыми случайными величинами. Это легко увидеть в одном направлении: если и независимы, то , и, следовательно:
Более того, взаимная информация неотрицательна (т.е. см. ниже) и симметрична (т.е. см. ниже).
Характеристики
Неотрицательность
Используя неравенство Йенсена в определении взаимной информации, мы можем показать, что является неотрицательным, т.е. [3] : 28
Симметрия
Доказательство дано с учетом связи с энтропией, как показано ниже.
Супермодулярность в условиях независимости
Если не зависит от , то
. [4]
Отношение к условной и совместной энтропии
Взаимную информацию можно эквивалентно выразить как:
Обратите внимание на аналогию с объединением, разностью и пересечением двух множеств: в этом отношении все приведенные выше формулы очевидны из диаграммы Венна, приведенной в начале статьи.
С точки зрения канала связи, в котором выходной сигнал представляет собой зашумленную версию входного сигнала , эти соотношения суммированы на рисунке:
Поскольку неотрицательно, следовательно, . Здесь мы приводим подробный вывод для случая совместно дискретных случайных величин:
Доказательства других тождеств выше аналогичны. Доказательство общего случая (не только дискретного) аналогично, с заменой сумм на интегралы.
Интуитивно, если энтропия рассматривается как мера неопределенности относительно случайной величины, то является мерой того, что не говорится о . Это «количество неопределенности, остающееся относительно после того , как известно», и, таким образом, правая часть второго из этих равенств может быть прочитана как «количество неопределенности в , за вычетом количества неопределенности в , которое остается после того , как известно», что эквивалентно «количеству неопределенности в , которое устраняется знанием ». Это подтверждает интуитивное значение взаимной информации как количества информации (то есть уменьшения неопределенности), которое знание одной переменной дает о другой.
Обратите внимание, что в дискретном случае и , следовательно . Таким образом , и можно сформулировать основной принцип, что переменная содержит по крайней мере столько же информации о себе, сколько может предоставить любая другая переменная.
Далее, пусть будет условной функцией массы или плотности. Тогда имеем тождество
Доказательство для совместно дискретных случайных величин выглядит следующим образом:
Аналогично это тождество может быть установлено для совместно непрерывных случайных величин.
Обратите внимание, что здесь расхождение Кульбака–Лейблера подразумевает интегрирование только по значениям случайной величины , и выражение по-прежнему обозначает случайную величину, поскольку является случайным. Таким образом, взаимную информацию можно также понимать как ожидание расхождения Кульбака–Лейблера одномерного распределения от условного распределения заданного : чем больше различаются распределения и в среднем, тем больше прирост информации .
Байесовская оценка взаимной информации
Если доступны образцы из совместного распределения, байесовский подход может быть использован для оценки взаимной информации этого распределения. Первой работой, которая сделала это, которая также показала, как делать байесовскую оценку многих других информационно-теоретических свойств помимо взаимной информации, была. [5] Последующие исследователи перевывели [6] и расширили [7]
этот анализ. См . [8] для недавней статьи, основанной на предшествующей, специально адаптированной для оценки взаимной информации как таковой. Кроме того, недавно метод оценки, учитывающий непрерывные и многомерные выходы, был предложен в . [9]
Независимость предположений
Формулировка дивергенции Кульбака-Лейблера взаимной информации основана на том, что мы заинтересованы в сравнении с полностью факторизованным внешним произведением . Во многих задачах, таких как неотрицательная матричная факторизация , мы заинтересованы в менее экстремальных факторизациях; в частности, мы хотим сравнить с приближением матрицы низкого ранга в некоторой неизвестной переменной ; то есть, в какой степени мы могли бы иметь
В качестве альтернативы, может быть интересно узнать, сколько еще информации переносит его факторизация. В таком случае избыточная информация, которую полное распределение переносит через матричную факторизацию, задается расхождением Кульбака-Лейблера
Традиционное определение взаимной информации восстанавливается в крайнем случае, когда процесс имеет только одно значение для .
Вариации
Было предложено несколько вариантов взаимной информации для удовлетворения различных потребностей. Среди них — нормализованные варианты и обобщения на более чем две переменные.
Метрическая
Во многих приложениях требуется метрика , то есть мера расстояния между парами точек. Величина
Если — дискретные случайные величины, то все члены энтропии неотрицательны, поэтому можно определить нормализованное расстояние
Метрика является универсальной метрикой, поскольку если любое другое расстояние измеряет места и близко, то оно также будет оценивать их близко. [11] [ сомнительно – обсудить ]
Подстановка определений показывает, что
Это известно как расстояние Райского. [12] В теоретико-множественной интерпретации информации (см. рисунок Условная энтропия ) это фактически расстояние Жаккара между и .
Окончательно,
также является метрикой.
Условная взаимная информация
Иногда полезно выразить взаимную информацию двух случайных величин, обусловленную третьей.
Обусловливание третьей случайной переменной может либо увеличить, либо уменьшить взаимную информацию, но всегда верно, что
для дискретных, совместно распределенных случайных величин . Этот результат был использован в качестве базового строительного блока для доказательства других неравенств в теории информации .
Информация о взаимодействии
Было предложено несколько обобщений взаимной информации для более чем двух случайных величин, таких как полная корреляция (или мультиинформация) и двойная полная корреляция . Выражение и изучение многомерной взаимной информации более высокой степени было достигнуто в двух, казалось бы, независимых работах: Макгилл (1954) [13], который назвал эти функции «информацией взаимодействия», и Ху Куо Тин (1962). [14] Информация взаимодействия определяется для одной переменной следующим образом:
и для
Некоторые авторы меняют порядок членов в правой части предыдущего уравнения, что меняет знак, когда число случайных величин нечетно. (И в этом случае выражение с одной переменной становится отрицательным значением энтропии.) Обратите внимание, что
Многомерная статистическая независимость
Многомерные функции взаимной информации обобщают случай парной независимости, который утверждает, что тогда и только тогда, когда , для произвольного множества переменных. n переменных взаимно независимы тогда и только тогда, когда функции взаимной информации обращаются в нуль с (теорема 2 [15] ). В этом смысле может использоваться как уточненный критерий статистической независимости.
Приложения
Для 3 переменных Бреннер и др. применили многомерную взаимную информацию к нейронному кодированию и назвали ее отрицательность «синергией» [16], а Уоткинсон и др. применили ее к генетической экспрессии. [17] Для произвольных k переменных Тапиа и др. применили многомерную взаимную информацию к генной экспрессии. [18] [15] Она может быть нулевой, положительной или отрицательной. [14] Положительность соответствует отношениям, обобщающим попарные корреляции, нуль соответствует уточненному понятию независимости, а отрицательность обнаруживает высокоразмерные «возникающие» отношения и кластеризованные точки данных [18] ).
Одна схема обобщения высокой размерности, которая максимизирует взаимную информацию между совместным распределением и другими целевыми переменными, оказывается полезной при выборе признаков . [19]
Взаимная информация также используется в области обработки сигналов как мера сходства между двумя сигналами. Например, метрика FMI [20] является мерой производительности слияния изображений, которая использует взаимную информацию для измерения объема информации, которую содержит слитое изображение об исходных изображениях. Код Matlab для этой метрики можно найти по адресу. [21] Доступен пакет Python для вычисления всех многомерных взаимных информаций, условных взаимных информаций, совместных энтропий, общих корреляций, информационного расстояния в наборе данных из n переменных. [22]
Направленная информация
Направленная информация , , измеряет количество информации, которая течет от процесса к , где обозначает вектор и обозначает . Термин направленная информация был придуман Джеймсом Мэсси и определяется как
.
Обратите внимание, что если , направленная информация становится взаимной информацией. Направленная информация имеет множество применений в задачах, где причинность играет важную роль, например, пропускная способность канала с обратной связью. [23] [24]
Нормализованные варианты
Нормализованные варианты взаимной информации обеспечиваются коэффициентами ограничений [25] , коэффициентами неопределенности [26] или квалификацией: [27]
Два коэффициента имеют значение в диапазоне [0, 1], но не обязательно равны. Эта мера не симметрична. Если требуется симметричная мера, можно рассмотреть следующую меру избыточности :
который достигает минимума, равного нулю, когда переменные независимы, и максимального значения
Другой симметричной мерой является симметричная неопределенность (Witten & Frank 2005), определяемая как
что представляет собой гармоническое среднее двух коэффициентов неопределенности . [26]
Если мы рассматриваем взаимную информацию как частный случай полной корреляции или двойной полной корреляции , то нормализованные версии будут соответственно такими:
и
Эта нормализованная версия, также известная как коэффициент качества информации (IQR) , количественно определяет объем информации переменной на основе другой переменной по отношению к общей неопределенности: [28]
Существует нормализация [29] , которая вытекает из того, что сначала мы думаем о взаимной информации как об аналоге ковариации (таким образом, энтропия Шеннона аналогична дисперсии ). Затем нормализованная взаимная информация вычисляется подобно коэффициенту корреляции Пирсона ,
Взвешенные варианты
В традиционной формулировке взаимной информации,
каждое событие или объект, указанный с помощью , взвешивается соответствующей вероятностью . Это предполагает, что все объекты или события эквивалентны, за исключением вероятности их возникновения. Однако в некоторых приложениях может быть так, что некоторые объекты или события более значимы , чем другие, или что некоторые модели ассоциации более семантически важны, чем другие.
Например, детерминированное отображение может рассматриваться как более сильное, чем детерминированное отображение , хотя эти отношения дадут ту же самую взаимную информацию. Это происходит потому, что взаимная информация вообще не чувствительна к какому-либо внутреннему порядку в значениях переменных (Cronbach 1954, Coombs, Dawes & Tversky 1970, Lockhead 1970), и, следовательно, вообще не чувствительна к форме реляционного отображения между связанными переменными. Если желательно, чтобы предыдущее отношение — показывающее согласие по всем значениям переменных — оценивалось сильнее, чем последующее отношение, то можно использовать следующую взвешенную взаимную информацию (Guiasu 1977).
который накладывает вес на вероятность совместного появления каждого значения переменной, . Это позволяет, чтобы определенные вероятности могли иметь большее или меньшее значение, чем другие, тем самым позволяя количественно оценить соответствующие целостные или факторы Прегнанца . В приведенном выше примере использование больших относительных весов для , , и имело бы эффект оценки большей информативности для отношения , чем для отношения , что может быть желательно в некоторых случаях распознавания образов и тому подобного. Эта взвешенная взаимная информация является формой взвешенной KL-дивергенции, которая, как известно, принимает отрицательные значения для некоторых входных данных, [30] и есть примеры, когда взвешенная взаимная информация также принимает отрицательные значения. [31]
Скорректированная взаимная информация
Распределение вероятностей можно рассматривать как разбиение множества . Тогда можно спросить: если бы множество было разделено случайным образом, каким было бы распределение вероятностей? Каким было бы математическое ожидание взаимной информации? Скорректированная взаимная информация или AMI вычитает математическое ожидание MI, так что AMI равен нулю, когда два различных распределения случайны, и единице, когда два распределения идентичны. AMI определяется по аналогии со скорректированным индексом Рэнда двух различных разбиений множества.
Абсолютная взаимная информация
Используя идеи сложности Колмогорова , можно рассмотреть взаимную информацию двух последовательностей независимо от какого-либо распределения вероятностей:
Чтобы установить, что эта величина симметрична с точностью до логарифмического множителя ( ), требуется цепное правило для сложности Колмогорова (Li & Vitanyi 1997). Аппроксимации этой величины посредством сжатия могут быть использованы для определения меры расстояния для выполнения иерархической кластеризации последовательностей без знания домена последовательностей (Cilibrasi & Vitanyi 2005).
Линейная корреляция
В отличие от коэффициентов корреляции, таких как коэффициент корреляции моментов произведения , взаимная информация содержит информацию обо всех зависимостях — линейных и нелинейных — а не только о линейной зависимости, которую измеряет коэффициент корреляции. Однако в узком случае, когда совместное распределение для и является двумерным нормальным распределением (подразумевая, в частности, что оба предельных распределения распределены нормально), существует точная связь между и коэффициентом корреляции (Гельфанд и Яглом, 1957).
Уравнение выше можно вывести следующим образом для двумерного гауссовского распределения:
Поэтому,
Для дискретных данных
Когда и ограничены дискретным числом состояний, данные наблюдений суммируются в таблице сопряженности с переменной строки (или ) и переменной столбца (или ). Взаимная информация является одной из мер ассоциации или корреляции между переменными строки и столбца.
Другие меры ассоциации включают статистику хи-квадрат теста Пирсона , статистику G-теста и т. д. Фактически, при той же базе логарифма взаимная информация будет равна статистике логарифма правдоподобия G-теста, деленной на , где — размер выборки.
Приложения
Во многих приложениях требуется максимизировать взаимную информацию (тем самым увеличивая зависимости), что часто эквивалентно минимизации условной энтропии . Примеры включают:
В технологии поисковых систем взаимная информация между фразами и контекстами используется как признак для кластеризации k-средних с целью обнаружения семантических кластеров (концепций). [32] Например, взаимная информация биграммы может быть рассчитана как:
где — количество появлений биграммы xy в корпусе, — количество появлений униграммы x в корпусе, B — общее количество биграмм, а U — общее количество униграмм. [32]
Взаимная информация используется для определения сходства двух различных кластеризаций набора данных. Таким образом, она обеспечивает некоторые преимущества по сравнению с традиционным индексом Рэнда .
Взаимная информация слов часто используется как функция значимости для вычисления коллокаций в корпусной лингвистике . Это имеет дополнительную сложность, поскольку ни один экземпляр слова не является экземпляром двух разных слов; вместо этого подсчитываются случаи, когда 2 слова встречаются рядом или в непосредственной близости; это немного усложняет расчет, поскольку ожидаемая вероятность того, что одно слово встречается в словах другого, увеличивается с
Взаимная информация используется в медицинской визуализации для регистрации изображений . При наличии эталонного изображения (например, сканирования мозга) и второго изображения, которое необходимо поместить в ту же систему координат , что и эталонное изображение, это изображение деформируется до тех пор, пока взаимная информация между ним и эталонным изображением не будет максимизирована.
В статистической механике парадокс Лошмидта может быть выражен в терминах взаимной информации. [33] [34] Лошмидт отметил, что невозможно определить физический закон, который не обладает симметрией обращения времени (например, второй закон термодинамики ) , только из физических законов, которые обладают этой симметрией. Он указал, что H-теорема Больцмана сделала предположение, что скорости частиц в газе постоянно некоррелированы, что устраняет временную симметрию, присущую H-теореме. Можно показать, что если система описывается плотностью вероятности в фазовом пространстве , то теорема Лиувилля подразумевает, что совместная информация (отрицательная по отношению к совместной энтропии) распределения остается постоянной во времени. Совместная информация равна взаимной информации плюс сумма всей предельной информации (отрицательная по отношению к предельным энтропиям) для каждой координаты частицы. Предположение Больцмана равносильно игнорированию взаимной информации при расчете энтропии, что дает термодинамическую энтропию (деленную на постоянную Больцмана).
В стохастических процессах, связанных с изменяющейся средой, взаимная информация может использоваться для распутывания внутренних и эффективных зависимостей среды. [35] [36] Это особенно полезно, когда физическая система претерпевает изменения в параметрах, описывающих ее динамику, например, изменения температуры.
Взаимная информация используется для изучения структуры байесовских сетей / динамических байесовских сетей , которая, как считается, объясняет причинно-следственную связь между случайными величинами, как показано на примере инструментария GlobalMIT: [37] изучение глобально оптимальной динамической байесовской сети с критерием проверки взаимной информации.
Взаимная информация используется для количественной оценки информации, передаваемой во время процедуры обновления в алгоритме выборки Гиббса . [38]
Взаимная информация используется в космологии для проверки влияния крупномасштабных сред на свойства галактик в Галактическом зоопарке .
Взаимная информация была использована в физике Солнца для получения профиля дифференциального вращения Солнца , карты отклонений времени перемещения солнечных пятен и диаграммы времени-расстояния из измерений спокойного Солнца [39]
Используется в кластеризации инвариантной информации для автоматического обучения классификаторов нейронных сетей и сегментаторов изображений без маркированных данных. [40]
В стохастических динамических системах с множественными временными шкалами было показано, что взаимная информация фиксирует функциональные связи между различными временными шкалами. [41] Важно отметить, что было показано, что физические взаимодействия могут приводить или не приводить к возникновению взаимной информации в зависимости от типичной временной шкалы их динамики.
^ Обложка, Томас М.; Томас, Джой А. (2005). Элементы теории информации (PDF) . John Wiley & Sons, Ltd. стр. 13–55. ISBN 9780471748823.
^ Kreer, JG (1957). «Вопрос терминологии». Труды IRE по теории информации . 3 (3): 208. doi :10.1109/TIT.1957.1057418.
^ abc Cover, TM; Thomas, JA (1991). Элементы теории информации (ред. Wiley). John Wiley & Sons. ISBN978-0-471-24195-9.
^ Янссен, Джозеф; Гуан, Винсент; Робева, Элина (2023). «Сверхмаргинальная важность признаков: обучение на основе данных с причинными гарантиями». Международная конференция по искусственному интеллекту и статистике : 10782–10814. arXiv : 2204.09938 .
^ Вулперт, Д. Х.; Вольф, Д. Р. (1995). «Оценка функций вероятностных распределений из конечного набора выборок». Physical Review E. 52 ( 6): 6841–6854. Bibcode :1995PhRvE..52.6841W. CiteSeerX 10.1.1.55.7122 . doi :10.1103/PhysRevE.52.6841. PMID 9964199. S2CID 9795679.
^ Хаттер, М. (2001). «Распределение взаимной информации». Достижения в области нейронных систем обработки информации .
^ Арчер, Э.; Парк, И. М.; Пиллоу, Дж. (2013). «Байесовские и квазибайесовские оценки взаимной информации из дискретных данных». Энтропия . 15 (12): 1738–1755. Bibcode : 2013Entrp..15.1738A. CiteSeerX 10.1.1.294.4690 . doi : 10.3390/e15051738 .
^ Wolpert, DH; DeDeo, S. (2013). «Оценка функций распределений, определенных в пространствах неизвестного размера». Entropy . 15 (12): 4668–4699. arXiv : 1311.4548 . Bibcode : 2013Entrp..15.4668W. doi : 10.3390/e15114668 . S2CID 2737117.
^ Райски, К. (1961). «Метрическое пространство дискретных распределений вероятностей». Информация и управление . 4 (4): 371–377. doi :10.1016/S0019-9958(61)80055-7.
^ Красков, Александр; Штёгбауэр, Харальд; Анджейак, Ральф Г.; Грассбергер, Питер (2003). «Иерархическая кластеризация на основе взаимной информации». arXiv : q-bio/0311039 . Bibcode :2003q.bio....11039K.{{cite journal}}: Цитировать журнал требует |journal=( помощь )
^ Райски, К. (1961). «Метрическое пространство дискретных распределений вероятностей». Информация и управление . 4 (4): 371–377. doi :10.1016/S0019-9958(61)80055-7.
^ Макгилл, У. (1954). «Многомерная передача информации». Психометрика . 19 (1): 97–116. doi :10.1007/BF02289159. S2CID 126431489.
^ ab Hu, KT (1962). «О количестве информации». Theory Probab. Appl . 7 (4): 439–447. doi :10.1137/1107041.
^ ab Baudot, P.; Tapia, M.; Bennequin, D.; Goaillard, JM (2019). "Анализ топологических информационных данных". Entropy . 21 (9). 869. arXiv : 1907.04242 . Bibcode : 2019Entrp..21..869B . doi : 10.3390/e21090869 . PMC 7515398. S2CID 195848308.
^ Бреннер, Н.; Стронг, С.; Коберле, Р.; Бьялек, В. (2000). «Синергия в нейронном коде». Neural Comput . 12 (7): 1531–1552. doi :10.1162/089976600300015259. PMID 10935917. S2CID 600528.
^ Watkinson, J.; Liang, K.; Wang, X.; Zheng, T.; Anastassiou, D. (2009). «Вывод регуляторных взаимодействий генов из данных об экспрессии с использованием трехсторонней взаимной информации». Chall. Syst. Biol. Ann. NY Acad. Sci . 1158 (1): 302–313. Bibcode :2009NYASA1158..302W. doi :10.1111/j.1749-6632.2008.03757.x. PMID 19348651. S2CID 8846229.
^ ab Tapia, M.; Baudot, P.; Formizano-Treziny, C.; Dufour, M.; Goaillard, JM (2018). «Идентичность нейротрансмиттера и электрофизиологический фенотип генетически связаны в дофаминергических нейронах среднего мозга». Sci. Rep . 8 (1): 13637. Bibcode : 2018NatSR...813637T. doi : 10.1038/s41598-018-31765-z. PMC 6134142. PMID 30206240 .
^ Хагигхат, MBA; Агаголзаде, А.; Сейедараби, Х. (2011). «Метрика слияния нереферентных изображений, основанная на взаимной информации характеристик изображения». Компьютеры и электротехника . 37 (5): 744–756. doi :10.1016/j.compeleceng.2011.07.012. S2CID 7738541.
^ "Метрика взаимной информации о признаках (FMI) для слияния нереферентных изображений - Обмен файлами - MATLAB Central". www.mathworks.com . Получено 4 апреля 2018 г. .
^ "InfoTopo: Топологический информационный анализ данных. Глубокое статистическое неконтролируемое и контролируемое обучение - Обмен файлами - Github". github.com/pierrebaudot/infotopopy/ . Получено 26 сентября 2020 г. .
^ Мэсси, Джеймс (1990). «Причинность, обратная связь и направленная информация». Proc. 1990 Intl. Symp. on Info. Th. and its Applications, Waikiki, Hawaii, 27–30 ноября 1990 г. CiteSeerX 10.1.1.36.5688 .
^ Пермутэр, Хаим Генри; Вайсман, Цахи; Голдсмит, Андреа Дж. (февраль 2009 г.). «Конечные каналы с инвариантной во времени детерминированной обратной связью». Труды IEEE по теории информации . 55 (2): 644–662. arXiv : cs/0608070 . doi : 10.1109/TIT.2008.2009849. S2CID 13178.
^ Кумбс, Доус и Тверски 1970.
^ ab Press, WH; Teukolsky, SA; Vetterling, WT; Flannery, BP (2007). "Раздел 14.7.3. Условная энтропия и взаимная информация". Numerical Recipes: The Art of Scientific Computing (3-е изд.). Нью-Йорк: Cambridge University Press. ISBN978-0-521-88068-8. Архивировано из оригинала 2011-08-11 . Получено 2011-08-13 .
^ Уайт, Джим; Стайнголд, Сэм; Фурнель, Конни. Показатели производительности для алгоритмов обнаружения групп (PDF) . Интерфейс 2004. Архивировано из оригинала (PDF) 2016-07-05 . Получено 2014-02-19 .
^ Виджая, Деди Рахман; Сарно, Рианарто; Зулайка, Энни (2017). «Коэффициент качества информации как новый показатель для выбора исходного вейвлета». Хемометрика и интеллектуальные лабораторные системы . 160 : 59–71. doi : 10.1016/j.chemolab.2016.11.012.
^ Штрель, Александр; Гош, Джойдип (2003). «Кластерные ансамбли – структура повторного использования знаний для объединения нескольких разделов» (PDF) . Журнал исследований машинного обучения . 3 : 583–617. doi :10.1162/153244303321897735.
^ Kvålseth, TO (1991). «Относительная полезная информационная мера: некоторые комментарии». Information Sciences . 56 (1): 35–38. doi :10.1016/0020-0255(91)90022-m.
^ Покок, А. (2012). Выбор признаков с помощью совместного правдоподобия (PDF) (диссертация).
^ ab Анализ естественного языка с использованием статистики взаимной информации Дэвида М. Магермана и Митчелла П. Маркуса
↑ Хью Эверетт Теория универсальной волновой функции, Диссертация, Принстонский университет, (1956, 1973), стр. 1–140 (стр. 30)
^ Эверетт, Хью (1957). «Формулировка относительного состояния квантовой механики». Reviews of Modern Physics . 29 (3): 454–462. Bibcode : 1957RvMP...29..454E. doi : 10.1103/revmodphys.29.454. Архивировано из оригинала 27.10.2011 . Получено 16.07.2012 .
^ Николетти, Джорджио; Бузиелло, Даниэль Мария (22.11.2021). «Взаимная информация распутывает взаимодействия в изменяющихся условиях». Physical Review Letters . 127 (22): 228301. arXiv : 2107.08985 . Bibcode : 2021PhRvL.127v8301N. doi : 10.1103/PhysRevLett.127.228301. PMID 34889638. S2CID 236087228.
^ Николетти, Джорджио; Бузиелло, Даниэль Мария (29.07.2022). «Взаимная информация в изменяющихся средах: нелинейные взаимодействия, неравновесные системы и непрерывно меняющиеся коэффициенты диффузии». Physical Review E. 106 ( 1): 014153. arXiv : 2204.01644 . Bibcode : 2022PhRvE.106a4153N. doi : 10.1103/PhysRevE.106.014153. PMID 35974654.
^ Ли, Се Юн (2021). «Сэмплер Гиббса и вариационный вывод с восхождением координат: обзор теории множеств». Communications in Statistics - Theory and Methods . 51 (6): 1549–1568. arXiv : 2008.01006 . doi : 10.1080/03610926.2021.1921214. S2CID 220935477.
^ Киз, Дастин; Холиков, Шукур; Певцов, Алексей А. (февраль 2015 г.). «Применение методов взаимной информации в гелиосейсмологии на основе временных расстояний». Solar Physics . 290 (3): 659–671. arXiv : 1501.05597 . Bibcode :2015SoPh..290..659K. doi :10.1007/s11207-015-0650-y. S2CID 118472242.
^ Инвариантная информационная кластеризация для неконтролируемой классификации и сегментации изображений, авторы Сюй Цзи, Жоао Энрикес и Андреа Ведальди
^ Николетти, Джорджио; Бузиелло, Даниэль Мария (2024-04-08). «Распространение информации в многослойных системах с взаимодействиями более высокого порядка во временных масштабах». Physical Review X. 14 ( 2): 021007. arXiv : 2312.06246 . Bibcode : 2024PhRvX..14b1007N. doi : 10.1103/PhysRevX.14.021007.
Cilibrasi, R.; Vitányi, Paul (2005). «Кластеризация с помощью сжатия» (PDF) . IEEE Transactions on Information Theory . 51 (4): 1523–1545. arXiv : cs/0312044 . doi :10.1109/TIT.2005.844059. S2CID 911.
Cronbach, LJ (1954). «О нерациональном применении информационных мер в психологии». В Quastler, Henry (ред.). Теория информации в психологии: проблемы и методы . Glencoe, Illinois: Free Press. стр. 14–30.
Чёрч, Кеннет Уорд; Хэнкс, Патрик (1989). «Нормы словесных ассоциаций, взаимная информация и лексикография». Труды 27-го ежегодного собрания Ассоциации компьютерной лингвистики . 16 (1): 76–83. doi : 10.3115/981623.981633 .
Гельфанд, ИМ; Яглом, АМ (1957). «Вычисление количества информации о случайной функции, содержащейся в другой такой функции». American Mathematical Society Translations . Series 2. 12 : 199–246. doi :10.1090/trans2/012/09. ISBN 9780821817124.Английский перевод оригинала в Успехах математических наук 12 (1): 3-52.
Guiasu, Silviu (1977). Теория информации с приложениями . McGraw-Hill, Нью-Йорк. ISBN 978-0-07-025109-0.
Ли, Мин; Витаньи, Пол (февраль 1997 г.). Введение в колмогоровскую сложность и ее приложения . Нью-Йорк: Springer-Verlag . ISBN 978-0-387-94868-3.
Локхед, GR (1970). «Идентификация и форма многомерного дискриминационного пространства». Журнал экспериментальной психологии . 85 (1): 1–10. doi :10.1037/h0029508. PMID 5458322.
Дэвид Дж. К. Маккей. Теория информации, вывод и алгоритмы обучения Кембридж: Cambridge University Press, 2003. ISBN 0-521-64298-1 (доступно бесплатно онлайн)
Хагигат, MBA; Агаголзаде, А.; Сейедараби, Х. (2011). «Метрика слияния нереферентных изображений, основанная на взаимной информации характеристик изображения». Компьютеры и электротехника . 37 (5): 744–756. doi :10.1016/j.compeleceng.2011.07.012. S2CID 7738541.
Афанасиос Папулис . Вероятность, случайные величины и стохастические процессы , второе издание. Нью-Йорк: McGraw-Hill, 1984. (См. главу 15.)
Witten, Ian H. & Frank, Eibe (2005). Data Mining: Practical Machine Learning Tools and Techniques. Morgan Kaufmann, Амстердам. ISBN 978-0-12-374856-0.
Peng, HC; Long, F. & Ding, C. (2005). «Выбор признаков на основе взаимной информации: критерии максимальной зависимости, максимальной релевантности и минимальной избыточности». Труды IEEE по анализу шаблонов и машинному интеллекту . 27 (8): 1226–1238. CiteSeerX 10.1.1.63.5765 . doi :10.1109/tpami.2005.159. PMID 16119262. S2CID 206764015.
Андре С. Рибейро; Стюарт А. Кауффман; Джейсон Ллойд-Прайс; Бьорн Самуэльссон и Джошуа Соколар (2008). «Взаимная информация в случайных булевых моделях регуляторных сетей». Physical Review E . 77 (1): 011901. arXiv : 0707.3642 . Bibcode :2008PhRvE..77a1901R. doi :10.1103/physreve.77.011901. PMID 18351870. S2CID 15232112.
Wells, WM III; Viola, P.; Atsumi, H.; Nakajima, S.; Kikinis, R. (1996). "Мультимодальная регистрация объема путем максимизации взаимной информации" (PDF) . Анализ медицинских изображений . 1 (1): 35–51. doi :10.1016/S1361-8415(01)80004-9. PMID 9873920. Архивировано из оригинала (PDF) 2008-09-06 . Получено 2010-08-05 .
Pandey, Biswajit; Sarkar, Suman (2017). «Как много галактика знает о своей крупномасштабной среде?: Информационно-теоретическая перспектива». Monthly Notices of the Royal Astronomical Society Letters . 467 (1): L6. arXiv : 1611.00283 . Bibcode : 2017MNRAS.467L...6P. doi : 10.1093/mnrasl/slw250 . S2CID 119095496.
Янссен, Джозеф; Гуан, Винсент; Робева, Элина (2023). «Сверхмаргинальная важность признаков: обучение на основе данных с причинно-следственными гарантиями». Международная конференция по искусственному интеллекту и статистике : 10782–10814. arXiv : 2204.09938 .