stringtranslate.com

Чернофф связан

В теории вероятностей граница Чернова — это экспоненциально убывающая верхняя граница на хвосте случайной величины, основанная на ее функции генерации моментов . Минимум всех таких экспоненциальных границ образует границу Чернова или Чернова-Крамера , которая может затухать быстрее экспоненциальной (например, субгауссовской ). [1] [2] Она особенно полезна для сумм независимых случайных величин, таких как суммы случайных величин Бернулли . [3] [4]

Граница обычно называется в честь Германа Чернова , который описал этот метод в статье 1952 года [5] , хотя сам Чернов приписывал его Герману Рубину. [6] В 1938 году Харальд Крамер опубликовал почти идентичную концепцию, теперь известную как теорема Крамера .

Это более точная граница, чем границы хвоста на основе первого или второго момента, такие как неравенство Маркова или неравенство Чебышева , которые дают только степенные границы на затухании хвоста. Однако при применении к суммам граница Чернова требует, чтобы случайные величины были независимыми, условие, которое не требуется ни неравенством Маркова, ни неравенством Чебышева.

Граница Чернова связана с неравенствами Бернштейна . Она также используется для доказательства неравенства Хеффдинга , неравенства Беннета и неравенства Мак-Диармида .

Общие границы Чернова

Двусторонняя граница Чернова для случайной величины хи-квадрат

Общая граница Чернова для случайной величины достигается применением неравенства Маркова к (поэтому ее иногда называют экспоненциальной границей Маркова или экспоненциальной границей моментов). Для положительного это дает границу на правом хвосте в терминах ее функции генерации моментов :

Поскольку эта граница справедлива для любого положительного числа , мы можем взять нижнюю грань :

Выполнив тот же анализ с отрицательным значением, мы получим похожую границу на левом хвосте :

и

Величина может быть выражена как математическое ожидание или эквивалентно .

Характеристики

Экспоненциальная функция является выпуклой, поэтому по неравенству Йенсена . Отсюда следует, что граница на правом хвосте больше или равна единице, когда , и, следовательно, тривиальна; аналогично, левая граница тривиальна для . Поэтому мы можем объединить две инфимумы и определить двустороннюю границу Чернова: которая обеспечивает верхнюю границу для сложенной кумулятивной функции распределения ( сложенной по среднему, а не по медиане).

Логарифм двусторонней границы Чернова известен как функция скорости (или преобразование Крамера ) . Он эквивалентен преобразованию Лежандра–Фенхеля или выпуклому сопряжению кумулянтной производящей функции , определяемому как: Производящая функция момента является логарифмически выпуклой , поэтому по свойству выпуклого сопряжения граница Чернова должна быть логарифмически вогнутой . Граница Чернова достигает своего максимума в среднем, , и инвариантна относительно трансляции: .

Граница Чернова точна тогда и только тогда, когда — единственная концентрированная масса ( вырожденное распределение ). Граница тесна только на или за пределами экстремумов ограниченной случайной величины, где инфимумы достигаются для бесконечности . Для неограниченных случайных величин граница нигде не тесна, хотя она асимптотически тесна вплоть до субэкспоненциальных множителей («экспоненциально тесна»). [ необходима цитата ] Отдельные моменты могут обеспечить более тесные границы ценой большей аналитической сложности. [7]

На практике точная граница Чернова может оказаться громоздкой или сложной для аналитической оценки, в этом случае вместо нее можно использовать подходящую верхнюю границу функции-генератора момента (или кумулянта) (например, субпараболическую КГФ, дающую субгауссову границу Чернова).

Нижние границы от MGF

Используя только функцию генерации моментов, нижнюю границу вероятностей хвоста можно получить, применив неравенство Пэли-Зигмунда к , что даст: (граница на левом хвосте получается для отрицательного ). Однако, в отличие от границы Чернова, этот результат не является экспоненциально точным.

Теодосопулос [9] построил более точную нижнюю границу на основе MGF, используя процедуру экспоненциального наклона .

Для определенных распределений (например, биномиального ) часто доступны нижние границы того же экспоненциального порядка, что и граница Чернова.

Суммы независимых случайных величин

Когда X представляет собой сумму n независимых случайных величин X 1 , ..., X n , функция, производящая моменты, X представляет собой произведение отдельных функций, производящих моменты, что дает:

и:

Конкретные границы Чернова достигаются путем вычисления функции, генерирующей моменты, для конкретных экземпляров случайных величин .

Когда случайные величины также распределены одинаково ( iid ), граница Чернова для суммы сводится к простому масштабированию границы Чернова для одной переменной. То есть граница Чернова для среднего значения n iid-переменных эквивалентна n-й степени границы Чернова для одной переменной (см. теорему Крамера ).

Суммы независимых ограниченных случайных величин

Границы Чернова также могут быть применены к общим суммам независимых, ограниченных случайных величин, независимо от их распределения; это известно как неравенство Хеффдинга . Доказательство следует аналогичному подходу для других границ Чернова, но применяя лемму Хеффдинга для ограничения функций, производящих моменты (см. неравенство Хеффдинга ).

Неравенство Хеффдинга . Предположим, что X 1 , ..., X n независимые случайные величины, принимающие значения в [a,b]. Пусть X обозначает их сумму, а μ = E[ X ] — ожидаемое значение суммы. Тогда для любого,

Суммы независимых случайных величин Бернулли

Границы в следующих разделах для случайных величин Бернулли выводятся с использованием того, что для случайной величины Бернулли с вероятностью p, равной 1,

Можно встретить много разновидностей границ Чернова: исходную аддитивную форму (которая ограничивает абсолютную погрешность ) или более практичную мультипликативную форму (которая ограничивает погрешность относительно среднего значения).

Мультипликативная форма (относительная ошибка)

Мультипликативная граница Чернова. Предположим, что X 1 , ..., X nнезависимые случайные величины, принимающие значения в {0, 1}. Пусть X обозначает их сумму, а μ = E[ X ] — ожидаемое значение суммы. Тогда для любого δ > 0 ,

Аналогичную стратегию доказательства можно использовать, чтобы показать, что для 0 < δ < 1

Приведенная выше формула часто оказывается громоздкой на практике, поэтому часто используются следующие более свободные, но более удобные оценки [10] , которые вытекают из неравенства из списка логарифмических неравенств :

Обратите внимание, что границы для тривиальны .

Кроме того, на основе разложения Тейлора для функции Ламберта W , [11]

Аддитивная форма (абсолютная ошибка)

Следующая теорема принадлежит Василию Хеффдингу [12] и поэтому называется теоремой Чернова–Хеффдинга.

Теорема Чернова–Хеффдинга. Предположим, что X 1 , ..., X n — это независимые случайные величины, принимающие значения в {0, 1}. Пусть p = E[ X 1 ] и ε > 0 .
где
— это расхождение Кульбака–Лейблера между распределенными по закону Бернулли случайными величинами с параметрами x и y соответственно. Если p1/2 , точто означает

Более простая оценка получается путем ослабления теоремы с использованием D ( p + ε || p ) ≥ 2 ε 2 , что следует из выпуклости D ( p + ε || p ) и того факта, что

Этот результат является частным случаем неравенства Хеффдинга . Иногда границы

которые сильнее для p < 1/8 , также используются.

Приложения

Границы Чернова имеют очень полезные приложения для балансировки множеств и маршрутизации пакетов в разреженных сетях.

Проблема балансировки набора возникает при планировании статистических экспериментов. Обычно при планировании статистического эксперимента, учитывая особенности каждого участника эксперимента, нам нужно знать, как разделить участников на 2 непересекающиеся группы таким образом, чтобы каждая особенность была примерно максимально сбалансирована между двумя группами. [13]

Границы Чернова также используются для получения строгих границ для задач маршрутизации перестановок, которые уменьшают перегрузку сети при маршрутизации пакетов в разреженных сетях. [13]

Границы Чернова используются в теории вычислительного обучения для доказательства того, что алгоритм обучения, вероятно, приблизительно верен , т.е. с высокой вероятностью алгоритм имеет небольшую ошибку на достаточно большом наборе обучающих данных. [14]

Границы Чернова могут эффективно использоваться для оценки «уровня надежности» приложения/алгоритма путем исследования его пространства возмущений с рандомизацией. [15] Использование границы Чернова позволяет отказаться от сильной — и в основном нереалистичной — гипотезы о малом возмущении (величина возмущения мала). Уровень надежности может, в свою очередь, использоваться либо для подтверждения, либо для отклонения конкретного алгоритмического выбора, аппаратной реализации или пригодности решения, структурные параметры которого зависят от неопределенностей.

Простое и распространенное использование границ Чернова — для «усиления» рандомизированных алгоритмов . Если у вас есть алгоритм, который выводит предположение, которое является желаемым ответом с вероятностью p > 1/2, то вы можете получить более высокий процент успеха, запустив алгоритм раз и выведя предположение, которое выводится более чем n /2 запусков алгоритма. (Не может быть более одного такого предположения.) Предполагая, что эти запуски алгоритма независимы, вероятность того, что более n /2 догадок являются правильными, равна вероятности того, что сумма независимых случайных величин Бернулли X k , которые равны 1 с вероятностью p, больше, чем n /2. Это можно показать, по крайней мере, с помощью мультипликативной границы Чернова (следствие 13.3 в классных заметках Синклера, μ = np ).: [16]

Матрица Чернова ограничена

Рудольф Альсведе и Андреас Винтер ввели границу Чернова для матричнозначных случайных величин. [17] Следующий вариант неравенства можно найти в работе Троппа. [18]

Пусть M 1 , ..., M t — независимые матричнозначные случайные величины, такие, что и . Обозначим через операторную норму матрицы . Если выполняется почти наверняка для всех , то для любого ε > 0

Обратите внимание, что для того, чтобы сделать вывод, что отклонение от 0 ограничено ε с высокой вероятностью, нам нужно выбрать число выборок, пропорциональное логарифму . В общем случае, к сожалению, зависимость от неизбежна: возьмем, к примеру, диагональную случайную знаковую матрицу размерности . Операторная норма суммы t независимых выборок — это в точности максимальное отклонение среди d независимых случайных блужданий длины t . Для того чтобы достичь фиксированной границы максимального отклонения с постоянной вероятностью, легко увидеть, что t должно расти логарифмически с d в этом сценарии. [19]

Следующая теорема может быть получена, если предположить, что M имеет низкий ранг, чтобы избежать зависимости от размерностей.

Теорема без зависимости от размерностей

Пусть 0 < ε < 1 и M — случайная симметричная вещественная матрица с и почти наверняка. Предположим, что каждый элемент на носителе M имеет ранг не более r . Положим

Если выполняется почти наверняка, то

где M 1 , ..., M t — это идентичные копии M .

Вариант выборки

Следующий вариант границы Чернова можно использовать для ограничения вероятности того, что большинство в популяции станет меньшинством в выборке или наоборот. [20]

Предположим, что имеется общая популяция A и подпопуляция B  ⊆  A. Обозначим относительный размер подпопуляции (| B |/| A |) через  r .

Предположим, что мы выбираем целое число k и случайную выборку S  ⊂  A размера k . Обозначим относительный размер подгруппы в выборке (| BS |/| S |) через r S .

Тогда для каждой дроби d  ∈ [0,1]:

В частности, если B является большинством в A (т.е. r  > 0,5), мы можем ограничить вероятность того, что B останется большинством в S ( r S  > 0,5), приняв: d  = 1 − 1/(2 r ): [21]

Эта граница, конечно, совсем не точная. Например, когда r  = 0,5, мы получаем тривиальную границу Prob > 0.

Доказательства

Мультипликативная форма

Следуя условиям мультипликативной границы Чернова, пусть X 1 , ..., X n — независимые случайные величины Бернулли , сумма которых равна X , каждая из которых имеет вероятность p i быть равной 1. Для переменной Бернулли:

Итак, используя ( 1 ) с для любого и где ,

Если мы просто установим t = log(1 + δ ) так, чтобы t > 0 для δ > 0 , мы можем подставить и найти

Это подтверждает желаемый результат.

Теорема Чернова–Хеффдинга (аддитивная форма)

Пусть q = p + ε . Взяв a = nq в ( 1 ), получим:

Теперь, зная, что Pr( X i = 1) = p , Pr( X i = 0) = 1 − p , имеем

Поэтому мы можем легко вычислить нижнюю грань, используя исчисление:

Приравнивая уравнение к нулю и решая его, имеем

так что

Таким образом,

Так как q = p + ε > p , мы видим, что t > 0 , поэтому наша граница удовлетворяется на t . Решив для t , мы можем вернуться к уравнениям выше, чтобы найти, что

Теперь у нас есть желаемый результат, то есть

Чтобы завершить доказательство для симметричного случая, мы просто определяем случайную величину Y i = 1 − X i , применяем то же доказательство и вставляем его в нашу границу.

Смотрите также

Ссылки

  1. ^ Бушерон, Стефан (2013). Неравенства концентрации: неасимптотическая теория независимости. Габор Лугоши, Паскаль Массар. Оксфорд: Oxford University Press. стр. 21. ISBN 978-0-19-953525-5. OCLC  837517674.
  2. ^ Уэйнрайт, М. (22 января 2015 г.). "Базовый хвост и границы концентрации" (PDF) . Архивировано (PDF) из оригинала 2016-05-08.
  3. ^ Вершинин, Роман (2018). Высокомерная вероятность: введение с приложениями в науке о данных. Кембридж, Великобритания. С. 19. ISBN 978-1-108-41519-4. OCLC  1029247498.{{cite book}}: CS1 maint: location missing publisher (link)
  4. ^ Тропп, Джоэл А. (2015-05-26). «Введение в неравенства концентрации матриц». Основы и тенденции в машинном обучении . 8 (1–2): 60. arXiv : 1501.01571 . doi :10.1561/2200000048. ISSN  1935-8237. S2CID  5679583.
  5. ^ Чернофф, Герман (1952). «Мера асимптотической эффективности для проверки гипотезы на основе суммы наблюдений». Анналы математической статистики . 23 (4): 493–507. doi : 10.1214/aoms/1177729330 . ISSN  0003-4851. JSTOR  2236576.
  6. ^ Чернофф, Герман (2014). «Карьера в статистике» (PDF) . В Lin, Xihong; Genest, Christian; Banks, David L.; Molenberghs, Geert; Scott, David W.; Wang, Jane-Ling (ред.). Прошлое, настоящее и будущее статистики. CRC Press. стр. 35. ISBN 9781482204964. Архивировано из оригинала (PDF) 2015-02-11.
  7. ^ Филипс, Томас К.; Нельсон, Рэндольф (1995). «Граница момента жестче, чем граница Чернова для положительных хвостовых вероятностей». The American Statistician . 49 (2): 175–178. doi :10.2307/2684633. ISSN  0003-1305. JSTOR  2684633.
  8. ^ Гош, Малай (2021-03-04). "Экспоненциальные границы хвоста для хи-квадратных случайных величин". Журнал статистической теории и практики . 15 (2): 35. doi : 10.1007/s42519-020-00156-x . ISSN  1559-8616. S2CID  233546315.
  9. ^ Теодосопоулос, Тед (2007-03-01). «Возврат границы Чернова». Statistics & Probability Letters . 77 (5): 558–565. arXiv : math/0501360 . doi :10.1016/j.spl.2006.09.003. ISSN  0167-7152. S2CID  16139953.
  10. ^ Митценмахер, Майкл; Упфал, Эли (2005). Вероятность и вычисления: рандомизированные алгоритмы и вероятностный анализ. Cambridge University Press. ISBN 978-0-521-83540-4.
  11. ^ Дилленкурт, Майкл; Гудрич, Майкл; Митценмахер, Майкл (2024). «Использование параметризованных границ Чернова для упрощенного анализа алгоритмов». Information Processing Letters . 187 (106516). doi : 10.1016/j.ipl.2024.106516 .
  12. ^ Hoeffding, W. (1963). "Вероятностные неравенства для сумм ограниченных случайных величин" (PDF) . Журнал Американской статистической ассоциации . 58 (301): 13–30. doi :10.2307/2282952. JSTOR  2282952.
  13. ^ ab Более подробную информацию об этой проблеме можно найти в этом разделе книги.
  14. ^ Кернс, М.; Вазирани, У. (1994). Введение в теорию вычислительного обучения . MIT Press. Глава 9 (Приложение), страницы 190–192. ISBN 0-262-11193-4.
  15. ^ Alippi, C. (2014). «Рандомизированные алгоритмы». Интеллект для встроенных систем . Springer. ISBN 978-3-319-05278-6.
  16. ^ Синклер, Алистер (осень 2011 г.). "Заметки к занятию по курсу "Случайность и вычисления"" (PDF) . Архивировано из оригинала (PDF) 31 октября 2014 г. . Получено 30 октября 2014 г. .
  17. ^ Алсведе, Р.; Винтер, А. (2003). «Сильный конверс для идентификации через квантовые каналы». Труды IEEE по теории информации . 48 (3): 569–579. arXiv : quant-ph/0012127 . doi : 10.1109/18.985947. S2CID  523176.
  18. ^ Tropp, J. (2010). «Удобные для пользователя хвостовые границы для сумм случайных матриц». Основы вычислительной математики . 12 (4): 389–434. arXiv : 1004.4389 . doi :10.1007/s10208-011-9099-z. S2CID  17735965.
  19. ^ Маген, А.; Зузиас, А. (2011). «Матричнозначные границы Чернова низкого ранга и приближенное матричное умножение». arXiv : 1005.2724 [cs.DM].
  20. ^ Голдберг, А. В.; Хартлайн, Дж. Д. (2001). «Конкурентные аукционы для нескольких цифровых товаров». Алгоритмы — ESA 2001. Конспект лекций по информатике. Том 2161. стр. 416. CiteSeerX 10.1.1.8.5115 . doi :10.1007/3-540-44676-1_35. ISBN  978-3-540-42493-2.; лемма 6.1
  21. ^ Смотрите графики: границы как функции r при изменении k и границы как функции k при изменении r.

Дальнейшее чтение