Экспоненциально убывающие границы распределений хвостов случайных величин
В теории вероятностей граница Чернова — это экспоненциально убывающая верхняя граница на хвосте случайной величины, основанная на ее функции генерации моментов . Минимум всех таких экспоненциальных границ образует границу Чернова или Чернова-Крамера , которая может затухать быстрее экспоненциальной (например, субгауссовской ). [1] [2] Она особенно полезна для сумм независимых случайных величин, таких как суммы случайных величин Бернулли . [3] [4]
Граница обычно называется в честь Германа Чернова , который описал этот метод в статье 1952 года [5] , хотя сам Чернов приписывал его Герману Рубину. [6] В 1938 году Харальд Крамер опубликовал почти идентичную концепцию, теперь известную как теорема Крамера .
Это более точная граница, чем границы хвоста на основе первого или второго момента, такие как неравенство Маркова или неравенство Чебышева , которые дают только степенные границы на затухании хвоста. Однако при применении к суммам граница Чернова требует, чтобы случайные величины были независимыми, условие, которое не требуется ни неравенством Маркова, ни неравенством Чебышева.
Общая граница Чернова для случайной величины достигается применением неравенства Маркова к (поэтому ее иногда называют экспоненциальной границей Маркова или экспоненциальной границей моментов). Для положительного это дает границу на правом хвосте в терминах ее функции генерации моментов :
Поскольку эта граница справедлива для любого положительного числа , мы можем взять нижнюю грань :
Выполнив тот же анализ с отрицательным значением, мы получим похожую границу на левом хвосте :
и
Величина может быть выражена как математическое ожидание или эквивалентно .
Характеристики
Экспоненциальная функция является выпуклой, поэтому по неравенству Йенсена . Отсюда следует, что граница на правом хвосте больше или равна единице, когда , и, следовательно, тривиальна; аналогично, левая граница тривиальна для . Поэтому мы можем объединить две инфимумы и определить двустороннюю границу Чернова: которая обеспечивает верхнюю границу для сложенной кумулятивной функции распределения ( сложенной по среднему, а не по медиане).
Граница Чернова точна тогда и только тогда, когда — единственная концентрированная масса ( вырожденное распределение ). Граница тесна только на или за пределами экстремумов ограниченной случайной величины, где инфимумы достигаются для бесконечности . Для неограниченных случайных величин граница нигде не тесна, хотя она асимптотически тесна вплоть до субэкспоненциальных множителей («экспоненциально тесна»). [ необходима цитата ] Отдельные моменты могут обеспечить более тесные границы ценой большей аналитической сложности. [7]
На практике точная граница Чернова может оказаться громоздкой или сложной для аналитической оценки, в этом случае вместо нее можно использовать подходящую верхнюю границу функции-генератора момента (или кумулянта) (например, субпараболическую КГФ, дающую субгауссову границу Чернова).
Нижние границы от MGF
Используя только функцию генерации моментов, нижнюю границу вероятностей хвоста можно получить, применив неравенство Пэли-Зигмунда к , что даст: (граница на левом хвосте получается для отрицательного ). Однако, в отличие от границы Чернова, этот результат не является экспоненциально точным.
Теодосопулос [9] построил более точную нижнюю границу на основе MGF, используя процедуру экспоненциального наклона .
Для определенных распределений (например, биномиального ) часто доступны нижние границы того же экспоненциального порядка, что и граница Чернова.
Суммы независимых случайных величин
Когда X представляет собой сумму n независимых случайных величин X 1 , ..., X n , функция, производящая моменты, X представляет собой произведение отдельных функций, производящих моменты, что дает:
и:
Конкретные границы Чернова достигаются путем вычисления функции, генерирующей моменты, для конкретных экземпляров случайных величин .
Когда случайные величины также распределены одинаково ( iid ), граница Чернова для суммы сводится к простому масштабированию границы Чернова для одной переменной. То есть граница Чернова для среднего значения n iid-переменных эквивалентна n-й степени границы Чернова для одной переменной (см. теорему Крамера ).
Суммы независимых ограниченных случайных величин
Границы Чернова также могут быть применены к общим суммам независимых, ограниченных случайных величин, независимо от их распределения; это известно как неравенство Хеффдинга . Доказательство следует аналогичному подходу для других границ Чернова, но применяя лемму Хеффдинга для ограничения функций, производящих моменты (см. неравенство Хеффдинга ).
Неравенство Хеффдинга . Предположим, что X 1 , ..., X n — независимые случайные величины, принимающие значения в [a,b]. Пусть X обозначает их сумму, а μ = E[ X ] — ожидаемое значение суммы. Тогда для любого,
Суммы независимых случайных величин Бернулли
Границы в следующих разделах для случайных величин Бернулли выводятся с использованием того, что для случайной величины Бернулли с вероятностью p, равной 1,
Можно встретить много разновидностей границ Чернова: исходную аддитивную форму (которая ограничивает абсолютную погрешность ) или более практичную мультипликативную форму (которая ограничивает погрешность относительно среднего значения).
Мультипликативная форма (относительная ошибка)
Мультипликативная граница Чернова. Предположим, что X 1 , ..., X n — независимые случайные величины, принимающие значения в {0, 1}. Пусть X обозначает их сумму, а μ = E[ X ] — ожидаемое значение суммы. Тогда для любого δ > 0 ,
Аналогичную стратегию доказательства можно использовать, чтобы показать, что для 0 < δ < 1
Приведенная выше формула часто оказывается громоздкой на практике, поэтому часто используются следующие более свободные, но более удобные оценки [10] , которые вытекают из неравенства из списка логарифмических неравенств :
Следующая теорема принадлежит Василию Хеффдингу [12] и поэтому называется теоремой Чернова–Хеффдинга.
Теорема Чернова–Хеффдинга. Предположим, что X 1 , ..., X n — это независимые случайные величины, принимающие значения в {0, 1}. Пусть p = E[ X 1 ] и ε > 0 .
Более простая оценка получается путем ослабления теоремы с использованием D ( p + ε || p ) ≥ 2 ε 2 , что следует из выпуклости D ( p + ε || p ) и того факта, что
Проблема балансировки набора возникает при планировании статистических экспериментов. Обычно при планировании статистического эксперимента, учитывая особенности каждого участника эксперимента, нам нужно знать, как разделить участников на 2 непересекающиеся группы таким образом, чтобы каждая особенность была примерно максимально сбалансирована между двумя группами. [13]
Границы Чернова также используются для получения строгих границ для задач маршрутизации перестановок, которые уменьшают перегрузку сети при маршрутизации пакетов в разреженных сетях. [13]
Границы Чернова используются в теории вычислительного обучения для доказательства того, что алгоритм обучения, вероятно, приблизительно верен , т.е. с высокой вероятностью алгоритм имеет небольшую ошибку на достаточно большом наборе обучающих данных. [14]
Границы Чернова могут эффективно использоваться для оценки «уровня надежности» приложения/алгоритма путем исследования его пространства возмущений с рандомизацией. [15]
Использование границы Чернова позволяет отказаться от сильной — и в основном нереалистичной — гипотезы о малом возмущении (величина возмущения мала). Уровень надежности может, в свою очередь, использоваться либо для подтверждения, либо для отклонения конкретного алгоритмического выбора, аппаратной реализации или пригодности решения, структурные параметры которого зависят от неопределенностей.
Простое и распространенное использование границ Чернова — для «усиления» рандомизированных алгоритмов . Если у вас есть алгоритм, который выводит предположение, которое является желаемым ответом с вероятностью p > 1/2, то вы можете получить более высокий процент успеха, запустив алгоритм раз и выведя предположение, которое выводится более чем n /2 запусков алгоритма. (Не может быть более одного такого предположения.) Предполагая, что эти запуски алгоритма независимы, вероятность того, что более n /2 догадок являются правильными, равна вероятности того, что сумма независимых случайных величин Бернулли X k , которые равны 1 с вероятностью p, больше, чем n /2. Это можно показать, по крайней мере, с помощью мультипликативной границы Чернова (следствие 13.3 в классных заметках Синклера, μ = np ).: [16]
Матрица Чернова ограничена
Рудольф Альсведе и Андреас Винтер ввели границу Чернова для матричнозначных случайных величин. [17] Следующий вариант неравенства можно найти в работе Троппа. [18]
Пусть M 1 , ..., M t — независимые матричнозначные случайные величины, такие, что и . Обозначим через операторную норму матрицы . Если выполняется почти наверняка для всех , то для любого ε > 0
Обратите внимание, что для того, чтобы сделать вывод, что отклонение от 0 ограничено ε с высокой вероятностью, нам нужно выбрать число выборок, пропорциональное логарифму . В общем случае, к сожалению, зависимость от неизбежна: возьмем, к примеру, диагональную случайную знаковую матрицу размерности . Операторная норма суммы t независимых выборок — это в точности максимальное отклонение среди d независимых случайных блужданий длины t . Для того чтобы достичь фиксированной границы максимального отклонения с постоянной вероятностью, легко увидеть, что t должно расти логарифмически с d в этом сценарии. [19]
Следующая теорема может быть получена, если предположить, что M имеет низкий ранг, чтобы избежать зависимости от размерностей.
Теорема без зависимости от размерностей
Пусть 0 < ε < 1 и M — случайная симметричная вещественная матрица с и почти наверняка. Предположим, что каждый элемент на носителе M имеет ранг не более r . Положим
Если выполняется почти наверняка, то
где M 1 , ..., M t — это идентичные копии M .
Вариант выборки
Следующий вариант границы Чернова можно использовать для ограничения вероятности того, что большинство в популяции станет меньшинством в выборке или наоборот. [20]
Предположим, что имеется общая популяция A и подпопуляция B ⊆ A. Обозначим относительный размер подпопуляции (| B |/| A |) через r .
Предположим, что мы выбираем целое число k и случайную выборку S ⊂ A размера k . Обозначим относительный размер подгруппы в выборке (| B ∩ S |/| S |) через r S .
Тогда для каждой дроби d ∈ [0,1]:
В частности, если B является большинством в A (т.е. r > 0,5), мы можем ограничить вероятность того, что B останется большинством в S ( r S > 0,5), приняв: d = 1 − 1/(2 r ): [21]
Эта граница, конечно, совсем не точная. Например, когда r = 0,5, мы получаем тривиальную границу Prob > 0.
Доказательства
Мультипликативная форма
Следуя условиям мультипликативной границы Чернова, пусть X 1 , ..., X n — независимые случайные величины Бернулли , сумма которых равна X , каждая из которых имеет вероятность p i быть равной 1. Для переменной Бернулли:
Итак, используя ( 1 ) с для любого и где ,
Если мы просто установим t = log(1 + δ ) так, чтобы t > 0 для δ > 0 , мы можем подставить и найти
Это подтверждает желаемый результат.
Теорема Чернова–Хеффдинга (аддитивная форма)
Пусть q = p + ε . Взяв a = nq в ( 1 ), получим:
Теперь, зная, что Pr( X i = 1) = p , Pr( X i = 0) = 1 − p , имеем
Поэтому мы можем легко вычислить нижнюю грань, используя исчисление:
Приравнивая уравнение к нулю и решая его, имеем
так что
Таким образом,
Так как q = p + ε > p , мы видим, что t > 0 , поэтому наша граница удовлетворяется на t . Решив для t , мы можем вернуться к уравнениям выше, чтобы найти, что
Теперь у нас есть желаемый результат, то есть
Чтобы завершить доказательство для симметричного случая, мы просто определяем случайную величину Y i = 1 − X i , применяем то же доказательство и вставляем его в нашу границу.
^ Бушерон, Стефан (2013). Неравенства концентрации: неасимптотическая теория независимости. Габор Лугоши, Паскаль Массар. Оксфорд: Oxford University Press. стр. 21. ISBN 978-0-19-953525-5. OCLC 837517674.
^ Уэйнрайт, М. (22 января 2015 г.). "Базовый хвост и границы концентрации" (PDF) . Архивировано (PDF) из оригинала 2016-05-08.
^ Вершинин, Роман (2018). Высокомерная вероятность: введение с приложениями в науке о данных. Кембридж, Великобритания. С. 19. ISBN978-1-108-41519-4. OCLC 1029247498.{{cite book}}: CS1 maint: location missing publisher (link)
^ Тропп, Джоэл А. (2015-05-26). «Введение в неравенства концентрации матриц». Основы и тенденции в машинном обучении . 8 (1–2): 60. arXiv : 1501.01571 . doi :10.1561/2200000048. ISSN 1935-8237. S2CID 5679583.
^ Чернофф, Герман (1952). «Мера асимптотической эффективности для проверки гипотезы на основе суммы наблюдений». Анналы математической статистики . 23 (4): 493–507. doi : 10.1214/aoms/1177729330 . ISSN 0003-4851. JSTOR 2236576.
^ Чернофф, Герман (2014). «Карьера в статистике» (PDF) . В Lin, Xihong; Genest, Christian; Banks, David L.; Molenberghs, Geert; Scott, David W.; Wang, Jane-Ling (ред.). Прошлое, настоящее и будущее статистики. CRC Press. стр. 35. ISBN9781482204964. Архивировано из оригинала (PDF) 2015-02-11.
^ Филипс, Томас К.; Нельсон, Рэндольф (1995). «Граница момента жестче, чем граница Чернова для положительных хвостовых вероятностей». The American Statistician . 49 (2): 175–178. doi :10.2307/2684633. ISSN 0003-1305. JSTOR 2684633.
^ Гош, Малай (2021-03-04). "Экспоненциальные границы хвоста для хи-квадратных случайных величин". Журнал статистической теории и практики . 15 (2): 35. doi : 10.1007/s42519-020-00156-x . ISSN 1559-8616. S2CID 233546315.
^ Теодосопоулос, Тед (2007-03-01). «Возврат границы Чернова». Statistics & Probability Letters . 77 (5): 558–565. arXiv : math/0501360 . doi :10.1016/j.spl.2006.09.003. ISSN 0167-7152. S2CID 16139953.
^ Митценмахер, Майкл; Упфал, Эли (2005). Вероятность и вычисления: рандомизированные алгоритмы и вероятностный анализ. Cambridge University Press. ISBN978-0-521-83540-4.
^ Дилленкурт, Майкл; Гудрич, Майкл; Митценмахер, Майкл (2024). «Использование параметризованных границ Чернова для упрощенного анализа алгоритмов». Information Processing Letters . 187 (106516). doi : 10.1016/j.ipl.2024.106516 .
^ Hoeffding, W. (1963). "Вероятностные неравенства для сумм ограниченных случайных величин" (PDF) . Журнал Американской статистической ассоциации . 58 (301): 13–30. doi :10.2307/2282952. JSTOR 2282952.
^ ab Более подробную информацию об этой проблеме можно найти в этом разделе книги.
^ Кернс, М.; Вазирани, У. (1994). Введение в теорию вычислительного обучения . MIT Press. Глава 9 (Приложение), страницы 190–192. ISBN0-262-11193-4.
^ Alippi, C. (2014). «Рандомизированные алгоритмы». Интеллект для встроенных систем . Springer. ISBN978-3-319-05278-6.
^ Синклер, Алистер (осень 2011 г.). "Заметки к занятию по курсу "Случайность и вычисления"" (PDF) . Архивировано из оригинала (PDF) 31 октября 2014 г. . Получено 30 октября 2014 г. .
^ Алсведе, Р.; Винтер, А. (2003). «Сильный конверс для идентификации через квантовые каналы». Труды IEEE по теории информации . 48 (3): 569–579. arXiv : quant-ph/0012127 . doi : 10.1109/18.985947. S2CID 523176.
^ Tropp, J. (2010). «Удобные для пользователя хвостовые границы для сумм случайных матриц». Основы вычислительной математики . 12 (4): 389–434. arXiv : 1004.4389 . doi :10.1007/s10208-011-9099-z. S2CID 17735965.
^ Маген, А.; Зузиас, А. (2011). «Матричнозначные границы Чернова низкого ранга и приближенное матричное умножение». arXiv : 1005.2724 [cs.DM].
^ Голдберг, А. В.; Хартлайн, Дж. Д. (2001). «Конкурентные аукционы для нескольких цифровых товаров». Алгоритмы — ESA 2001. Конспект лекций по информатике. Том 2161. стр. 416. CiteSeerX 10.1.1.8.5115 . doi :10.1007/3-540-44676-1_35. ISBN978-3-540-42493-2.; лемма 6.1
^ Смотрите графики: границы как функции r при изменении k и границы как функции k при изменении r.
Дальнейшее чтение
Чернофф, Х. (1952). «Мера асимптотической эффективности для проверки гипотезы на основе суммы наблюдений». Annals of Mathematical Statistics . 23 (4): 493–507. doi : 10.1214/aoms/1177729330 . JSTOR 2236576. MR 0057518. Zbl 0048.11804.
Чернофф, Х. (1981). «Заметка о неравенстве, включающем нормальное распределение». Annals of Probability . 9 (3): 533–535. doi : 10.1214/aop/1176994428 . JSTOR 2243541. MR 0614640. Zbl 0457.60014.
Хагеруп, Т.; Руб, К. (1990). «Экскурсия по границам Чернова». Information Processing Letters . 33 (6): 305. doi :10.1016/0020-0190(90)90214-I.
Нильсен, Ф. (2011). «Информационно-геометрическая характеристика информации Чернова». IEEE Signal Processing Letters . 20 (3): 269–272. arXiv : 1102.2684 . doi : 10.1109/LSP.2013.2243726. S2CID 15034953.