stringtranslate.com

Чернов связан

В теории вероятностей граница Чернова представляет собой экспоненциально убывающую верхнюю границу хвоста случайной величины, основанную на ее производящей функции момента . Минимум всех таких экспоненциальных границ образует границу Чернова или Чернова-Крамера , которая может затухать быстрее, чем экспоненциальная (например, субгауссова ). [1] [2] Это особенно полезно для сумм независимых случайных величин, таких как суммы случайных величин Бернулли . [3] [4]

Границу обычно называют в честь Германа Чернова , который описал этот метод в статье 1952 года [5] , хотя сам Чернов приписал его Герману Рубину. [6] В 1938 году Харальд Крамер опубликовал почти идентичную концепцию, теперь известную как теорема Крамера .

Это более точная граница, чем границы хвоста, основанные на первом или втором моменте, такие как неравенство Маркова или неравенство Чебышева , которые дают только степенные границы затухания хвоста. Однако при применении к суммам граница Чернова требует, чтобы случайные величины были независимыми, а это условие не требуется ни неравенством Маркова, ни неравенством Чебышева.

Граница Чернова связана с неравенствами Бернштейна . Он также используется для доказательства неравенства Хеффдинга , неравенства Беннета и неравенства Мак-Диармида .

Общие границы Чернова

Двусторонняя оценка Чернова для случайной величины хи-квадрат

Общая оценка Чернова для случайной величины достигается путем применения неравенства Маркова к (поэтому его иногда называют экспоненциальной марковской границей или экспоненциальной границей моментов). Для положительного результата это дает оценку правого хвоста функции , генерирующей момент :

Поскольку эта оценка справедлива для любого положительного значения , мы можем взять нижнюю границу :

Выполняя тот же анализ с отрицанием, мы получаем аналогичную границу для левого хвоста :

и

Количество может быть выражено как ожидаемое значение или что-то подобное .

Характеристики

Показательная функция выпуклая, поэтому по неравенству Йенсена . Отсюда следует, что оценка правого хвоста больше или равна единице при и, следовательно, тривиальна; аналогично левая оценка тривиальна для . Поэтому мы можем объединить две нижние точки и определить двустороннюю границу Чернова: которая обеспечивает верхнюю границу сложенной кумулятивной функции распределения ( свернутой в среднем, а не в медиане).

Логарифм двусторонней границы Чернова известен как функция скорости (или преобразование Крамера ) . Это эквивалентно преобразованию Лежандра-Фенхеля или выпуклому сопряжению производящей функции кумулянта , определяемому как: Производящая функция момента является лог-выпуклой , поэтому по свойству выпуклого сопряжения граница Чернова должна быть лог-вогнутой . Граница Чернова достигает максимума в среднем , и является инвариантной относительно трансляции: .

Граница Чернова точна тогда и только тогда, когда это одна концентрированная масса ( вырожденное распределение ). Граница точная только в крайних значениях ограниченной случайной величины или за их пределами, где нижняя граница достигается при бесконечном . Для неограниченных случайных величин граница нигде не является жесткой, хотя она асимптотически точна с точностью до субэкспоненциальных факторов («экспоненциально узкая»). [ нужна цитата ] Отдельные моменты могут обеспечить более жесткие границы за счет большей аналитической сложности. [7]

На практике точная граница Чернова может быть громоздкой или трудной для аналитической оценки, и в этом случае вместо нее можно использовать подходящую верхнюю границу производящей функции момента (или кумулянта) (например, субпараболический CGF, дающий субгауссову границу Чернова ).

Нижние границы MGF

Используя только производящую функцию момента, нижнюю границу вероятностей хвоста можно получить, применив неравенство Пэли-Зигмунда к , что дает: (ограничение на левый хвост получается для отрицательного ). Однако в отличие от границы Чернова этот результат не является экспоненциально точным.

Теодосопулос [9] построил точную нижнюю границу на основе MGF, используя процедуру экспоненциального наклона .

Для конкретных распределений (таких как биномиальное ) часто доступны нижние границы того же экспоненциального порядка, что и граница Чернова.

Суммы независимых случайных величин

Когда X представляет собой сумму n независимых случайных величин X 1 , ..., X n , производящая функция момента X является произведением отдельных производящих функций момента, что дает следующее:

и:

Конкретные границы Чернова достигаются путем вычисления производящей функции для конкретных экземпляров случайных величин .

Когда случайные величины также одинаково распределены ( iid ), граница Чернова для суммы сводится к простому изменению масштаба границы Чернова для одной переменной. То есть граница Чернова для среднего значения n iid переменных эквивалентна n- й степени границы Чернова для одной переменной (см. теорему Крамера ).

Суммы независимых ограниченных случайных величин

Границы Чернова также могут применяться к общим суммам независимых ограниченных случайных величин, независимо от их распределения; это известно как неравенство Хеффдинга . Доказательство использует тот же подход, что и другие границы Чернова, но с применением леммы Хёффдинга для оценки производящих функций момента (см. неравенство Хёффдинга ).

Неравенство Хеффдинга . Предположим, что X 1 , ..., X n независимые случайные величины, принимающие значения в [a,b]. Пусть X обозначает их сумму и пусть µ = E[ X ] обозначает ожидаемое значение суммы. Тогда длялюбого

Суммы независимых случайных величин Бернулли

Оценки в следующих разделах для случайных величин Бернулли получены с использованием того, что для случайной величины Бернулли с вероятностью p , равной 1,

Можно встретить множество разновидностей границ Чернова: исходную аддитивную форму (которая дает оценку абсолютной ошибки ) или более практичную мультипликативную форму (которая ограничивает ошибку относительно среднего).

Мультипликативная форма (относительная ошибка)

Мультипликативная граница Чернова. Предположим, что X 1 , ..., X nнезависимые случайные величины, принимающие значения в {0, 1}. Пусть X обозначает их сумму и пусть µ = E[ X ] обозначает ожидаемое значение суммы. Тогда для любого δ > 0

Аналогичную стратегию доказательства можно использовать, чтобы показать, что при 0 < δ < 1

Приведенная выше формула на практике зачастую оказывается громоздкой, поэтому часто используют следующие более слабые, но более удобные оценки [10] , которые следуют из неравенства из списка логарифмических неравенств :

Обратите внимание, что границы для .

Кроме того, на основе разложения Тейлора для W-функции Ламберта [ 11]

Аддитивная форма (абсолютная ошибка)

Следующая теорема принадлежит Василию Хёффдингу [12] и поэтому называется теоремой Чернова–Хеффдинга.

Теорема Чернова–Хефдинга. Предположим, что X 1 , ..., X n — случайные величины iid , принимающие значения в {0, 1}. Пусть p = E[ X 1 ] и ε > 0 .
где
– это расхождение Кульбака – Лейблера между распределенными по Бернулли случайными величинами с параметрами x и y соответственно. Если р1/2 , тоэто означает

Более простая оценка получается путем ослабления теоремы с использованием D ( p + ε || p ) ≥ 2 ε 2 , что следует из выпуклости D ( p + ε || p ) и того факта, что

Этот результат является частным случаем неравенства Хеффдинга . Иногда границы

которые сильнее при p < 1/8 также используются.

Приложения

Границы Чернова имеют очень полезные применения при балансировке наборов и маршрутизации пакетов в разреженных сетях.

Проблема балансировки множества возникает при планировании статистических экспериментов. Обычно при планировании статистического эксперимента, учитывая особенности каждого участника эксперимента, нам необходимо знать, как разделить участников на две непересекающиеся группы так, чтобы каждая особенность была примерно максимально сбалансирована между двумя группами. [13]

Границы Чернова также используются для получения точных границ для задач перестановочной маршрутизации, которые уменьшают перегрузку сети при маршрутизации пакетов в разреженных сетях. [13]

Границы Чернова используются в теории вычислительного обучения, чтобы доказать, что алгоритм обучения, вероятно, приблизительно корректен , т.е. с высокой вероятностью алгоритм имеет небольшую ошибку на достаточно большом наборе обучающих данных. [14]

Границы Чернова можно эффективно использовать для оценки «уровня устойчивости» приложения/алгоритма путем исследования его пространства возмущений с помощью рандомизации. [15] Использование границы Чернова позволяет отказаться от сильной — и по большей части нереалистичной — гипотезы малого возмущения (величина возмущения мала). Уровень устойчивости, в свою очередь, может использоваться либо для подтверждения, либо для отклонения конкретного алгоритмического выбора, аппаратной реализации или приемлемости решения, на структурные параметры которого влияют неопределенности.

Простое и распространенное использование границ Чернова — для «усиления» рандомизированных алгоритмов . Если у вас есть алгоритм, который выводит предположение, которое является желаемым ответом с вероятностью p > 1/2, то можно получить более высокий уровень успеха, запустив алгоритм несколько раз и выведя предположение, которое выводится более чем n /2 прогонами алгоритм. (Таких предположений не может быть более одного.) Если предположить, что эти прогоны алгоритма независимы, вероятность того, что более n /2 предположений верны, равна вероятности того, что сумма независимых случайных величин Бернулли X k , равная 1 с вероятностью p больше n /2. Это можно показать, по крайней мере, с помощью мультипликативной границы Чернова (следствие 13.3 в классных заметках Синклера, µ = np ).: [16]

Матрица Чернова связана

Рудольф Альсведе и Андреас Винтер ввели оценку Чернова для матричных случайных величин. [17] Следующий вариант неравенства можно найти в работе Троппа. [18]

Пусть M 1 , ..., M t — независимые матричные случайные величины такие, что и . Обозначим через операторную норму матрицы . Если почти наверняка верно для всех , то для любого ε > 0

Обратите внимание, что для того, чтобы сделать вывод, что отклонение от 0 с высокой вероятностью ограничено ε , нам нужно выбрать количество выборок, пропорциональное логарифму . В целом, к сожалению, зависимость от неизбежна: возьмем для примера диагональную матрицу случайных знаков размерности . Операторная норма суммы t независимых выборок — это в точности максимальное отклонение среди d независимых случайных блужданий длины t . Чтобы добиться фиксированной границы максимального отклонения с постоянной вероятностью, легко видеть, что в этом сценарии t должно логарифмически расти с d . [19]

Следующая теорема может быть получена, если предположить, что M имеет низкий ранг, чтобы избежать зависимости от размерностей.

Теорема без зависимости от размерностей

Пусть 0 < ε < 1 и M — случайная симметричная вещественная матрица с и почти наверняка. Предположим, что каждый элемент на носителе M имеет не более ранга r . Набор

Если выполняется почти наверняка, то

где M 1 , ..., M t являются iid копиями M .

Выборочный вариант

Следующий вариант границы Чернова можно использовать для оценки вероятности того, что большинство в популяции станет меньшинством в выборке или наоборот. [20]

Предположим , что существует общая популяция A и подгруппа B  ⊆  A. Отметьте относительный размер подгруппы (| B |/| A |) с помощью  r .

Предположим, мы выбираем целое число k и случайную выборку S  ⊂  A размера k . Отметьте относительный размер подгруппы населения в выборке (| BS |/| S |) посредством r S .

Тогда для каждой дроби d  ∈ [0,1]:

В частности, если B является большинством в A (т.е. r  > 0,5), мы можем ограничить вероятность того, что B останется большинством в S ( r S  > 0,5), приняв: d  = 1 − 1/(2 r ): [21 ]

Эта граница, конечно, совсем не жесткая. Например, когда r  = 0,5, мы получаем тривиальную оценку Prob > 0.

Доказательства

Мультипликативная форма

Следуя условиям мультипликативной границы Чернова, пусть X 1 , ..., X n являются независимыми случайными величинами Бернулли , сумма которых равна X , каждая из которых имеет вероятность p i быть равной 1. Для переменной Бернулли:

Итак, используя ( 1 ) с для любого и где ,

Если мы просто установим t = log(1 + δ ) так, чтобы t > 0 для δ > 0 , мы можем заменить и найти

Это доказывает желаемый результат.

Теорема Чернова – Хеффдинга (аддитивная форма)

Пусть q = p + ε . Взяв a = nq в ( 1 ), получим:

Теперь, зная, что Pr( X i = 1) = p , Pr( X i = 0) = 1 − p , мы имеем

Следовательно, мы можем легко вычислить нижнюю границу, используя исчисление:

Приравнивая уравнение к нулю и решая, мы имеем

так что

Таким образом,

Поскольку q = p + ε > p , мы видим, что t > 0 , поэтому наша оценка для t выполняется . Решив значение t , мы можем снова подключиться к приведенным выше уравнениям и найти, что

Теперь у нас есть желаемый результат:

Чтобы завершить доказательство для симметричного случая, мы просто определяем случайную величину Y i = 1 − X i , применяем то же доказательство и подключаем его к нашей оценке.

Смотрите также

Рекомендации

  1. ^ Бушерон, Стефан (2013). Неравенства концентрации: неасимптотическая теория независимости. Габор Лугоши, Паскаль Массар. Оксфорд: Издательство Оксфордского университета. п. 21. ISBN 978-0-19-953525-5. ОКЛК  837517674.
  2. Уэйнрайт, М. (22 января 2015 г.). «Основные границы хвоста и концентрации» (PDF) . Архивировано (PDF) из оригинала 8 мая 2016 г.
  3. ^ Вершинин, Роман (2018). Многомерная вероятность: введение в приложения в науке о данных. Кембридж, Великобритания. п. 19. ISBN 978-1-108-41519-4. ОСЛК  1029247498.{{cite book}}: CS1 maint: location missing publisher (link)
  4. ^ Тропп, Джоэл А. (26 мая 2015 г.). «Введение в матричные неравенства концентрации». Основы и тенденции в машинном обучении . 8 (1–2): 60. arXiv : 1501.01571 . дои : 10.1561/2200000048. ISSN  1935-8237. S2CID  5679583.
  5. ^ Чернов, Герман (1952). «Мера асимптотической эффективности проверки гипотезы, основанной на сумме наблюдений». Анналы математической статистики . 23 (4): 493–507. дои : 10.1214/aoms/1177729330 . ISSN  0003-4851. JSTOR  2236576.
  6. ^ Чернов, Герман (2014). «Карьера в статистике» (PDF) . В Линь, Сихун; Дженест, Кристиан; Бэнкс, Дэвид Л.; Моленбергс, Герт; Скотт, Дэвид В.; Ван, Джейн-Линг (ред.). Прошлое, настоящее и будущее статистики. ЦРК Пресс. п. 35. ISBN 9781482204964. Архивировано из оригинала (PDF) 11 февраля 2015 г.
  7. ^ Филипс, Томас К.; Нельсон, Рэндольф (1995). «Граница момента более жесткая, чем граница Чернова для вероятностей положительного хвоста». Американский статистик . 49 (2): 175–178. дои : 10.2307/2684633. ISSN  0003-1305. JSTOR  2684633.
  8. ^ Гош, малайский (04 марта 2021 г.). «Экспоненциальные границы хвоста для хи-квадрат случайных величин». Журнал статистической теории и практики . 15 (2): 35. дои : 10.1007/s42519-020-00156-x . ISSN  1559-8616. S2CID  233546315.
  9. ^ Теодсопулос, Тед (1 марта 2007 г.). «Реверс границы Чернова». Статистика и вероятностные буквы . 77 (5): 558–565. arXiv : math/0501360 . дои : 10.1016/j.spl.2006.09.003. ISSN  0167-7152. S2CID  16139953.
  10. ^ Митценмахер, Майкл; Упфал, Эли (2005). Вероятность и вычисления: рандомизированные алгоритмы и вероятностный анализ. Издательство Кембриджского университета. ISBN 978-0-521-83540-4.
  11. ^ Дилленкур, Майкл; Гудрич, Майкл; Митценмахер, Майкл (2024). «Использование параметризованных границ Чернова для упрощенного анализа алгоритмов». Письма об обработке информации . 187 (106516). дои : 10.1016/j.ipl.2024.106516 .
  12. ^ Хоффдинг, В. (1963). «Вероятностные неравенства для сумм ограниченных случайных величин» (PDF) . Журнал Американской статистической ассоциации . 58 (301): 13–30. дои : 10.2307/2282952. JSTOR  2282952.
  13. ^ ab Обратитесь к этому разделу книги для получения дополнительной информации о проблеме.
  14. ^ Кернс, М.; Вазирани, У. (1994). Введение в теорию вычислительного обучения . МТИ Пресс. Глава 9 (Приложение), стр. 190–192. ISBN 0-262-11193-4.
  15. ^ Алиппи, К. (2014). «Рандомизированные алгоритмы». Интеллект для встраиваемых систем . Спрингер. ISBN 978-3-319-05278-6.
  16. ^ Синклер, Алистер (осень 2011 г.). «Конспекты по курсу «Случайность и вычисления»» (PDF) . Архивировано из оригинала (PDF) 31 октября 2014 года . Проверено 30 октября 2014 г.
  17. ^ Альсведе, Р.; Зима, А. (2003). «Сильный конверс для идентификации по квантовым каналам». Транзакции IEEE по теории информации . 48 (3): 569–579. arXiv : Quant-ph/0012127 . дои : 10.1109/18.985947. S2CID  523176.
  18. ^ Тропп, Дж. (2010). «Удобные хвостовые оценки сумм случайных матриц». Основы вычислительной математики . 12 (4): 389–434. arXiv : 1004.4389 . doi : 10.1007/s10208-011-9099-z. S2CID  17735965.
  19. ^ Маген, А .; Зузиас, А. (2011). «Низкоранговые матричные границы Чернова и приближенное умножение матриц». arXiv : 1005.2724 [cs.DM].
  20. ^ Гольдберг, А.В.; Хартлайн, Джей Ди (2001). «Конкурентные аукционы по продаже нескольких цифровых товаров». Алгоритмы — ЕКА 2001 . Конспекты лекций по информатике. Том. 2161. с. 416. CiteSeerX 10.1.1.8.5115 . дои : 10.1007/3-540-44676-1_35. ISBN  978-3-540-42493-2.; лемма 6.1
  21. ^ См. графики: граница как функция от r при изменении k и граница как функция от k при изменении r.

дальнейшее чтение