Независимые и одинаково распределенные случайные величины

В теории вероятностей и статистике совокупность случайных величин является независимой и одинаково распределенной, если каждая случайная величина имеет такое же распределение вероятностей , как и другие, и все они взаимно независимы . ^[1] Это свойство обычно обозначается сокращенно iid , iid или IID . IID был впервые определен в статистике и находит применение в различных областях, таких как интеллектуальный анализ данных и обработка сигналов .

Введение

Статистика обычно имеет дело со случайными выборками. Случайную выборку можно рассматривать как набор объектов, выбранных случайным образом. Более формально, это «последовательность независимых, одинаково распределенных (IID) случайных точек данных».

Другими словами, термины «случайная выборка» и IID являются синонимами. В статистике типичным термином является « случайная выборка », но в теории вероятности чаще говорят « IID ».

Идентичное распределение означает отсутствие общих тенденций — распределение не колеблется, и все элементы выборки взяты из одного и того же распределения вероятностей .
Независимость означает, что все элементы выборки являются независимыми событиями. Другими словами, они никак не связаны друг с другом; ^[2] знание значения одной переменной не дает информации о значении другой, и наоборот.

Приложение

Независимые и одинаково распределенные случайные величины часто используются в качестве допущения, что имеет тенденцию упрощать лежащую в основе математику. Однако в практических приложениях статистического моделирования это предположение может быть, а может и не быть реалистичным. ^[3]

Предположение iid также используется в центральной предельной теореме , которая утверждает , что распределение вероятностей суммы (или среднего) переменных iid с конечной дисперсией приближается к нормальному распределению . ^[4]

Предположение iid часто возникает в контексте последовательностей случайных величин. Тогда «независимый и одинаково распределенный» означает, что элемент последовательности не зависит от случайных величин, которые были до него. Таким образом, последовательность iid отличается от последовательности Маркова , где распределение вероятностей для $n-$ й случайной величины является функцией предыдущей случайной величины в последовательности (для последовательности Маркова первого порядка). Последовательность iid не подразумевает, что вероятности для всех элементов выборочного пространства или пространства событий должны быть одинаковыми. ^[5] Например, повторные броски нагруженных игральных костей дадут последовательность, которая является iid, несмотря на то, что результаты являются предвзятыми.

В обработке сигналов и изображений понятие преобразования в iid подразумевает две спецификации: часть «id» и часть «i». часть:

идентификатор . – Уровень сигнала должен быть сбалансирован по оси времени.

я . – Спектр сигнала должен быть сглажен, т.е. преобразован посредством фильтрации (например, деконволюции ) в сигнал белого шума (т.е. в сигнал, в котором все частоты присутствуют одинаково).

Определение

Определение двух случайных величин

Предположим, что случайные переменные и определены так, чтобы принимать значения в . Пусть и будут кумулятивными функциями распределения и соответственно , и обозначим их совместную кумулятивную функцию распределения через . $X$ $Y$ $I\subseteq \mathbb {R}$ $F_{X}(x)=\operatorname {P} (X\leq x)$ $F_{Y}(y)=\operatorname {P} (Y\leq y)$ $X$ $Y$ $F_{X,Y}(x,y)=\operatorname {P} (X\leq x\land Y\leq y)$

Две случайные величины и одинаково распределены тогда и только тогда, когда ^[6] . $X$ $Y$ $F_{X}(x)=F_{Y}(x)\,\forall x\in I$

Две случайные величины и независимы тогда и только тогда, когда . (См. далее Независимость (теория вероятностей) § Две случайные величины .) $X$ $Y$ $F_{X,Y}(x,y)=F_{X}(x)\cdot F_{Y}(y)\,\forall x,y\in I$

Две случайные величины и являются iid , если они независимы и одинаково распределены, т.е. тогда и только тогда, когда $X$ $Y$

Определение для более чем двух случайных величин

Это определение естественным образом распространяется на более чем две случайные величины. Мы говорим, что случайные величины являются иидными , если они независимы (см. далее Независимость (теория вероятностей) § Более двух случайных величин ) и одинаково распределены, т. е. тогда и только тогда, когда $п$ $X_{1},\ldots ,X_{n}$

УРАВНЕНИЕ

где обозначает совместную кумулятивную функцию распределения . $F_{X_{1},\ldots ,X_{n}}(x_{1},\ldots ,x_{n})=\operatorname {P} (X_{1}\leq x_{1}\land \ldots \land X_{n}\leq x_{n})$ $X_{1},\ldots ,X_{n}$

Определение независимости

В теории вероятностей два события и называются независимыми тогда и только тогда, когда . Далее это сокращение от . ${\textstyle \color {red}A}$ ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}\color {Green}B}$ ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}P({\color {red}A}\ \mathrm {and} \ {\color {green}B})=P({\color {red}A})P({\color {green}B})}$ ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}P({\color {red}A}{\color {green}B})}$ ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}P({\color {red}A}\ \mathrm {and} \ {\color {green}B})}$

Предположим, что имеются два события эксперимента и . Если есть возможность . Как правило, возникновение влияет на вероятность — это называется условной вероятностью. Кроме того, только тогда, когда появление не влияет на появление , существует . ${\textstyle \color {red}A}$ ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}\color {Green}B}$ ${\textstyle P({\color {red}A})>0}$ ${\textstyle P({\color {green}B}|{\color {red}A})}$ ${\textstyle \color {red}A}$ ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}\color {Green}B}$ ${\textstyle \color {red}A}$ ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}\color {Green}B}$ ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}P({\color {green}B}|{\color {red}A})=P({\color {green}B})}$

Примечание: Если и , то и взаимно независимы, что не может быть установлено с взаимно несовместимыми одновременно; то есть независимость должна быть совместимой, а взаимное исключение должно быть взаимосвязанным. ${\textstyle P({\color {red}A})>0}$ ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}P({\color {Green}B})>0}$ ${\textstyle \color {red}A}$ ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}\color {Green}B}$

Предположим , , и – три события. Если , , , и выполняются, то события , , и взаимно независимы. ${\textstyle \color {red}A}$ ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}\color {Green}B}$ ${\textstyle \definecolor {blue}{rgb}{0,0,1}\color {blue}C}$ ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}P({\color {red}A}{\color {green}B})=P({\color {red}A})P({\color {green}B})}$ ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}\definecolor {blue}{rgb}{0,0,1}\definecolor {Blue}{rgb}{0,0,1}P({\color {green}B}{\color {blue}C})=P({\color {green}B})P({\color {blue}C})}$ ${\textstyle \definecolor {blue}{rgb}{0,0,1}P({\color {red}A}{\color {blue}C})=P({\color {red}A})P({\color {blue}C})}$ ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}\definecolor {blue}{rgb}{0,0,1}\definecolor {Blue}{rgb}{0,0,1}P({\color {red}A}{\color {green}B}{\color {blue}C})=P({\color {red}A})P({\color {green}B})P({\color {blue}C})}$ ${\textstyle \color {red}A}$ ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}\color {Green}B}$ ${\textstyle \definecolor {blue}{rgb}{0,0,1}\color {blue}C}$

Более общее определение: есть события . Если вероятности произведения событий для каких-либо событий равны произведению вероятностей каждого события, то события независимы друг от друга. ${\textstyle n}$ ${\textstyle {\color {red}A}_{1},{\color {red}A}_{2},\ldots ,{\color {red}A}_{n}}$ ${\textstyle 2,3,\ldots ,n}$ ${\textstyle {\color {red}A}_{1},{\color {red}A}_{2},\ldots ,{\color {red}A}_{n}}$

Примеры

Пример 1

Последовательность результатов вращений честного или нечестного колеса рулетки равна id . Одним из следствий этого является то, что если шарик рулетки приземляется на «красное», например, 20 раз подряд, то следующее вращение с вероятностью не больше и не меньше будет «черным», чем при любом другом вращении (см. заблуждение игрока ). .

Пример 2

Подбросьте монету 10 раз и запишите, сколько раз монета упадет орлом.

Независимый — каждый результат приземления не влияет на другой результат, что означает, что 10 результатов независимы друг от друга.
Одинаково распределено . Независимо от того, является ли монета честной (вероятность 1/2 орла) или нечестной, пока одна и та же монета используется для каждого подбрасывания, каждый подброс будет иметь ту же вероятность, что и каждый другой подброс.

Такая последовательность двух возможных исходов также называется процессом Бернулли .

Пример 3

Бросьте кубик 10 раз и запишите, сколько раз результат равен 1.

Независимый – каждый результат броска кубика не влияет на следующий, что означает, что 10 результатов независимы друг от друга.
Одинаково распределено . Независимо от того, является ли кубик честным или взвешенным, каждый бросок будет иметь ту же вероятность, что и любой другой бросок. Напротив, бросок 10 разных кубиков, некоторые из которых имеют вес, а некоторые нет, не приведет к получению iid-переменных.

Пример 4

Выберите карту из стандартной колоды карт, содержащей 52 карты, затем поместите карту обратно в колоду. Повторите это 52 раза. Запишите количество появившихся королей.

Независимый – каждый результат карты не влияет на следующий, что означает, что 52 результата независимы друг от друга. Напротив, если каждая вытянутая карта не попадает в колоду, это повлияет на последующие взятия (вытягивание одного короля сделает вытягивание второго короля менее вероятным), и результат не будет независимым.
Одинаково распределено . После вытягивания из него одной карты каждый раз вероятность появления короля равна 4/52, что означает, что вероятность каждый раз одинакова.

Обобщения

Многие результаты, которые были впервые доказаны в предположении, что случайные величины являются iid . было показано, что это верно даже при более слабом предположении о распределении.

Сменные случайные величины

Наиболее общим понятием, которое разделяет основные свойства iid-переменных, являются заменяемые случайные величины , введенные Бруно де Финетти . ^{[ нужна цитата ]} Заменяемость означает, что, хотя переменные не могут быть независимыми, будущие ведут себя как прошлые — формально любое значение конечной последовательности столь же вероятно, как и любая перестановка этих значений — совместное распределение вероятностей инвариантно относительно симметричной группы .

Это дает полезное обобщение — например, выборка без замены не является независимой, но ее можно заменить.

Процесс Леви

В стохастическом исчислении переменные iid рассматриваются как процесс Леви с дискретным временем : каждая переменная показывает, насколько она изменяется от одного момента времени к другому. Например, последовательность испытаний Бернулли интерпретируется как процесс Бернулли .

Это можно обобщить, включив в него процессы Леви с непрерывным временем , и многие процессы Леви можно рассматривать как пределы переменных iid - например, процесс Винера является пределом процесса Бернулли.

В машинном обучении

Машинное обучение использует огромные объемы доступных в настоящее время данных для получения более быстрых и точных результатов. ^[7] Для эффективного обучения моделей машинного обучения крайне важно использовать исторические данные, поддающиеся широкому обобщению. Если данные обучения не отражают общую ситуацию, эффективность модели на новых, невидимых данных может быть неточной.

Гипотеза iid , или независимая и одинаково распределенная, позволяет значительно сократить количество отдельных случаев, необходимых в обучающей выборке.

Это предположение упрощает математические вычисления максимизации. В задачах оптимизации предположение о независимом и идентичном распределении упрощает вычисление функции правдоподобия. Ввиду предположения независимости функцию правдоподобия можно выразить как:

l(\theta )=P(x_{1},x_{2},x_{3},...,x_{n}|\theta )=P(x_{1}|\theta )P(x_{2}|\theta )P(x_{3}|\theta )...P(x_{n}|\theta )

Чтобы максимизировать вероятность наблюдаемого события, применяется лог-функция для максимизации параметра θ . В частности, он вычисляет:

\mathop {\rm {argmax}} \limits _{\theta }\log(l(\theta ))

где

\log(l(\theta ))=\log(P(x_{1}|\theta ))+\log(P(x_{2}|\theta ))+\log(P(x_{3}|\theta ))+...+\log(P(x_{n}|\theta ))

Компьютеры очень эффективны при выполнении многократного сложения, но не так эффективны при выполнении умножения. Такое упрощение повышает эффективность вычислений. Логарифмическое преобразование в процессе максимизации преобразует многие показательные функции в линейные.

Есть две основные причины, почему эта гипотеза практически полезна с центральной предельной теоремой:

Даже если выборка представляет собой сложное негауссово распределение, ее можно хорошо аппроксимировать, поскольку центральная предельная теорема позволяет упростить ее до гауссова распределения. Для большого количества наблюдаемых выборок «сумма многих случайных величин будет иметь примерно нормальное распределение».
Вторая причина заключается в том, что точность модели зависит от простоты и репрезентативной способности модели, а также от качества данных. Простота устройства облегчает интерпретацию и масштабирование, а репрезентативная мощность и масштабируемость повышают точность модели. Например, в глубокой нейронной сети каждый нейрон является простым, но мощным в представлении, слой за слоем, фиксируя более сложные функции для повышения точности модели.

Смотрите также

дальнейшее чтение

Казелла, Джордж ; Бергер, Роджер Л. (2002), Статистический вывод , Расширенная серия Даксбери