Независимые и одинаково распределенные случайные величины

В теории вероятностей и статистике совокупность случайных величин независима и одинаково распределена , если каждая случайная величина имеет такое же распределение вероятностей, как и другие, и все они взаимно независимы . ^[1] Это свойство обычно обозначается аббревиатурой iid , iid или IID . IID впервые был определен в статистике и находит применение в различных областях, таких как интеллектуальный анализ данных и обработка сигналов .

Введение

Статистика обычно имеет дело со случайными выборками. Случайную выборку можно рассматривать как набор объектов, выбранных случайным образом. Более формально, это «последовательность независимых, одинаково распределенных (IID) случайных точек данных».

Другими словами, термины случайная выборка и IID являются синонимами. В статистике « случайная выборка » — типичная терминология, но в теории вероятности чаще говорят « IID ».

Одинаковое распределение означает, что общих тенденций нет — распределение не колеблется, и все элементы в выборке берутся из одного и того же распределения вероятностей .
Независимые означает, что все элементы выборки являются независимыми событиями. Другими словами, они никак не связаны друг с другом; ^[2] знание значения одной переменной не дает никакой информации о значении другой и наоборот.

Приложение

Независимые и одинаково распределенные случайные величины часто используются в качестве предположения, что имеет тенденцию упрощать лежащую в основе математику. Однако в практических приложениях статистического моделирования это предположение может быть или не быть реалистичным. ^[3]

Предположение iid также используется в центральной предельной теореме , которая утверждает, что распределение вероятностей суммы (или среднего) iid-переменных с конечной дисперсией приближается к нормальному распределению . ^[4]

Предположение iid часто возникает в контексте последовательностей случайных величин. Тогда «независимый и одинаково распределенный» подразумевает, что элемент в последовательности независим от случайных величин, которые были до него. Таким образом, последовательность iid отличается от последовательности Маркова , где распределение вероятностей для $n-$ й случайной величины является функцией предыдущей случайной величины в последовательности (для последовательности Маркова первого порядка). Последовательность iid не подразумевает, что вероятности для всех элементов пространства выборки или пространства событий должны быть одинаковыми. ^[5] Например, повторные броски загруженных игральных костей дадут последовательность, которая является iid, несмотря на смещение результатов.

В обработке сигналов и изображений понятие преобразования в iid подразумевает две спецификации: часть «id» и часть «i.»:

id . – Уровень сигнала должен быть сбалансирован по оси времени.

i . – Спектр сигнала должен быть выровнен, т.е. преобразован путем фильтрации (например, деконволюции ) в сигнал белого шума (т.е. сигнал, в котором все частоты присутствуют в равной степени).

Определение

Определение для двух случайных величин

Предположим, что случайные величины и определены так, чтобы принимать значения в . Пусть и будут кумулятивными функциями распределения и , соответственно, и обозначим их совместную кумулятивную функцию распределения как . $X$ $Y$ $I\subseteq \mathbb {R}$ $F_{X}(x)=\operatorname {P} (X\leq x)$ $F_{Y}(y)=\operatorname {P} (Y\leq y)$ $X$ $Y$ $F_{X,Y}(x,y)=\operatorname {P} (X\leq x\land Y\leq y)$

Две случайные величины и распределены одинаково тогда и только тогда, когда ^[6] . $X$ $Y$ $F_{X}(x)=F_{Y}(x)\,\forall x\in I$

Две случайные величины и независимы тогда и только тогда, когда . (См. далее Независимость (теория вероятностей) § Две случайные величины .) $X$ $Y$ $F_{X,Y}(x,y)=F_{X}(x)\cdot F_{Y}(y)\,\forall x,y\in I$

Две случайные величины и являются независимыми , если они независимы и одинаково распределены, т.е. тогда и только тогда, когда $X$ $Y$

Определение для более чем двух случайных величин

Определение естественным образом распространяется на более чем две случайные величины. Мы говорим, что случайные величины являются iid , если они независимы (см. далее Независимость (теория вероятностей) § Более двух случайных величин ) и одинаково распределены, т.е. тогда и только тогда, когда $n$ $X_{1},\ldots ,X_{n}$

УРАВНЕНИЕ

где обозначает совместную кумулятивную функцию распределения . $F_{X_{1},\ldots ,X_{n}}(x_{1},\ldots ,x_{n})=\operatorname {P} (X_{1}\leq x_{1}\land \ldots \land X_{n}\leq x_{n})$ $X_{1},\ldots ,X_{n}$

Определение независимости

В теории вероятностей два события и называются независимыми тогда и только тогда, когда . В дальнейшем — сокращение от . ${\textstyle \color {red}A}$ ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}\color {Green}B}$ ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}P({\color {red}A}\ \mathrm {and} \ {\color {green}B})=P({\color {red}A})P({\color {green}B})}$ ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}P({\color {red}A}{\color {green}B})}$ ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}P({\color {red}A}\ \mathrm {and} \ {\color {green}B})}$

Предположим, что есть два события эксперимента, и . Если , то есть возможность . Как правило, возникновение оказывает влияние на вероятность — это называется условной вероятностью. Кроме того, только когда возникновение не оказывает влияния на возникновение , есть . ${\textstyle \color {red}A}$ ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}\color {Green}B}$ ${\textstyle P({\color {red}A})>0}$ ${\textstyle P({\color {green}B}|{\color {red}A})}$ ${\textstyle \color {red}A}$ ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}\color {Green}B}$ ${\textstyle \color {red}A}$ ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}\color {Green}B}$ ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}P({\color {green}B}|{\color {red}A})=P({\color {green}B})}$

Примечание: Если и , то и взаимно независимы, что не может быть установлено как взаимно несовместимые одновременно; то есть независимость должна быть совместимой, а взаимное исключение должно быть связанным. ${\textstyle P({\color {red}A})>0}$ ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}P({\color {Green}B})>0}$ ${\textstyle \color {red}A}$ ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}\color {Green}B}$

Предположим, что , , и — три события. Если , , , и выполняются, то события , , и взаимно независимы. ${\textstyle \color {red}A}$ ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}\color {Green}B}$ ${\textstyle \definecolor {blue}{rgb}{0,0,1}\color {blue}C}$ ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}P({\color {red}A}{\color {green}B})=P({\color {red}A})P({\color {green}B})}$ ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}\definecolor {blue}{rgb}{0,0,1}\definecolor {Blue}{rgb}{0,0,1}P({\color {green}B}{\color {blue}C})=P({\color {green}B})P({\color {blue}C})}$ ${\textstyle \definecolor {blue}{rgb}{0,0,1}P({\color {red}A}{\color {blue}C})=P({\color {red}A})P({\color {blue}C})}$ ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}\definecolor {blue}{rgb}{0,0,1}\definecolor {Blue}{rgb}{0,0,1}P({\color {red}A}{\color {green}B}{\color {blue}C})=P({\color {red}A})P({\color {green}B})P({\color {blue}C})}$ ${\textstyle \color {red}A}$ ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}\color {Green}B}$ ${\textstyle \definecolor {blue}{rgb}{0,0,1}\color {blue}C}$

Более общее определение: существуют события, . Если вероятности произведений событий для любых событий равны произведению вероятностей каждого события, то события независимы друг от друга. ${\textstyle n}$ ${\textstyle {\color {red}A}_{1},{\color {red}A}_{2},\ldots ,{\color {red}A}_{n}}$ ${\textstyle 2,3,\ldots ,n}$ ${\textstyle {\color {red}A}_{1},{\color {red}A}_{2},\ldots ,{\color {red}A}_{n}}$

Примеры

Пример 1

Последовательность результатов вращений честной или нечестной рулетки — iid . Одним из следствий этого является то, что если шарик рулетки приземлится на «красное», например, 20 раз подряд, то вероятность того, что следующее вращение выпадет на «черное», не больше и не меньше, чем при любом другом вращении (см. ошибку игрока ).

Пример 2

Подбросьте монету 10 раз и запишите, сколько раз выпадет орел.

Независимый — каждый результат приземления не повлияет на другой результат, что означает, что 10 результатов независимы друг от друга.
Одинаково распределено — независимо от того, является ли монета честной (вероятность выпадения орла равна 1/2) или нет, пока для каждого подбрасывания используется одна и та же монета, каждое подбрасывание будет иметь такую же вероятность, как и каждое другое подбрасывание.

Такая последовательность двух возможных независимых результатов также называется процессом Бернулли .

Пример 3

Бросьте кубик 10 раз и запишите, сколько раз выпало значение 1.

Независимый — каждый результат броска кубика не повлияет на следующий, что означает, что 10 результатов независимы друг от друга.
Одинаково распределено – Независимо от того, является ли кость честной или взвешенной, каждый бросок будет иметь ту же вероятность, что и любой другой бросок. Напротив, бросок 10 разных костей, некоторые из которых взвешены, а некоторые нет, не даст переменных iid.

Пример 4

Выберите карту из стандартной колоды карт, содержащей 52 карты, затем положите карту обратно в колоду. Повторите это 52 раза. Запишите количество появившихся королей.

Независимый – каждый результат карты не повлияет на следующий, что означает, что 52 результата независимы друг от друга. Напротив, если каждая вытащенная карта не попадает в колоду, последующие вытащенные карты будут затронуты ею (вытащенный король сделает вытащенный второй король менее вероятным), и результат не будет независимым.
Одинаково распределено – после вытягивания одной карты вероятность выпадения короля каждый раз составляет 4/52, что означает, что вероятность каждый раз одинакова.

Обобщения

Многие результаты, которые были впервые доказаны при предположении, что случайные величины являются независимыми , оказались верными даже при более слабом предположении о распределении.

Случайные величины, допускающие обмен

Наиболее общим понятием, которое разделяет основные свойства независимых тождественных переменных, являются взаимозаменяемые случайные величины , введенные Бруно де Финетти . ^{[ требуется ссылка ]} Взаимозаменяемость означает, что, хотя переменные могут быть независимы, будущие переменные ведут себя так же, как и прошлые — формально любое значение конечной последовательности так же вероятно, как и любая перестановка этих значений — совместное распределение вероятностей инвариантно относительно симметричной группы .

Это дает полезное обобщение — например, выборка без возвращения не является независимой, но может быть заменена.

Процесс Леви

В стохастическом исчислении переменные iid рассматриваются как дискретный временной процесс Леви : каждая переменная показывает, насколько она изменяется от одного момента времени к другому. Например, последовательность испытаний Бернулли интерпретируется как процесс Бернулли .

Это можно обобщить, включив в него непрерывные во времени процессы Леви , и многие процессы Леви можно рассматривать как пределы независимых тождественных переменных — например, процесс Винера является пределом процесса Бернулли.

В машинном обучении

Машинное обучение использует огромные объемы данных, доступных в настоящее время, для предоставления более быстрых и точных результатов. ^[7] Для эффективного обучения моделей машинного обучения крайне важно использовать исторические данные, которые можно широко обобщить. Если данные обучения не являются репрезентативными для общей ситуации, производительность модели на новых, невиданных данных может быть неточной.

Гипотеза iid ( независимая и одинаково распределенная) позволяет значительно сократить количество отдельных случаев, необходимых для обучающей выборки.

Это предположение упрощает математические вычисления максимизации. В задачах оптимизации предположение о независимом и одинаковом распределении упрощает вычисление функции правдоподобия. Благодаря предположению о независимости функция правдоподобия может быть выражена как:

l(\theta )=P(x_{1},x_{2},x_{3},...,x_{n}|\theta )=P(x_{1}|\theta )P(x_{2}|\theta )P(x_{3}|\theta )...P(x_{n}|\theta )

Для максимизации вероятности наблюдаемого события применяется логарифмическая функция для максимизации параметра . В частности, она вычисляет: ${\textstyle \theta }$

\mathop {\rm {argmax}} \limits _{\theta }\log(l(\theta ))

где

\log(l(\theta ))=\log(P(x_{1}|\theta ))+\log(P(x_{2}|\theta ))+\log(P(x_{3}|\theta ))+...+\log(P(x_{n}|\theta ))

Компьютеры очень эффективны при выполнении множественных сложений, но не так эффективны при выполнении умножений. Это упрощение повышает вычислительную эффективность. Логарифмическое преобразование в процессе максимизации преобразует многие экспоненциальные функции в линейные функции.

Есть две основные причины, по которым эта гипотеза практически полезна в сочетании с центральной предельной теоремой:

Даже если выборка происходит из сложного негауссовского распределения, ее можно хорошо аппроксимировать, поскольку центральная предельная теорема позволяет упростить ее до гауссовского распределения. Для большого числа наблюдаемых выборок «сумма многих случайных величин будет иметь приблизительно нормальное распределение».
Вторая причина заключается в том, что точность модели зависит от простоты и репрезентативной мощности блока модели, а также от качества данных. Простота блока упрощает его интерпретацию и масштабирование, в то время как репрезентативная мощность и масштабируемость повышают точность модели. Например, в глубокой нейронной сети каждый нейрон прост, но при этом мощен в представлении, слой за слоем, захватывая более сложные признаки для повышения точности модели.

Смотрите также

Ссылки

^ Clauset, Aaron (2011). "Краткий учебник по распределениям вероятностей" (PDF) . Институт Санта-Фе . Архивировано из оригинала (PDF) 2012-01-20 . Получено 29-11-2011 .
^ Стефани (2016-05-11). "Статистика IID: Независимое и одинаково распределенное определение и примеры". Статистика Как это сделать . Получено 2021-12-09 .
^ Хампель, Фрэнк (1998), «Статистика слишком сложна?», Канадский журнал статистики , 26 (3): 497–513, doi : 10.2307/3315772, hdl : 20.500.11850/145503 , JSTOR 3315772, S2CID 53117661(§8).
^ Блюм, Дж. Р.; Чернофф, Х.; Розенблатт, М.; Тейхер, Х. (1958). «Центральные предельные теоремы для взаимозаменяемых процессов». Канадский математический журнал . 10 : 222–229. doi : 10.4153/CJM-1958-026-0 . S2CID 124843240.
^ Cover, TM; Thomas, JA (2006). Элементы теории информации . Wiley-Interscience . стр. 57–58. ISBN 978-0-471-24195-9.
^ Казелла и Бергер 2002, Теорема 1.5.10
^ "Что такое машинное обучение? Определение". Expert.ai . 2020-05-05 . Получено 2021-12-16 .

Дальнейшее чтение

Казелла, Джордж ; Бергер, Роджер Л. (2002), Статистический вывод , Duxbury Advanced Series