Статистика обычно имеет дело со случайными выборками. Случайную выборку можно рассматривать как набор объектов, выбранных случайным образом. Более формально, это «последовательность независимых, одинаково распределенных (IID) случайных точек данных».
Другими словами, термины случайная выборка и IID являются синонимами. В статистике « случайная выборка » — типичная терминология, но в теории вероятности чаще говорят « IID ».
Одинаковое распределение означает, что общих тенденций нет — распределение не колеблется, и все элементы в выборке берутся из одного и того же распределения вероятностей .
Независимые означает, что все элементы выборки являются независимыми событиями. Другими словами, они никак не связаны друг с другом; [2] знание значения одной переменной не дает никакой информации о значении другой и наоборот.
Приложение
Независимые и одинаково распределенные случайные величины часто используются в качестве предположения, что имеет тенденцию упрощать лежащую в основе математику. Однако в практических приложениях статистического моделирования это предположение может быть или не быть реалистичным. [3]
Предположение iid часто возникает в контексте последовательностей случайных величин. Тогда «независимый и одинаково распределенный» подразумевает, что элемент в последовательности независим от случайных величин, которые были до него. Таким образом, последовательность iid отличается от последовательности Маркова , где распределение вероятностей для n- й случайной величины является функцией предыдущей случайной величины в последовательности (для последовательности Маркова первого порядка). Последовательность iid не подразумевает, что вероятности для всех элементов пространства выборки или пространства событий должны быть одинаковыми. [5] Например, повторные броски загруженных игральных костей дадут последовательность, которая является iid, несмотря на смещение результатов.
В обработке сигналов и изображений понятие преобразования в iid подразумевает две спецификации: часть «id» и часть «i.»:
id . – Уровень сигнала должен быть сбалансирован по оси времени.
i . – Спектр сигнала должен быть выровнен, т.е. преобразован путем фильтрации (например, деконволюции ) в сигнал белого шума (т.е. сигнал, в котором все частоты присутствуют в равной степени).
Две случайные величины и являются независимыми , если они независимы и одинаково распределены, т.е. тогда и только тогда, когда
Определение для более чем двух случайных величин
Определение естественным образом распространяется на более чем две случайные величины. Мы говорим, что случайные величины являются iid , если они независимы (см. далее Независимость (теория вероятностей) § Более двух случайных величин ) и одинаково распределены, т.е. тогда и только тогда, когда
УРАВНЕНИЕ
где обозначает совместную кумулятивную функцию распределения .
Определение независимости
В теории вероятностей два события и называются независимыми тогда и только тогда, когда . В дальнейшем — сокращение от .
Предположим, что есть два события эксперимента, и . Если , то есть возможность . Как правило, возникновение оказывает влияние на вероятность — это называется условной вероятностью. Кроме того, только когда возникновение не оказывает влияния на возникновение , есть .
Примечание: Если и , то и взаимно независимы, что не может быть установлено как взаимно несовместимые одновременно; то есть независимость должна быть совместимой, а взаимное исключение должно быть связанным.
Предположим, что , , и — три события. Если , , , и выполняются, то события , , и взаимно независимы.
Более общее определение: существуют события, . Если вероятности произведений событий для любых событий равны произведению вероятностей каждого события, то события независимы друг от друга.
Примеры
Пример 1
Последовательность результатов вращений честной или нечестной рулетки — iid . Одним из следствий этого является то, что если шарик рулетки приземляется на «красное», например, 20 раз подряд, то вероятность того, что следующее вращение выпадет на «черное», не больше и не меньше, чем при любом другом вращении (см. ошибку игрока ).
Пример 2
Подбросьте монету 10 раз и запишите, сколько раз выпадет орел.
Независимый — каждый результат приземления не повлияет на другой результат, что означает, что 10 результатов независимы друг от друга.
Одинаково распределено — независимо от того, является ли монета честной (вероятность выпадения орла равна 1/2) или нет, пока для каждого подбрасывания используется одна и та же монета, каждое подбрасывание будет иметь такую же вероятность, как и каждое другое подбрасывание.
Такая последовательность двух возможных независимых результатов также называется процессом Бернулли .
Пример 3
Бросьте кубик 10 раз и запишите, сколько раз выпало значение 1.
Независимый — каждый результат броска кубика не повлияет на следующий, что означает, что 10 результатов независимы друг от друга.
Одинаково распределено – Независимо от того, является ли кость честной или взвешенной, каждый бросок будет иметь ту же вероятность, что и любой другой бросок. Напротив, бросок 10 разных костей, некоторые из которых взвешены, а некоторые нет, не даст переменных iid.
Пример 4
Выберите карту из стандартной колоды карт, содержащей 52 карты, затем положите карту обратно в колоду. Повторите это 52 раза. Запишите количество появившихся королей.
Независимый – каждый результат карты не повлияет на следующий, что означает, что 52 результата независимы друг от друга. Напротив, если каждая вытащенная карта не попадает в колоду, последующие вытащенные карты будут затронуты ею (вытащенный король сделает вытащенный второй король менее вероятным), и результат не будет независимым.
Одинаково распределено – после вытягивания одной карты вероятность выпадения короля каждый раз составляет 4/52, что означает, что вероятность каждый раз одинакова.
Обобщения
Многие результаты, которые были впервые доказаны при предположении, что случайные величины являются независимыми , оказались верными даже при более слабом предположении о распределении.
Это можно обобщить, включив в него непрерывные во времени процессы Леви , и многие процессы Леви можно рассматривать как пределы независимых тождественных переменных — например, процесс Винера является пределом процесса Бернулли.
В машинном обучении
Машинное обучение (ML) подразумевает изучение статистических взаимосвязей в данных. Для эффективного обучения моделей ML крайне важно использовать данные, которые можно широко обобщить. Если данные обучения недостаточно репрезентативны для задачи, производительность модели на новых, невиданных данных может быть низкой.
Гипотеза iid позволяет значительно сократить количество индивидуальных случаев, требуемых в обучающей выборке, упрощая оптимизационные расчеты. В задачах оптимизации предположение о независимом и идентичном распределении упрощает расчет функции правдоподобия. Благодаря этому предположению функция правдоподобия может быть выражена как:
Для максимизации вероятности наблюдаемого события применяется логарифмическая функция для максимизации параметра . В частности, она вычисляет:
где
Компьютеры очень эффективны при выполнении множественных сложений, но не так эффективны при выполнении умножений. Это упрощение повышает вычислительную эффективность. Логарифмическое преобразование в процессе максимизации преобразует многие экспоненциальные функции в линейные функции.
Даже если выборка происходит из сложного негауссовского распределения , ее можно хорошо аппроксимировать, поскольку ЦПТ позволяет упростить ее до гауссовского распределения («для большого числа наблюдаемых выборок сумма многих случайных величин будет иметь приблизительно нормальное распределение»).
Вторая причина заключается в том, что точность модели зависит от простоты и репрезентативной мощности блока модели, а также от качества данных. Простота блока упрощает его интерпретацию и масштабирование, в то время как репрезентативная мощность и масштабируемость повышают точность модели. Например, в глубокой нейронной сети каждый нейрон прост, но при этом мощен в представлении, слой за слоем, захватывая более сложные признаки для повышения точности модели.
^ Clauset, Aaron (2011). "Краткий учебник по распределениям вероятностей" (PDF) . Институт Санта-Фе . Архивировано из оригинала (PDF) 2012-01-20 . Получено 29-11-2011 .
^ Стефани (2016-05-11). "Статистика IID: Независимое и одинаково распределенное определение и примеры". Статистика Как это сделать . Получено 2021-12-09 .
^ Хампель, Фрэнк (1998), «Статистика слишком сложна?», Канадский журнал статистики , 26 (3): 497–513, doi : 10.2307/3315772, hdl : 20.500.11850/145503 , JSTOR 3315772, S2CID 53117661(§8).
^ Блюм, Дж. Р.; Чернофф, Х.; Розенблатт, М.; Тейхер, Х. (1958). «Центральные предельные теоремы для взаимозаменяемых процессов». Канадский математический журнал . 10 : 222–229. doi : 10.4153/CJM-1958-026-0 . S2CID 124843240.