Случайная величина (также называемая случайной величиной , алеаторной переменной или стохастической переменной ) — это математическая формализация величины или объекта, которая зависит от случайных событий. [1] Термин «случайная величина» в его математическом определении не относится ни к случайности, ни к изменчивости [2] , а вместо этого является математической функцией , в которой
Неформально, случайность обычно представляет собой некий фундаментальный элемент случайности, например, в броске игральной кости ; она также может представлять собой неопределенность, например, ошибку измерения . [1] Однако интерпретация вероятности философски сложна, и даже в конкретных случаях не всегда проста. Чисто математический анализ случайных величин независим от таких трудностей интерпретации и может быть основан на строгой аксиоматической установке.
На формальном математическом языке теории меры случайная величина определяется как измеримая функция из пространства меры вероятности (называемого пространством выборки ) в измеримое пространство . Это позволяет рассмотреть меру pushforward , которая называется распределением случайной величины; распределение, таким образом, является вероятностной мерой на множестве всех возможных значений случайной величины. Две случайные величины могут иметь идентичные распределения, но существенно различаться; например, они могут быть независимыми .
Обычно рассматриваются особые случаи дискретных случайных величин и абсолютно непрерывных случайных величин , соответствующие тому, оценивается ли случайная величина в счетном подмножестве или в интервале действительных чисел . Существуют и другие важные возможности, особенно в теории стохастических процессов , где естественно рассматривать случайные последовательности или случайные функции . Иногда случайная величина считается автоматически оцениваемой в действительных числах, а более общие случайные величины вместо этого называются случайными элементами .
По словам Джорджа Макки , Пафнутий Чебышев был первым человеком, «который мыслил систематически в терминах случайных величин» [3] .
Случайная величина — это измеримая функция из выборочного пространства как набора возможных результатов в измеримое пространство . Техническое аксиоматическое определение требует, чтобы выборочное пространство было выборочным пространством тройки вероятностей (см. определение теории меры). Случайная величина часто обозначается заглавными латинскими буквами , например . [4]
Вероятность того, что она принимает значение в измеримом множестве, записывается как
Во многих случаях имеет действительное значение , т. е . . В некоторых контекстах термин случайный элемент (см. расширения) используется для обозначения случайной величины не этой формы.
Когда изображение (или диапазон) конечно или бесконечно счетно , случайная величина называется дискретной случайной величиной [5] : 399 и ее распределение является дискретным распределением вероятностей , т.е. может быть описано функцией массы вероятности , которая назначает вероятность каждому значению в изображении . Если изображение несчетно бесконечно (обычно интервал ), то называется непрерывной случайной величиной . [6] [7] В особом случае, когда оно абсолютно непрерывно , его распределение может быть описано функцией плотности вероятности , которая назначает вероятности интервалам; в частности, каждая отдельная точка обязательно должна иметь нулевую вероятность для абсолютно непрерывной случайной величины. Не все непрерывные случайные величины являются абсолютно непрерывными. [8]
Любую случайную величину можно описать ее кумулятивной функцией распределения , которая описывает вероятность того, что случайная величина будет меньше или равна определенному значению.
Термин «случайная величина» в статистике традиционно ограничивается действительным случаем ( ). В этом случае структура действительных чисел позволяет определить такие величины, как математическое ожидание и дисперсия случайной величины, ее кумулятивная функция распределения и моменты ее распределения.
Однако, определение выше справедливо для любого измеримого пространства значений. Таким образом, можно рассматривать случайные элементы других множеств , такие как случайные булевы значения , категориальные значения , комплексные числа , векторы , матрицы , последовательности , деревья , множества , формы , многообразия и функции . Затем можно конкретно ссылаться на случайную величину типа или -значную случайную величину .
Эта более общая концепция случайного элемента особенно полезна в таких дисциплинах, как теория графов , машинное обучение , обработка естественного языка и других областях дискретной математики и компьютерных наук , где часто интересуются моделированием случайного изменения нечисловых структур данных . В некоторых случаях, тем не менее, удобно представлять каждый элемент , используя одно или несколько действительных чисел. В этом случае случайный элемент может быть факультативно представлен как вектор действительных случайных величин (все они определены на одном и том же базовом вероятностном пространстве , что позволяет различным случайным величинам ковариировать ). Например:
Если задана случайная величина, определенная на вероятностном пространстве , мы можем задать вопросы типа «Насколько вероятно, что значение равно 2?». Это то же самое, что вероятность события , которое часто записывается как или для краткости.
Запись всех этих вероятностей выходов случайной величины дает распределение вероятностей . Распределение вероятностей «забывает» о конкретном вероятностном пространстве, используемом для определения , и записывает только вероятности различных выходных значений . Такое распределение вероятностей, если оно имеет вещественные значения, всегда может быть получено с помощью его кумулятивной функции распределения
и иногда также с использованием функции плотности вероятности , . В терминах теории меры мы используем случайную величину для «проталкивания» меры на к мере на . Мера называется «распределением (вероятности) » или «законом ». [9] Плотность , производная Радона–Никодима от относительно некоторой эталонной меры на (часто эта эталонная мера является мерой Лебега в случае непрерывных случайных величин или счетной мерой в случае дискретных случайных величин). Базовое вероятностное пространство — это техническое устройство, используемое для гарантии существования случайных величин, иногда для их построения и для определения таких понятий, как корреляция и зависимость или независимость, основанных на совместном распределении двух или более случайных величин в одном и том же вероятностном пространстве. На практике часто полностью избавляются от пространства и просто накладывают меру на , которая назначает меру 1 всей действительной прямой, т. е. работают с распределениями вероятностей вместо случайных величин. См. статью о квантильных функциях для более полного развития.
Рассмотрим эксперимент, в котором человек выбирается случайным образом. Примером случайной величины может быть рост человека. Математически случайная величина интерпретируется как функция, которая сопоставляет человека с его ростом. Со случайной величиной связано распределение вероятностей, которое позволяет вычислить вероятность того, что рост находится в любом подмножестве возможных значений, например, вероятность того, что рост находится между 180 и 190 см, или вероятность того, что рост либо меньше 150, либо больше 200 см.
Другой случайной величиной может быть количество детей у человека; это дискретная случайная величина с неотрицательными целыми значениями. Она позволяет вычислять вероятности для отдельных целых значений — функцию массы вероятности (PMF) — или для наборов значений, включая бесконечные наборы. Например, интересующим событием может быть «четное количество детей». Как для конечных, так и для бесконечных наборов событий их вероятности можно найти, сложив PMF элементов; то есть вероятность четного количества детей равна бесконечной сумме .
В таких примерах выборочное пространство часто подавляется, поскольку его математически трудно описать, и возможные значения случайных величин затем рассматриваются как выборочное пространство. Но когда две случайные величины измеряются на одном и том же выборочном пространстве результатов, например, рост и количество детей вычисляются на одних и тех же случайных лицах, легче отслеживать их взаимосвязь, если признать, что и рост, и количество детей исходят от одного и того же случайного лица, например, так что можно задать вопросы о том, коррелируют ли такие случайные величины или нет.
Если — счетные множества действительных чисел, и , то — дискретная функция распределения. Здесь для , для . Взяв, например, перечисление всех рациональных чисел как , получаем дискретную функцию, которая не обязательно является ступенчатой функцией (кусочно-постоянной).
Возможные результаты для одного подбрасывания монеты можно описать с помощью выборочного пространства . Мы можем ввести действительную случайную величину , которая моделирует выплату в $1 за успешную ставку на орла следующим образом:
Если монета является честной , то Y имеет функцию массы вероятности, заданную следующим образом:
Случайная величина также может быть использована для описания процесса бросания игральных костей и возможных результатов. Наиболее очевидным представлением для случая двух игральных костей является взятие набора пар чисел n 1 и n 2 из {1, 2, 3, 4, 5, 6} (представляющих числа на двух игральных костях) в качестве выборочного пространства. Общее выпавшее число (сумма чисел в каждой паре) является тогда случайной величиной X, заданной функцией, которая отображает пару в сумму: и (если игральные кости честные ) имеет функцию массы вероятности f X, заданную как:
Формально, непрерывная случайная величина — это случайная величина, кумулятивная функция распределения которой непрерывна всюду. [10] Не существует « пробелов », которые соответствовали бы числам, имеющим конечную вероятность появления . Вместо этого непрерывные случайные величины почти никогда не принимают точно предписанного значения c (формально, ), но существует положительная вероятность того, что ее значение будет лежать в определенных интервалах , которые могут быть сколь угодно малыми . Непрерывные случайные величины обычно допускают функции плотности вероятности (PDF), которые характеризуют их CDF и меры вероятности ; такие распределения также называются абсолютно непрерывными ; но некоторые непрерывные распределения являются сингулярными или смесями абсолютно непрерывной части и сингулярной части.
Примером непрерывной случайной величины может быть та, которая основана на счетчике, который может выбирать горизонтальное направление. Тогда значения, принимаемые случайной величиной, являются направлениями. Мы могли бы представить эти направления как Север, Запад, Восток, Юг, Юго-Восток и т. д. Однако обычно удобнее сопоставлять пространство выборки со случайной величиной, которая принимает значения, являющиеся действительными числами. Это можно сделать, например, сопоставив направление с направлением в градусах по часовой стрелке от Севера. Затем случайная величина принимает значения, являющиеся действительными числами из интервала [0, 360), причем все части диапазона являются «одинаково вероятными». В этом случае X = угол вращения. Любое действительное число имеет нулевую вероятность выбора, но положительную вероятность можно присвоить любому диапазону значений. Например, вероятность выбора числа в [0, 180] равна 1 ⁄ 2 . Вместо того чтобы говорить о функции массы вероятности, мы говорим, что плотность вероятности X равна 1/360. Вероятность подмножества [0, 360) можно вычислить, умножив меру множества на 1/360. В общем случае вероятность множества для заданной непрерывной случайной величины можно вычислить, проинтегрировав плотность по заданному множеству.
Более формально, если задан любой интервал , случайная величина называется « непрерывной равномерной случайной величиной» (CURV), если вероятность того, что она примет значение в подынтервале, зависит только от длины подынтервала. Это означает, что вероятность попадания в любой подынтервал пропорциональна длине подынтервала , то есть , если a ≤ c ≤ d ≤ b , то
где последнее равенство следует из аксиомы унитарности вероятности. Функция плотности вероятности CURV задается индикаторной функцией ее интервала поддержки , нормализованной по длине интервала: Особый интерес представляет равномерное распределение на единичном интервале . Образцы любого желаемого распределения вероятности могут быть получены путем вычисления квантильной функции на случайно сгенерированном числе, равномерно распределенном на единичном интервале. Это использует свойства кумулятивных функций распределения , которые являются объединяющей структурой для всех случайных величин.
Смешанная случайная величина — это случайная величина, кумулятивная функция распределения которой не является ни дискретной , ни всюду непрерывной . [10] Она может быть реализована как смесь дискретной случайной величины и непрерывной случайной величины; в этом случае CDF будет средневзвешенным CDF компонентных переменных. [10]
Пример случайной величины смешанного типа будет основан на эксперименте, в котором монета подбрасывается, а вертушка раскручивается только в том случае, если результатом подбрасывания монеты является орел. Если результатом является решка, X = −1; в противном случае X = значение вертушки, как в предыдущем примере. Существует вероятность 1 ⁄ 2 , что эта случайная величина будет иметь значение −1. Другие диапазоны значений будут иметь половину вероятностей последнего примера.
В самом общем случае каждое распределение вероятностей на действительной прямой представляет собой смесь дискретной части, сингулярной части и абсолютно непрерывной части; см. теорему Лебега о разложении § Уточнение . Дискретная часть сосредоточена на счетном множестве, но это множество может быть плотным (как множество всех рациональных чисел).
Наиболее формальное, аксиоматическое определение случайной величины включает в себя теорию меры . Непрерывные случайные величины определяются в терминах множеств чисел, а также функций, которые отображают такие множества в вероятности. Из-за различных трудностей (например, парадокса Банаха-Тарского ), которые возникают, если такие множества недостаточно ограничены, необходимо ввести то, что называется сигма-алгеброй, чтобы ограничить возможные множества, по которым могут быть определены вероятности. Обычно используется конкретная такая сигма-алгебра, σ-алгебра Бореля , которая позволяет определять вероятности по любым множествам, которые могут быть получены либо непосредственно из непрерывных интервалов чисел, либо с помощью конечного или счетного бесконечного числа объединений и/или пересечений таких интервалов. [11]
Теоретико-мерное определение выглядит следующим образом.
Пусть будет вероятностным пространством и измеримым пространством . Тогда -значная случайная величина является измеримой функцией , что означает, что для каждого подмножества его прообраз -измерим ; , где . [12] Это определение позволяет нам измерить любое подмножество в целевом пространстве, глядя на его прообраз, который по предположению измерим.
В более интуитивно понятных терминах, член является возможным результатом, член является измеримым подмножеством возможных результатов, функция дает вероятность каждого такого измеримого подмножества, представляет набор значений, которые может принимать случайная величина (например, набор действительных чисел), а член является «хорошо себя ведущим» (измеримым) подмножеством (теми, для которых вероятность может быть определена). Случайная величина тогда является функцией от любого результата к величине, такой, что результаты, приводящие к любому полезному подмножеству величин для случайной величины, имеют хорошо определенную вероятность.
Когда является топологическим пространством , то наиболее распространенным выбором для σ-алгебры является σ-алгебра Бореля , которая является σ-алгеброй, порожденной совокупностью всех открытых множеств в . В таком случае -значная случайная величина называется -значной случайной величиной . Более того, когда пространство является действительной прямой , то такая действительнозначная случайная величина называется просто случайной величиной .
В этом случае пространство наблюдения — это множество действительных чисел. Напомним, — это вероятностное пространство. Для действительного пространства наблюдения функция является действительной случайной величиной, если
Это определение является частным случаем вышеприведенного, поскольку множество порождает борелевскую σ-алгебру на множестве действительных чисел, и достаточно проверить измеримость на любом порождающем множестве. Здесь мы можем доказать измеримость на этом порождающем множестве, используя тот факт, что .
Распределение вероятностей случайной величины часто характеризуется небольшим числом параметров, которые также имеют практическую интерпретацию. Например, часто достаточно знать, каково ее «среднее значение». Это отражается в математической концепции ожидаемого значения случайной величины, обозначаемой , а также называемой первым моментом . В общем случае не равно . Как только «среднее значение» известно, можно спросить, насколько далеки от этого среднего значения значения , на этот вопрос отвечают дисперсия и стандартное отклонение случайной величины. можно интуитивно рассматривать как среднее значение, полученное из бесконечной совокупности, члены которой являются частными оценками .
Математически это известно как (обобщенная) проблема моментов : для заданного класса случайных величин найти набор функций, такой, чтобы значения ожиданий полностью характеризовали распределение случайной величины .
Моменты могут быть определены только для действительных функций случайных величин (или комплексных и т. д.). Если случайная величина сама является действительной, то могут быть взяты моменты самой переменной, которые эквивалентны моментам функции тождества случайной величины. Однако даже для недействительных случайных величин могут быть взяты моменты действительных функций этих переменных. Например, для категориальной случайной величины X , которая может принимать номинальные значения «красный», «синий» или «зеленый», может быть построена действительная функция ; она использует скобку Айверсона и имеет значение 1, если имеет значение «зеленый», и 0 в противном случае. Затем можно определить ожидаемое значение и другие моменты этой функции.
Новая случайная величина Y может быть определена путем применения действительной измеримой функции Бореля к результатам действительной случайной величины . То есть, . Тогда кумулятивная функция распределения равна
Если функция обратима (т.е. существует, где — обратная функция ) и либо возрастает, либо убывает , то предыдущее соотношение можно расширить, получив
При тех же гипотезах обратимости , предполагая также дифференцируемость , соотношение между функциями плотности вероятности может быть найдено путем дифференцирования обеих частей приведенного выше выражения по , чтобы получить [10]
Если обратимость отсутствует, но каждый из них допускает не более счетного числа корней (т.е. конечное или счетно бесконечное число таких, что ), то предыдущее соотношение между функциями плотности вероятности можно обобщить с помощью
где , согласно теореме об обратной функции . Формулы для плотностей не требуют возрастания.
В аксиоматическом подходе к вероятности , основанном на теории меры , если случайная величина на и измеримая по Борелю функция , то также является случайной величиной на , поскольку композиция измеримых функций также измерима . (Однако это не обязательно верно, если является измеримой по Лебегу . [ необходима ссылка ] ) Та же процедура, которая позволила перейти от вероятностного пространства к , может быть использована для получения распределения .
Пусть — действительная, непрерывная случайная величина и пусть .
Если , то , так что
Если , то
так
Предположим, что это случайная величина с кумулятивным распределением
где - фиксированный параметр. Рассмотрим случайную величину Тогда,
Последнее выражение можно рассчитать с точки зрения кумулятивного распределения так
которая является кумулятивной функцией распределения (CDF) экспоненциального распределения .
Предположим, что есть случайная величина со стандартным нормальным распределением , плотность которой равна
Рассмотрим случайную величину. Мы можем найти плотность, используя приведенную выше формулу для замены переменных:
В этом случае изменение не является монотонным , поскольку каждому значению соответствуют два значения (одно положительное и одно отрицательное). Однако из-за симметрии обе половины преобразуются одинаково, т.е.
Обратное преобразование:
и его производная
Затем,
Это распределение хи-квадрат с одной степенью свободы .
Предположим, что есть случайная величина с нормальным распределением , плотность которой равна
Рассмотрим случайную величину. Мы можем найти плотность, используя приведенную выше формулу для замены переменных:
В этом случае изменение не является монотонным , поскольку каждое значение имеет два соответствующих значения (одно положительное и одно отрицательное). В отличие от предыдущего примера, в этом случае, однако, нет симметрии, и нам нужно вычислить два различных члена:
Обратное преобразование:
и его производная
Затем,
Это нецентральное распределение хи-квадрат с одной степенью свободы .
Существует несколько различных смыслов, в которых случайные величины можно считать эквивалентными. Две случайные величины могут быть равны, равны почти наверняка или равны по распределению.
Ниже приводится точное определение этих понятий эквивалентности в порядке возрастания их силы.
Если выборочное пространство является подмножеством действительной прямой, случайные величины X и Y равны по распределению (обозначается ), если они имеют одинаковые функции распределения:
Чтобы быть равными в распределении, случайные величины не обязательно должны быть определены на одном и том же вероятностном пространстве. Две случайные величины, имеющие равные функции генерации моментов, имеют одинаковое распределение. Это обеспечивает, например, полезный метод проверки равенства определенных функций независимых, одинаково распределенных (IID) случайных величин . Однако функция генерации моментов существует только для распределений, которые имеют определенное преобразование Лапласа .
Две случайные величины X и Y равны почти наверняка (обозначается ) , если и только если вероятность того, что они различны, равна нулю :
Для всех практических целей в теории вероятностей это понятие эквивалентности так же сильно, как и фактическое равенство. Оно связано со следующим расстоянием:
где «ess sup» представляет собой существенный супремум в смысле теории меры .
Наконец, две случайные величины X и Y равны , если они равны как функции в их измеримом пространстве:
Это понятие, как правило, наименее полезно в теории вероятностей, поскольку на практике и в теории базовое пространство измерений эксперимента редко бывает явно охарактеризовано или даже поддается характеристике.
Важной темой в математической статистике является получение результатов сходимости для определенных последовательностей случайных величин, например, закона больших чисел и центральной предельной теоремы .
Существуют различные смыслы, в которых последовательность случайных величин может сходиться к случайной величине . Они объясняются в статье о сходимости случайных величин .