Распределение отношения ( также известное как распределение фактора ) — это распределение вероятностей, построенное как распределение отношения случайных величин, имеющих два других известных распределения. При наличии двух (обычно независимых ) случайных величин X и Y распределение случайной величины Z , сформированное как отношение Z = X / Y, является распределением отношения .
Примером является распределение Коши (также называемое нормальным распределением отношений ), которое возникает как отношение двух нормально распределенных переменных с нулевым средним. Два других распределения, часто используемые в тестовой статистике, также являются распределениями отношений: t -распределение возникает из гауссовой случайной величины, деленной на независимую хи-распределенную случайную величину, в то время как F -распределение возникает из отношения двух независимых хи-квадрат распределенных случайных величин. Более общие распределения отношений были рассмотрены в литературе. [1] [2] [3] [4] [5] [6] [7] [8] [9]
Часто распределения отношений имеют тяжелый хвост , и может быть сложно работать с такими распределениями и разрабатывать связанный статистический тест . Метод, основанный на медиане, был предложен в качестве «обходного пути». [10]
Алгебра случайных величин
Отношение — это один из типов алгебры для случайных величин: С распределением отношения связаны распределение произведения , распределение суммы и распределение разности. В более общем смысле можно говорить о комбинациях сумм, разностей, произведений и отношений. Многие из этих распределений описаны в книге Мелвина Д. Спрингера 1979 года «Алгебра случайных величин» . [8]
Алгебраические правила, известные для обычных чисел, не применимы к алгебре случайных величин. Например, если произведение C = AB , а отношение D = C/A, это не обязательно означает, что распределения D и B одинаковы. Действительно, для распределения Коши наблюдается своеобразный эффект : произведение и отношение двух независимых распределений Коши (с тем же параметром масштаба и параметром местоположения, равным нулю) дадут одно и то же распределение. [8]
Это становится очевидным, если рассматривать распределение Коши как само по себе распределение отношения двух гауссовых распределений с нулевыми средними: рассмотрим две случайные величины Коши, и каждая из них построена из двух гауссовых распределений , а затем
где . Первый член представляет собой отношение двух распределений Коши, а последний член — произведение двух таких распределений.
Вывод
Способом получения распределения отношения из совместного распределения двух других случайных величин X, Y , с совместной функцией плотности вероятности , является интегрирование следующей формы [3]
Если две переменные независимы, то это становится
Это может быть не так просто. В качестве примера возьмем классическую задачу соотношения двух стандартных гауссовых выборок. Совместная pdf равна
Определяя, мы имеем
Используя известный определенный интеграл, получаем
что является распределением Коши или распределением Стьюдента при n = 1
Преобразование Меллина также было предложено для вывода распределений отношений. [8]
В случае положительных независимых переменных действуйте следующим образом. На диаграмме показано разделимое двумерное распределение , которое имеет поддержку в положительном квадранте , и мы хотим найти функцию распределения . Заштрихованный объем над линией представляет собой кумулятивное распределение функции, умноженной на логическую функцию . Сначала плотность интегрируется по горизонтальным полосам; горизонтальная полоса на высоте y простирается от x = 0 до x = Ry и имеет возрастающую вероятность .
Во-вторых, интегрирование горизонтальных полос вверх по всем y дает объем вероятности над линией
Наконец, продифференцируем по , чтобы получить PDF-файл .
Перенесем дифференциал внутрь интеграла:
и с тех пор
затем
В качестве примера найдите функцию PDF отношения R, когда
У нас есть
таким образом
Дифференцирование по R дает функцию плотности вероятности R
Моменты случайных соотношений
Из теории преобразования Меллина для распределений, существующих только на положительной полупрямой , мы имеем тождество произведения, предоставленное независимыми. Для случая отношения выборок, например , для того, чтобы использовать это тождество, необходимо использовать моменты обратного распределения. Задайте таким образом, что . Таким образом, если моменты и могут быть определены по отдельности, то моменты могут быть найдены. Моменты определяются из обратной функции плотности вероятности , что часто является поддающимся решению упражнением. В простейшем случае .
выбирается из обратного гамма-распределения с параметром и имеет pdf . Моменты этой pdf равны
Умножение соответствующих моментов дает
Независимо известно, что соотношение двух образцов Гаммы следует распределению Бета-Прайм:
чьи моменты
Подставляя, получаем
, что согласуется с произведением моментов выше.
Средние значения и дисперсии случайных соотношений
В разделе «Распределение продукта » и на основе теории преобразования Меллина (см. раздел выше) обнаружено, что среднее значение произведения независимых переменных равно произведению их средних значений. В случае отношений мы имеем
что с точки зрения распределения вероятностей эквивалентно
Обратите внимание, что , т.е.,
Дисперсия отношения независимых переменных равна
Нормальное распределение отношений
Некоррелированное центральное нормальное отношение
Когда X и Y независимы и имеют гауссовское распределение с нулевым средним, форма их распределения отношения является распределением Коши . Это можно вывести, установив, а затем показав, что имеет круговую симметрию. Для двумерного некоррелированного гауссова распределения мы имеем
Если является функцией только r, то равномерно распределено на с плотностью, поэтому задача сводится к нахождению распределения вероятностей Z при отображении
Имеем, по закону сохранения вероятности
и с тех пор
и установив мы получаем
Здесь присутствует ложный множитель 2. На самом деле, два значения, разнесенные по карте, накладываются на одно и то же значение z , плотность удваивается, и конечный результат равен
Когда любое из двух нормальных распределений не является центральным, то результат для распределения отношения гораздо сложнее и приведен ниже в сжатой форме, представленной Дэвидом Хинкли . [6] Тригонометрический метод для отношения, однако, распространяется на радиальные распределения, такие как двумерные нормали или двумерное распределение Стьюдента t , в котором плотность зависит только от радиуса . Он не распространяется на отношение двух независимых распределений Стьюдента t , которые дают отношение Коши, показанное в разделе ниже для одной степени свободы.
Некоррелированное нецентральное нормальное отношение
При отсутствии корреляции функция плотности вероятности двух нормальных переменных X = N ( μ X , σ X 2 ) и Y = N ( μ Y , σ Y 2 ) отношения Z = X / Y в точности задается следующим выражением, выведенным из нескольких источников: [6]
При нескольких предположениях (обычно выполняемых в практических приложениях) можно получить высокоточное твердое приближение к PDF. Главными преимуществами являются снижение сложности формул, замкнутая форма CDF, простое определение медианы, четкое управление ошибками и т. д... Для простоты введем параметры: , и . Тогда так называемое твердое приближение к некоррелированному нецентральному нормальному отношению PDF выражается уравнением [11]
При определенных условиях возможна нормальная аппроксимация с дисперсией: [12]
Коррелированное центральное нормальное отношение
Вышеприведенное выражение становится более сложным, когда переменные X и Y коррелируют. Если но и получается более общее распределение Коши
Коррелированное нецентральное нормальное отношение
Это было показано в задаче 4.28 Springer 1979.
Преобразование в логарифмическую область было предложено Кацем (1978) (см. раздел биномиальных функций ниже). Пусть отношение будет
.
Возьмите логи, чтобы получить
С тех пор асимптотически
В качестве альтернативы Гири (1930) предположил, что
имеет приблизительно стандартное гауссовское распределение : [1]
Это преобразование было названо преобразованием Гири–Хинкли ; [7] приближение является хорошим, если Y вряд ли примет отрицательные значения, в принципе .
Точное коррелированное нецентральное нормальное отношение
Это разработано Дейлом (Springer 1979, задача 4.28) и Хинкли 1969. Гири показал, как коррелированное отношение может быть преобразовано в почти гауссову форму, и разработал приближение для в зависимости от вероятности того, что отрицательные значения знаменателя будут исчезающе малыми. Более поздний анализ коррелированного отношения Файллера является точным, но необходима осторожность при объединении современных математических пакетов с вербальными условиями в старой литературе. Фам-Гиа исчерпывающе обсудил эти методы. Коррелированные результаты Хинкли являются точными, но ниже показано, что условие коррелированного отношения также может быть преобразовано в некоррелированное, поэтому требуются только упрощенные уравнения Хинкли выше, а не полная версия коррелированного отношения.
Пусть соотношение будет:
в котором есть нулевое среднее коррелированные нормальные переменные с дисперсиями и имеют средние
Запишите так, чтобы стали некоррелированными и имели стандартное отклонение
Соотношение:
инвариантен относительно этого преобразования и сохраняет ту же pdf. Член в числителе, по-видимому, становится разделимым путем расширения:
получить
в котором и z теперь стало отношением некоррелированных нецентральных нормальных выборок с инвариантным z -смещением (это формально не доказано, хотя, по-видимому, использовалось Гири),
Наконец, чтобы быть точным, функция PDF отношения для коррелированных переменных находится путем ввода измененных параметров и в уравнение Хинкли выше, которое возвращает функцию PDF для коррелированного отношения с постоянным смещением на .
На рисунках выше показан пример положительно коррелированного отношения с , в котором заштрихованные клинья представляют собой приращение площади, выбранной заданным отношением , которое накапливает вероятность там, где они перекрывают распределение. Теоретическое распределение, полученное из обсуждаемых уравнений в сочетании с уравнениями Хинкли, в высокой степени согласуется с результатом моделирования с использованием 5000 образцов. На верхнем рисунке ясно, что для отношения клин почти полностью обошел основную массу распределения, и это объясняет локальный минимум в теоретической pdf . И наоборот, по мере того, как клин движется либо к одному, либо от одного, он охватывает большую часть центральной массы, накапливая более высокую вероятность.
Комплексное нормальное отношение
Соотношение коррелированных нулевым средним круговым симметричным комплексным нормально распределенным переменным было определено Бэксли и др. [13] и с тех пор было распространено на случай ненулевого среднего и несимметричного случая. [14] В случае коррелированного нулевого среднего совместное распределение x , y равно
где
является эрмитовым транспонированием и
PDF-файл оказался следующим:
В обычном случае, когда мы получаем
Также приведены дополнительные результаты в аналитическом виде для CDF.
График показывает pdf отношения двух комплексных нормальных переменных с коэффициентом корреляции . Пик pdf приходится примерно на комплексное сопряжение уменьшенного масштаба .
Отношение логарифмически нормального распределения
Отношение независимых или коррелированных логнормальных величин является логнормальным. Это следует из того, что если и распределены логнормально , то и распределены нормально. Если они независимы или их логарифмы следуют бивариантному нормальному распределению , то логарифм их отношения является разностью независимых или коррелированных нормально распределенных случайных величин, которая распределена нормально. [примечание 1]
Это важно для многих приложений, требующих отношения случайных величин, которые должны быть положительными, где совместное распределение и адекватно аппроксимируется логнормальным распределением. Это общий результат мультипликативной центральной предельной теоремы , также известной как закон Жибрата , когда является результатом накопления многих небольших процентных изменений и должно быть положительным и приблизительно логнормально распределенным. [15]
Если две независимые случайные величины X и Y следуют распределению Коши с медианой, равной нулю, и коэффициентом формы
тогда распределение отношения для случайной величины равно [16]
Это распределение не зависит от и результат, указанный Springer [8] (стр. 158, вопрос 4.6), неверен. Распределение отношения похоже, но не совпадает с распределением произведения случайной величины :
[8]
В более общем случае, если две независимые случайные величины X и Y следуют распределению Коши с медианой, равной нулю, и коэффициентом формы и соответственно, то:
Распределение отношения для случайной величины равно [16]
Распределение произведения для случайной величины равно [16]
Результат для распределения отношения можно получить из распределения произведения, заменив на
Соотношение стандартного нормального к стандартному равномерному
Если X имеет стандартное нормальное распределение, а Y имеет стандартное равномерное распределение, то Z = X / Y имеет распределение, известное как косое распределение , с функцией плотности вероятности
где φ( z ) — функция плотности вероятности стандартного нормального распределения. [17]
определяет распределение плотности Фишера F, плотность вероятности отношения двух хи-квадрат с m, n степенями свободы.
CDF плотности Фишера, найденная в F -таблицах, определена в статье о бета-простом распределении . Если мы введем таблицу F -теста с m = 3, n = 4 и 5% вероятностью в правом хвосте, критическое значение будет равно 6,59. Это совпадает с интегралом
Для гамма-распределений U и V с произвольными параметрами формы α 1 и α 2 и их масштабными параметрами, оба из которых установлены равными единице, то есть, , где , тогда
Если , то . Обратите внимание, что здесь θ — параметр масштаба , а не параметр скорости.
который включает в себя регулярные гамма, хи, хи-квадрат, экспоненциальное, Рэлея, Накагами и Вейбулла распределения, включающие дробные мощности. Обратите внимание, что здесь a — параметр масштаба , а не параметр скорости; d — параметр формы.
Если
затем [19]
где
Моделирование смеси различных масштабных факторов
В приведенных выше соотношениях гамма-выборки, U , V могут иметь разные размеры выборки , но должны быть взяты из одного и того же распределения с одинаковым масштабированием .
В ситуациях, когда U и V масштабируются по-разному, преобразование переменных позволяет определить модифицированное случайное отношение pdf. Пусть где произвольно и, из вышесказанного, .
Произвольно масштабировать V , определяя
Имеем и подстановка в Y дает
Преобразование X в Y дает
Отмечая, что мы наконец-то имеем
Таким образом, если и тогда распределяется как с
Распределение Y здесь ограничено интервалом [0,1]. Его можно обобщить путем масштабирования таким образом, что если то
где
тогда это образец из
Обратные величины выборок из бета-распределений
Хотя следующие тождества не являются относительными распределениями двух переменных, они полезны для одной переменной:
Если — независимые экспоненциальные случайные величины со средним значением μ , то X − Y — дважды экспоненциальная случайная величина со средним значением 0 и масштабом μ .
Биномиальное распределение
Этот результат был получен Кацем и др. [20]
Предположим , что и и независимы. Пусть .
Тогда имеет приблизительно нормальное распределение со средним значением и дисперсией .
Распределение биномиального отношения имеет значение в клинических испытаниях: если распределение T известно, как указано выше, можно оценить вероятность возникновения данного отношения чисто случайно, т. е. ложноположительного испытания. В ряде работ сравнивается надежность различных приближений для биномиального отношения. [ необходима цитата ]
Распределение Пуассона и усеченное распределение Пуассона
В отношении переменных Пуассона R = X/Y есть проблема, что Y равен нулю с конечной вероятностью, поэтому R не определено. Чтобы противостоять этому, рассмотрим усеченное или цензурированное отношение R' = X/Y' , где нулевая выборка Y не учитывается. Более того, во многих медицинских обследованиях существуют систематические проблемы с надежностью нулевых выборок как X, так и Y, и может быть хорошей практикой игнорировать нулевые выборки в любом случае.
Вероятность нулевой выборки Пуассона равна , общая плотность вероятности левого усеченного распределения Пуассона равна
что в сумме дает единицу. Согласно Коэну [21] для n независимых испытаний многомерная усеченная pdf равна
и логарифм правдоподобия становится
При дифференцировании получаем
а установка на ноль дает оценку максимального правдоподобия
Обратите внимание, что как тогда так и усеченная оценка максимального правдоподобия , хотя и верна как для усеченных, так и для неусеченных распределений, дает усеченное среднее значение, которое сильно смещено относительно неусеченного. Тем не менее, кажется, что является достаточной статистикой для поскольку зависит от данных только через выборочное среднее в предыдущем уравнении, что согласуется с методологией обычного распределения Пуассона .
При отсутствии каких-либо замкнутых решений следующее приблизительное возвращение для усеченного вида справедливо во всем диапазоне .
что сравнимо с необрезанной версией, которая просто . Взятие отношения является допустимой операцией, хотя может использовать необрезанную модель, в то время как имеет усеченную слева.
Затем, подставляя из уравнения выше, получаем оценку дисперсии Коэна
Дисперсия точечной оценки среднего значения на основе n испытаний асимптотически уменьшается до нуля по мере увеличения n до бесконечности. Для малых значений она расходится с усеченной дисперсией pdf в Springael [22] , например, который приводит дисперсию
для n выборок в усеченной слева pdf, показанной в верхней части этого раздела. Коэн показал, что дисперсия оценки относительно дисперсии pdf, , варьируется от 1 для больших значений (100% эффективности) до 2 по мере приближения к нулю (50% эффективности).
Эти оценки параметров среднего и дисперсии, вместе с параллельными оценками для X , могут быть применены к нормальным или биномиальным приближениям для коэффициента Пуассона. Выборки из испытаний могут не очень хорошо подходить для процесса Пуассона; дальнейшее обсуждение усечения Пуассона приведено Дитцем и Бонингом [23] , и в Википедии есть запись о распределении Пуассона, усеченном до нуля .
Двойное распределение Ломакса
Это распределение является отношением двух распределений Лапласа . [24] Пусть X и Y будут стандартными одинаково распределенными по Лапласу случайными величинами и пусть z = X / Y. Тогда распределение вероятностей z равно
Пусть среднее значение X и Y равно a . Тогда стандартное двойное распределение Ломакса симметрично относительно a .
Это распределение имеет бесконечное среднее значение и дисперсию.
Если Z имеет стандартное двойное распределение Ломакса, то 1/ Z также имеет стандартное двойное распределение Ломакса.
Стандартное распределение Ломакса является унимодальным и имеет более тяжелые хвосты, чем распределение Лапласа.
пропорционально произведению независимых случайных величин F. В случае, когда X и Y являются независимыми стандартизированными распределениями Уишарта , то отношение
Соотношения квадратичных форм с использованием матриц Уишарта
В отношении распределений матрицы Уишарта, если — выборочная матрица Уишарта, а вектор — произвольный, но статистически независимый, следствие 3.2.9 Мьюирхеда [26] гласит:
Расхождение в единицу в числах выборки возникает из-за оценки выборочного среднего при формировании выборочной ковариации, что является следствием теоремы Кохрана . Аналогично
^ Обратите внимание, однако, что и могут быть индивидуально распределены логнормально , не имея двумерного логнормального распределения. По состоянию на 2022-06-08 статья Википедии о « Копуле (теория вероятностей) » включает в себя график плотности и контура двух нормальных маргиналов, соединенных с копулой Гумбеля, где совместное распределение не является двумерным нормальным.
↑ Fieller, EC (ноябрь 1932 г.). «Распределение индекса в нормальной двумерной популяции». Biometrika . 24 (3/4): 428–440. doi :10.2307/2331976. JSTOR 2331976.
^ ab Curtiss, JH (декабрь 1941 г.). «О распределении частного двух случайных переменных». Анналы математической статистики . 12 (4): 409–421. doi : 10.1214/aoms/1177731679 . JSTOR 2235953.
^ abc Hinkley, DV (декабрь 1969). «О соотношении двух коррелированных нормальных случайных величин». Biometrika . 56 (3): 635–639. doi :10.2307/2334671. JSTOR 2334671.
^ ab Hayya, Jack ; Armstrong, Donald ; Gressis, Nicolas (июль 1975 г.). «Заметка о соотношении двух нормально распределенных переменных». Management Science . 21 (11): 1338–1341. doi :10.1287/mnsc.21.11.1338. JSTOR 2629897.
^ ab Pham-Gia, T.; Turkkan, N.; Marchand, E. (2006). «Плотность отношения двух нормальных случайных величин и ее применение». Communications in Statistics – Theory and Methods . 35 (9). Taylor & Francis : 1569–1591. doi : 10.1080/03610920600683689. S2CID 120891296.
^ Броди, Джеймс П.; Уильямс, Брайан А.; Уолд, Барбара Дж.; Квейк, Стивен Р. (октябрь 2002 г.). «Значимость и статистические ошибки в анализе данных ДНК-микрочипов» (PDF) . Proc Natl Acad Sci USA . 99 (20): 12975–12978. Bibcode : 2002PNAS...9912975B. doi : 10.1073 /pnas.162468199 . PMC 130571. PMID 12235357.
^ Диас-Франсес, Элоиза; Рубио, Франциско Х. (2012-01-24). «О существовании нормального приближения к распределению отношения двух независимых нормальных случайных величин». Статистические документы . 54 (2). Springer Science and Business Media LLC: 309–323. doi :10.1007/s00362-012-0429-2. ISSN 0932-5026. S2CID 122038290.
^ Baxley, RT; Waldenhorst, BT; Acosta-Marum, G (2010). «Комплексное гауссовское распределение отношений с приложениями для расчета коэффициента ошибок в каналах с замираниями и несовершенной CSI». 2010 IEEE Global Telecommunications Conference GLOBECOM 2010. стр. 1–5. doi :10.1109/GLOCOM.2010.5683407. ISBN978-1-4244-5636-9. S2CID 14100052.
^ Sourisseau, M.; Wu, H.-T.; Zhou, Z. (октябрь 2022 г.). «Асимптотический анализ преобразования синхронного сжатия — к статистическому выводу с помощью частотно-временного анализа нелинейного типа». Annals of Statistics . 50 (5): 2694–2712. arXiv : 1904.09534 . doi :10.1214/22-AOS2203.
^ Конечно, любое применение центральной предельной теоремы предполагает подходящие, обычно встречающиеся условия регулярности, например, конечную дисперсию.
^ abc Кермонд, Джон (2010). «Введение в алгебру случайных величин». Труды 47-й ежегодной конференции Математической ассоциации Виктории – Новая учебная программа. Новые возможности . Математическая ассоциация Виктории: 1–16. ISBN978-1-876949-50-1.
^ "SLAPPF". Статистическое инженерное отделение, Национальный институт науки и технологий . Получено 2009-07-02 .
^ Хамедани, ГГ (октябрь 2013 г.). «Характеристики распределения отношения случайных величин Рэлея». Pakistan Journal of Statistics . 29 (4): 369–376.
^ Раджа Рао, Б.; Гарг., М. Л. (1969). «Заметка об обобщенном (положительном) распределении Коши». Канадский математический вестник . 12 (6): 865–868. doi : 10.4153/CMB-1969-114-2 .
^ Katz D. et al . (1978) Получение доверительных интервалов для отношения рисков в когортных исследованиях. Биометрия 34:469–474
^ Коэн, А. Клиффорд (июнь 1960 г.). «Оценка параметра в условном распределении Пуассона». Биометрия . 60 (2): 203–211. doi :10.2307/2527552. JSTOR 2527552.
^ Спрингаэль, Йохан (2006). "О сумме независимых пуассоновских случайных величин с усеченным нулевым распределением" (PDF) . Университет Антверпена, Факультет бизнеса и экономики .
^ Dietz, Ekkehart; Bohning, Dankmar (2000). «Об оценке параметра Пуассона в моделях Пуассона с нулевым изменением». Computational Statistics & Data Analysis . 34 (4): 441–459. doi :10.1016/S0167-9473(99)00111-5.
^ Bindu P и Sangita K (2015) Двойное распределение Ломакса и его приложения. Statistica LXXV (3) 331–342
^ Бреннан, LE; Рид, IS (январь 1982). «Алгоритм обработки сигналов адаптивной решетки для связи». Труды IEEE по аэрокосмическим и электронным системам . AES-18 № 1: 124–130. Bibcode : 1982ITAES..18..124B. doi : 10.1109/TAES.1982.309212. S2CID 45721922.
^ ab Muirhead, Robb (1982). Аспекты многомерной статистической теории . США: Wiley. стр. 96, теорема 3.2.12.