stringtranslate.com

Распределение смеси

В теории вероятности и статистике смешанное распределение — это распределение вероятностей случайной величины , которое получается из набора других случайных величин следующим образом: сначала случайная величина выбирается случайно из набора в соответствии с заданными вероятностями выбора, а затем реализуется значение выбранной случайной величины. Базовые случайные переменные могут быть случайными действительными числами или случайными векторами (каждый из которых имеет одинаковую размерность), и в этом случае смешанное распределение является многомерным распределением .

В случаях, когда каждая из основных случайных величин является непрерывной , результирующая переменная также будет непрерывной, и ее функцию плотности вероятности иногда называют плотностью смеси . Кумулятивную функцию распределенияфункцию плотности вероятности, если она существует) можно выразить как выпуклую комбинацию (т. е. взвешенную сумму с неотрицательными весами, сумма которых равна 1) других функций распределения и функций плотности. Отдельные распределения, которые объединяются для формирования распределения смеси, называются компонентами смеси , а вероятности (или веса), связанные с каждым компонентом, называются весами смеси . Число компонентов в распределении смеси часто ограничивается конечным числом, хотя в некоторых случаях число компонентов может быть счетным . Более общие случаи (т. е. несчетное множество компонентных распределений), а также счетный случай рассматриваются под названием составных распределений .

Необходимо проводить различие между случайной величиной , функция распределения или плотность которой представляет собой сумму набора компонентов (т. е. распределение смеси), и случайной величиной, значение которой представляет собой сумму значений двух или более основных случайных величин, в в этом случае распределение задается оператором свертки . Например, сумма двух совместно нормально распределенных случайных величин, каждая из которых имеет разные средние значения, все равно будет иметь нормальное распределение. С другой стороны, плотность смеси, созданная как смесь двух нормальных распределений с разными средними значениями, будет иметь два пика при условии, что эти два средних значения находятся достаточно далеко друг от друга, что показывает, что это распределение радикально отличается от нормального распределения.

Смешанные распределения возникают во многих контекстах в литературе и возникают естественным образом, когда статистическая совокупность содержит две или более субпопуляций . Их также иногда используют как средство представления ненормальных распределений. Анализ данных, касающихся статистических моделей , включающих смешанные распределения, обсуждается под названием «Смешанные модели» , а настоящая статья концентрируется на простых вероятностных и статистических свойствах смешанных распределений и о том, как они связаны со свойствами основных распределений.

Конечные и счетные смеси

Плотность смеси трех нормальных распределений ( μ  = 5, 10, 15, σ  = 2) с равными весами. Каждый компонент показан как взвешенная плотность (каждый интегрируется до 1/3).

Дан конечный набор функций плотности вероятности p 1 ( x ), ..., p n ( x ) или соответствующих кумулятивных функций распределения P 1 ( x ), ..., P n ( x ) и весов w 1 , . ..., w n такой, что w i ≥ 0 и Σ w i = 1, распределение смеси можно представить, записав либо плотность f , либо функцию распределения F в виде суммы (которая в обоих случаях представляет собой выпуклую комбинация):

Этот тип смеси, представляющий собой конечную сумму, называется конечной смесью, и в приложениях безоговорочное упоминание «плотности смеси» обычно означает конечную смесь. Случай счетно бесконечного множества компонент формально рассматривается с учетом допуска .

Бесчисленные смеси

Если набор распределений компонентов несчетен , результат часто называют составным распределением вероятностей . Построение таких распределений формально похоже на построение смесевых распределений: либо бесконечные суммирования, либо интегралы заменяют конечные суммирования, используемые для конечных смесей.

Рассмотрим функцию плотности вероятности p ( x ; a ) для переменной x , параметризованной a . То есть для каждого значения a в некотором наборе A p ( x ; a ) является функцией плотности вероятности относительно x . Учитывая функцию плотности вероятности w (это означает, что w неотрицательна и интегрируется до 1), функция

снова является функцией плотности вероятности для x . Аналогичный интеграл можно записать и для кумулятивной функции распределения. Обратите внимание, что формулы здесь сводятся к случаю конечной или бесконечной смеси, если позволить плотности w быть обобщенной функцией , представляющей «производную» кумулятивной функции распределения дискретного распределения .

Смеси внутри параметрического семейства

Компоненты смеси часто не являются произвольными распределениями вероятностей, а являются членами параметрического семейства (например, нормальных распределений) с разными значениями параметра или параметров. В таких случаях, предполагая, что она существует, плотность можно записать в виде суммы:

для одного параметра или

для двух параметров и т.д.

Характеристики

Выпуклость

Общая линейная комбинация функций плотности вероятности не обязательно является плотностью вероятности, поскольку она может быть отрицательной или может интегрироваться до чего-то отличного от 1. Однако выпуклая комбинация функций плотности вероятности сохраняет оба этих свойства (неотрицательность и интегрирующее до 1), и, таким образом, плотности смеси сами по себе являются функциями плотности вероятности.

Моменты

Пусть X 1 , ..., X n обозначают случайные величины из n распределений компонентов, и пусть X обозначает случайную величину из распределения смеси. Тогда для любой функции H (·), для которой существует, и предполагая, что плотности компонентов p i ( x ) существуют,

j - й момент относительно нуля (т.е. выбор H ( x ) = x j ) представляет собой просто взвешенное среднее j- х моментов компонентов. Моменты относительно среднего значения H ( x ) = ( x − µ ) j включают биномиальное разложение: [1]

где µ i обозначает среднее значение i- го компонента.

В случае смеси одномерных распределений с весами w i , средними µ i и дисперсиями σ i 2 общее среднее значение и дисперсия будут следующими:

Эти отношения подчеркивают потенциал смесевых распределений для отображения нетривиальных моментов высшего порядка, таких как асимметрия и эксцесс ( «толстые хвосты ») и мультимодальность, даже при отсутствии таких особенностей внутри самих компонентов. Маррон и Ванд (1992) дают наглядное описание гибкости этой структуры. [2]

Режимы

Вопрос о мультимодальности прост для некоторых случаев, например для смесей экспоненциальных распределений : все такие смеси унимодальны . [3] Однако в случае смесей нормальных распределений это сложный случай. Условия количества мод в многомерной нормальной смеси исследовались Рэем и Линдси [4], расширяя более раннюю работу по одномерным [5] [6] и многомерным [7] распределениям.

Здесь задача оценки режимов n- компонентной смеси в D- мерном пространстве сводится к выявлению критических точек (локальных минимумов, максимумов и седловых точек) на многообразии, называемом гребневой поверхностью, которая является образом функция линии хребта

где принадлежит -мерному стандартному симплексу : и соответствует ковариации и среднему i- му компоненту. Рэй и Линдсей [4] рассматривают случай, в котором, показывая взаимно однозначное соответствие мод смеси и мод функции возвышения гребня, таким образом, можно идентифицировать моды, решая относительно и определяя значение .

С помощью графических инструментов демонстрируется потенциальная мультимодальность смесей по количеству компонентов ; в частности показано, что количество режимов может превышать и что режимы могут не совпадать с составляющими средствами. Для двух компонентов они разрабатывают графический инструмент для анализа, вместо этого решая вышеупомянутый дифференциал по отношению к первому весу смешивания (который также определяет второй вес смешивания через ) и выражая решения в виде функции , так что количество и расположение мод для данное значение соответствует количеству пересечений графика на прямой . Это, в свою очередь, может быть связано с числом колебаний графика и, следовательно, с решениями, приводящими к явному решению для случая двухкомпонентной смеси с (иногда называемой гомоскедастической смесью), определяемой выражением

где расстояние Махаланобиса между и .

Поскольку вышеизложенное квадратично, отсюда следует, что в этом случае существует не более двух мод независимо от размерности или веса.

Для нормальных смесей с общими и известны нижняя граница максимального числа возможных мод и – условно в предположении, что максимальное число конечно – верхняя граница. Для тех комбинаций и , для которых известно максимальное число, оно соответствует нижней границе. [8]

Примеры

Два нормальных распределения

Простые примеры могут быть даны смесью двух нормальных распределений. ( Более подробную информацию см. в разделе «Мультимодальное распределение#Смесь двух нормальных распределений ».)

Учитывая равную (50/50) смесь двух нормальных распределений с одинаковым стандартным отклонением и разными средними значениями ( гомоскедастическими ), общее распределение будет демонстрировать низкий эксцесс по сравнению с одним нормальным распределением - средние значения субпопуляций ложатся на плечи общее распределение. Если они достаточно разделены, а именно на удвоенное (общее) стандартное отклонение, они образуют бимодальное распределение , в противном случае оно просто имеет широкий пик. [9] Вариация генеральной совокупности также будет больше, чем вариация двух субпопуляций (из-за разброса от разных средних значений), и, таким образом, демонстрирует чрезмерную дисперсию по сравнению с нормальным распределением с фиксированной вариацией, хотя она не будет чрезмерной дисперсией по отношению к нормальное распределение с вариацией, равной вариации генеральной совокупности.

Альтернативно, учитывая две субпопуляции с одинаковым средним значением и разными стандартными отклонениями, общая популяция будет демонстрировать высокий эксцесс с более острым пиком и более тяжелыми хвостами (и, соответственно, более пологими плечами), чем одно распределение.

Нормальное распределение и распределение Коши

Следующий пример адаптирован из работы Хэмпеля [10] , который ссылается на Джона Тьюки .

Рассмотрим распределение смеси, определяемое формулой

F ( Икс ) знак равно (1 - 10 -10 ) ( стандартный нормальный ) + 10 -10 ( стандартный Коши ) .

Среднее значение наблюдений iid от F ( x ) ведет себя «нормально», за исключением непомерно больших выборок, хотя среднее значение F ( x ) даже не существует.

Приложения

Плотности смесей представляют собой сложные плотности, выражаемые через более простые плотности (компоненты смеси), и используются как потому, что они обеспечивают хорошую модель для определенных наборов данных (где разные подмножества данных обладают разными характеристиками и их лучше всего моделировать отдельно), так и потому, что они обеспечивают хорошую модель для определенных наборов данных (где разные подмножества данных демонстрируют разные характеристики и их лучше всего моделировать отдельно), а также потому, что они обеспечивают хорошую модель для определенных наборов данных. потому что они могут быть более поддающимися математическому анализу, потому что отдельные компоненты смеси легче изучать, чем общую плотность смеси.

Плотность смеси можно использовать для моделирования статистической совокупности с субпопуляциями , где компоненты смеси — это плотности субпопуляций, а веса — это доли каждой субпопуляции в общей совокупности.

Плотность смеси также можно использовать для моделирования экспериментальной ошибки или загрязнения: предполагается, что большинство образцов отражают желаемое явление, а некоторые образцы имеют другое, ошибочное распределение.

Параметрическая статистика, которая не предполагает отсутствия ошибок, часто терпит неудачу при таких плотностях смеси – например, статистика, которая предполагает нормальность, часто терпит катастрофические неудачи даже при наличии нескольких выбросов – и вместо этого используют робастную статистику .

В метаанализе отдельных исследований неоднородность исследования приводит к тому, что распределение результатов становится смешанным распределением и приводит к чрезмерной дисперсии результатов относительно прогнозируемой ошибки. Например, в статистическом обследовании предел погрешности (определяемый размером выборки) предсказывает ошибку выборки и, следовательно, дисперсию результатов при повторных обследованиях. Наличие неоднородности исследования (исследования имеют разную систематическую ошибку выборки ) увеличивает дисперсию относительно предела погрешности.

Смотрите также

Смесь

Иерархические модели

Примечания

  1. ^ Фрювирт-Шнаттер (2006, гл.1.2.4)
  2. ^ Маррон, Дж. С.; Ванд, член парламента (1992). «Точная среднеквадратическая ошибка». Анналы статистики . 20 (2): 712–736. дои : 10.1214/aos/1176348653 ., http://projecteuclid.org/euclid.aos/1176348653
  3. ^ Фрювирт-Шнаттер (2006, глава 1)
  4. ^ Аб Рэй, Р.; Линдсей, Б. (2005), «Топография многомерных нормальных смесей», Анналы статистики , 33 (5): 2042–2065, arXiv : math/0602238 , doi : 10.1214/009053605000000417
  5. ^ Робертсон К.А., Фрайер Дж.Г. (1969) Некоторые описательные свойства нормальных смесей. Сканд Актуариетидскр 137–146
  6. ^ Бехбудиан, Дж (1970). «О модах смеси двух нормальных распределений». Технометрика . 12 : 131–139. дои : 10.2307/1267357. JSTOR  1267357.
  7. ^ Каррейра-Перпиньян, М.А.; Уильямс, К. (2003). О модах гауссовой смеси (PDF) . Опубликовано как: Конспекты лекций по информатике 2695. Springer-Verlag . стр. 625–640. дои : 10.1007/3-540-44935-3_44. ISSN  0302-9743.
  8. ^ Амендола, К.; Энгстрем, А.; Хаазе, К. (2020), «Максимальное количество мод гауссовских смесей», Информация и выводы: журнал IMA , 9 (3): 587–600, arXiv : 1702.05066 , doi : 10.1093/imaiai/iaz013
  9. ^ Шиллинг, Марк Ф.; Уоткинс, Энн Э .; Уоткинс, Уильям (2002). «Бимодален ли рост человека?». Американский статистик . 56 (3): 223–229. дои : 10.1198/00031300265.
  10. ^ Хэмпель, Франк (1998), «Слишком ли сложна статистика?», Canadian Journal ofStatistics , 26 : 497–513, doi : 10.2307/3315772, hdl : 20.500.11850/145503

Рекомендации