stringtranslate.com

Распределение смеси

В теории вероятности и статистики распределение смеси — это распределение вероятностей случайной величины , которая выводится из набора других случайных величин следующим образом: сначала случайная величина выбирается случайно из набора в соответствии с заданными вероятностями выбора, а затем реализуется значение выбранной случайной величины. Базовые случайные величины могут быть случайными действительными числами или случайными векторами (каждый из которых имеет одинаковую размерность), в этом случае распределение смеси является многомерным распределением .

В случаях, когда каждая из базовых случайных величин непрерывна , выходная переменная также будет непрерывной, а ее функция плотности вероятности иногда называется плотностью смеси . Кумулятивная функция распределенияфункция плотности вероятности , если она существует) может быть выражена как выпуклая комбинация (т. е. взвешенная сумма с неотрицательными весами, которые в сумме дают 1) других функций распределения и функций плотности. Отдельные распределения, которые объединяются для формирования распределения смеси, называются компонентами смеси , а вероятности (или веса), связанные с каждым компонентом, называются весами смеси . Количество компонентов в распределении смеси часто ограничивается конечным числом, хотя в некоторых случаях количество компонентов может быть счетно бесконечным . Более общие случаи (т. е. несчетное множество распределений компонентов), а также счетный случай рассматриваются под названием составных распределений .

Необходимо провести различие между случайной величиной, функция распределения или плотность которой является суммой набора компонентов (т. е. распределением смеси), и случайной величиной, значение которой является суммой значений двух или более базовых случайных величин, в этом случае распределение задается оператором свертки . Например, сумма двух совместно нормально распределенных случайных величин, каждая из которых имеет разные средние значения, все равно будет иметь нормальное распределение. С другой стороны, плотность смеси, созданная как смесь двух нормальных распределений с разными средними значениями, будет иметь два пика при условии, что два средних значения достаточно далеко друг от друга, показывая, что это распределение радикально отличается от нормального распределения.

Смешанные распределения возникают во многих контекстах в литературе и возникают естественным образом, когда статистическая популяция содержит две или более субпопуляций . Иногда они также используются как средство представления ненормальных распределений. Анализ данных, касающихся статистических моделей, включающих смешанные распределения, обсуждается под названием смешанные модели , в то время как настоящая статья концентрируется на простых вероятностных и статистических свойствах смешанных распределений и на том, как они соотносятся со свойствами базовых распределений.

Конечные и счетные смеси

Плотность смеси трех нормальных распределений ( μ  = 5, 10, 15, σ  = 2) с равными весами. Каждый компонент показан как взвешенная плотность (каждый интегрируется до 1/3)

Если задан конечный набор функций плотности вероятности p 1 ( x ), ..., p n ( x ) или соответствующих кумулятивных функций распределения P 1 ( x ), ..., P n ( x ) и весов w 1 , ..., w n , таких, что w i ≥ 0 и Σ w i = 1, распределение смеси можно представить, записав либо плотность, f , либо функцию распределения, F , в виде суммы (которая в обоих случаях является выпуклой комбинацией):

Этот тип смеси, будучи конечной суммой, называется конечной смесью, и в приложениях безоговорочная ссылка на «плотность смеси» обычно означает конечную смесь. Случай счетно бесконечного множества компонентов формально охватывается разрешением .

Бесчисленные смеси

Если набор компонентных распределений неисчислим , результат часто называют составным распределением вероятностей . Построение таких распределений имеет формальное сходство с построением распределений смесей, при этом либо бесконечные суммирования, либо интегралы заменяют конечные суммирования, используемые для конечных смесей.

Рассмотрим функцию плотности вероятности p ( x ; a ) для переменной x , параметризованной a . То есть, для каждого значения a в некотором множестве A , p ( x ; a ) является функцией плотности вероятности относительно x . Учитывая функцию плотности вероятности w (что означает, что w неотрицательно и интегрируется до 1), функция

снова является функцией плотности вероятности для x . Похожий интеграл можно записать для кумулятивной функции распределения. Обратите внимание, что формулы здесь сводятся к случаю конечной или бесконечной смеси, если плотность w допускается как обобщенная функция, представляющая «производную» кумулятивной функции распределения дискретного распределения .

Смеси внутри параметрического семейства

Компоненты смеси часто не являются произвольными распределениями вероятностей, а являются членами параметрического семейства (например, нормальных распределений) с различными значениями параметра или параметров. В таких случаях, предполагая, что он существует, плотность можно записать в виде суммы как:

для одного параметра, или

для двух параметров и так далее.

Характеристики

Выпуклость

Общая линейная комбинация функций плотности вероятности не обязательно является плотностью вероятности, поскольку она может быть отрицательной или может интегрироваться до чего-то, отличного от 1. Однако выпуклая комбинация функций плотности вероятности сохраняет оба этих свойства (неотрицательность и интегрируемость до 1), и, таким образом, плотности смеси сами по себе являются функциями плотности вероятности.

Моменты

Пусть X 1 , ..., X n обозначают случайные величины из распределений компонентов n , а X обозначает случайную величину из распределения смеси. Тогда для любой функции H (·), для которой существует, и предполагая, что существуют плотности компонентов p i ( x ),

Момент j относительно нуля (т.е. выбирая H ( x ) = x j ) является просто взвешенным средним моментов j компонентов. Моменты относительно среднего H ( x ) = ( x − μ ) j включают биномиальное разложение: [1]

где μ i обозначает среднее значение i -го компонента.

В случае смеси одномерных распределений с весами w i , средними значениями μ i и дисперсиями σ i 2 общее среднее значение и дисперсия будут равны:

Эти отношения подчеркивают потенциал смешанных распределений для отображения нетривиальных моментов высшего порядка, таких как асимметрия и эксцесс ( толстые хвосты ) и мультимодальность, даже при отсутствии таких особенностей в самих компонентах. Маррон и Ванд (1992) дают иллюстративный отчет о гибкости этой структуры. [2]

Режимы

Вопрос о многомодальности прост для некоторых случаев, таких как смеси экспоненциальных распределений : все такие смеси являются унимодальными . [3] Однако для случая смесей нормальных распределений он сложен. Условия для числа мод в многомерной нормальной смеси исследуются Рэем и Линдси [4], расширяя более ранние работы по одномерным [5] [6] и многомерным [7] распределениям.

Здесь задача оценки мод n - компонентной смеси в D -мерном пространстве сводится к идентификации критических точек (локальных минимумов, максимумов и седловых точек ) на многообразии, называемом поверхностью хребта , которая является изображением функции хребта

где принадлежит -мерному стандартному симплексу : и соответствуют ковариации и среднему значению i- го компонента. Рэй и Линдси [4] рассматривают случай, в котором показано однозначное соответствие мод смеси и мод функции возвышения хребта, таким образом, можно идентифицировать моды, решая относительно и определяя значение .

Используя графические инструменты, демонстрируется потенциальная мультимодальность смесей с числом компонентов ; в частности, показано, что число мод может превышать и что моды могут не совпадать со средними значениями компонентов. Для двух компонентов они разрабатывают графический инструмент для анализа, решая вместо этого вышеупомянутый дифференциал относительно первого веса смешивания (который также определяет второй вес смешивания через ) и выражая решения в виде функции так, чтобы число и расположение мод для заданного значения соответствовало числу пересечений графика на линии . Это, в свою очередь, может быть связано с числом колебаний графика и, следовательно, с решениями, приводящими к явному решению для случая двухкомпонентной смеси с (иногда называемой гомоскедастической смесью), заданной как

где — расстояние Махаланобиса между и .

Поскольку приведенное выше уравнение является квадратичным, то в данном случае существует максимум две моды независимо от размерности или веса.

Для нормальных смесей с общими и известны нижняя граница максимального числа возможных мод и – условно при условии, что максимальное число конечно – верхняя граница. Для тех комбинаций и , для которых известно максимальное число, оно совпадает с нижней границей. [8]

Примеры

Два нормальных распределения

Простыми примерами могут служить смеси двух нормальных распределений. ( Более подробную информацию см. в разделе Мультимодальное распределение#Смесь двух нормальных распределений .)

При равной (50/50) смеси двух нормальных распределений с одинаковым стандартным отклонением и разными средними ( гомоскедастичным ), общее распределение будет демонстрировать низкий эксцесс относительно одного нормального распределения — средние значения субпопуляций попадают на плечи общего распределения. Если они достаточно разделены, а именно на удвоенное (общее) стандартное отклонение, то они образуют бимодальное распределение , в противном случае оно просто имеет широкий пик. [9] Дисперсия общей популяции также будет больше, чем дисперсия двух субпопуляций (из-за разброса от разных средних), и, таким образом, демонстрирует сверхдисперсию относительно нормального распределения с фиксированной дисперсией , хотя она не будет сверхдисперсной относительно нормального распределения с дисперсией, равной дисперсии общей популяции.

В качестве альтернативы, если взять две субпопуляции с одинаковым средним значением и разными стандартными отклонениями, то общая популяция будет демонстрировать высокий эксцесс с более острым пиком и более тяжелыми хвостами (и, соответственно, более пологими плечами), чем при одном распределении.

Нормальное распределение и распределение Коши

Следующий пример взят из работы Хэмпела [10], который указывает на Джона Тьюки .

Рассмотрим распределение смеси, определяемое формулой

F ( x ) = (1 − 10 −10 ) ( стандартное нормальное ) + 10 −10 ( стандартное Коши ) .

Среднее значение независимых наблюдений из F ( x ) ведет себя «нормально», за исключением случаев непомерно больших выборок, хотя среднее значение F ( x ) даже не существует.

Приложения

Плотности смесей — это сложные плотности, выражаемые через более простые плотности (компоненты смеси), и используются как потому, что они обеспечивают хорошую модель для определенных наборов данных (где различные подмножества данных демонстрируют разные характеристики и лучше всего могут быть смоделированы по отдельности), так и потому, что они более поддаются математической обработке, поскольку отдельные компоненты смеси легче изучать, чем общую плотность смеси.

Плотности смеси можно использовать для моделирования статистической популяции с субпопуляциями , где компоненты смеси представляют собой плотности субпопуляций, а веса — доли каждой субпопуляции в общей популяции.

Плотности смесей также можно использовать для моделирования экспериментальной ошибки или загрязнения — предполагается, что большинство образцов измеряют желаемое явление, а некоторые образцы имеют другое, ошибочное распределение.

Параметрическая статистика, которая не предполагает наличия ошибок, часто дает сбой при таких плотностях смеси — например, статистика, которая предполагает нормальность, часто дает сбой при наличии даже нескольких выбросов — и вместо этого используется надежная статистика .

В метаанализе отдельных исследований неоднородность исследования приводит к тому , что распределение результатов становится смешанным распределением и приводит к чрезмерной дисперсии результатов относительно прогнозируемой ошибки. Например, в статистическом исследовании погрешность (определяемая размером выборки) предсказывает погрешность выборки и, следовательно, дисперсию результатов при повторных исследованиях. Наличие неоднородности исследования (исследования имеют разное смещение выборки ) увеличивает дисперсию относительно погрешности.

Смотрите также

Смесь

Иерархические модели

Примечания

  1. ^ Фрювирт-Шнаттер (2006, гл.1.2.4)
  2. ^ Маррон, Дж. С.; Ванд, М. П. (1992). «Точная средняя интегрированная квадратичная ошибка». Анналы статистики . 20 (2): 712–736. doi : 10.1214/aos/1176348653 ., http://projecteuclid.org/euclid.aos/1176348653
  3. ^ Фрювирт-Шнаттер (2006, глава 1)
  4. ^ ab Ray, R.; Lindsay, B. (2005), «Топография многомерных нормальных смесей», The Annals of Statistics , 33 (5): 2042–2065, arXiv : math/0602238 , doi : 10.1214/009053605000000417
  5. ^ Робертсон CA, Фрайер JG (1969) Некоторые описательные свойства нормальных смесей. Skand Aktuarietidskr 137–146
  6. ^ Behboodian, J (1970). «О модах смеси двух нормальных распределений». Technometrics . 12 : 131–139. doi :10.2307/1267357. JSTOR  1267357.
  7. ^ Каррейра-Перпиньян, М. А.; Уильямс, К. (2003). О модах гауссовой смеси (PDF) . Опубликовано как: Lecture Notes in Computer Science 2695. Springer-Verlag . С. 625–640. doi :10.1007/3-540-44935-3_44. ISSN  0302-9743.
  8. ^ Амендола, К.; Энгстрём, А.; Хаазе, К. (2020), «Максимальное число мод гауссовых смесей», Информация и выводы: Журнал IMA , 9 (3): 587–600, arXiv : 1702.05066 , doi : 10.1093/imaiai/iaz013
  9. ^ Шиллинг, Марк Ф.; Уоткинс, Энн Э .; Уоткинс, Уильям (2002). «Является ли рост человека бимодальным?». The American Statistician . 56 (3): 223–229. doi :10.1198/00031300265.
  10. ^ Хампель, Фрэнк (1998), «Статистика слишком сложна?», Канадский журнал статистики , 26 : 497–513, doi : 10.2307/3315772, hdl : 20.500.11850/145503

Ссылки