В теории вероятности и статистики распределение смеси — это распределение вероятностей случайной величины , которая выводится из набора других случайных величин следующим образом: сначала случайная величина выбирается случайно из набора в соответствии с заданными вероятностями выбора, а затем реализуется значение выбранной случайной величины. Базовые случайные величины могут быть случайными действительными числами или случайными векторами (каждый из которых имеет одинаковую размерность), в этом случае распределение смеси является многомерным распределением .
В случаях, когда каждая из базовых случайных величин непрерывна , выходная переменная также будет непрерывной, а ее функция плотности вероятности иногда называется плотностью смеси . Кумулятивная функция распределения (и функция плотности вероятности , если она существует) может быть выражена как выпуклая комбинация (т. е. взвешенная сумма с неотрицательными весами, которые в сумме дают 1) других функций распределения и функций плотности. Отдельные распределения, которые объединяются для формирования распределения смеси, называются компонентами смеси , а вероятности (или веса), связанные с каждым компонентом, называются весами смеси . Количество компонентов в распределении смеси часто ограничивается конечным числом, хотя в некоторых случаях количество компонентов может быть счетно бесконечным . Более общие случаи (т. е. несчетное множество распределений компонентов), а также счетный случай рассматриваются под названием составных распределений .
Необходимо провести различие между случайной величиной, функция распределения или плотность которой является суммой набора компонентов (т. е. распределением смеси), и случайной величиной, значение которой является суммой значений двух или более базовых случайных величин, в этом случае распределение задается оператором свертки . Например, сумма двух совместно нормально распределенных случайных величин, каждая из которых имеет разные средние значения, все равно будет иметь нормальное распределение. С другой стороны, плотность смеси, созданная как смесь двух нормальных распределений с разными средними значениями, будет иметь два пика при условии, что два средних значения достаточно далеко друг от друга, показывая, что это распределение радикально отличается от нормального распределения.
Смешанные распределения возникают во многих контекстах в литературе и возникают естественным образом, когда статистическая популяция содержит две или более субпопуляций . Иногда они также используются как средство представления ненормальных распределений. Анализ данных, касающихся статистических моделей, включающих смешанные распределения, обсуждается под названием смешанные модели , в то время как настоящая статья концентрируется на простых вероятностных и статистических свойствах смешанных распределений и на том, как они соотносятся со свойствами базовых распределений.
Если задан конечный набор функций плотности вероятности p 1 ( x ), ..., p n ( x ) или соответствующих кумулятивных функций распределения P 1 ( x ), ..., P n ( x ) и весов w 1 , ..., w n , таких, что w i ≥ 0 и Σ w i = 1, распределение смеси можно представить, записав либо плотность, f , либо функцию распределения, F , в виде суммы (которая в обоих случаях является выпуклой комбинацией):
Этот тип смеси, будучи конечной суммой, называется конечной смесью, и в приложениях безоговорочная ссылка на «плотность смеси» обычно означает конечную смесь. Случай счетно бесконечного множества компонентов формально охватывается разрешением .
Если набор компонентных распределений неисчислим , результат часто называют составным распределением вероятностей . Построение таких распределений имеет формальное сходство с построением распределений смесей, при этом либо бесконечные суммирования, либо интегралы заменяют конечные суммирования, используемые для конечных смесей.
Рассмотрим функцию плотности вероятности p ( x ; a ) для переменной x , параметризованной a . То есть, для каждого значения a в некотором множестве A , p ( x ; a ) является функцией плотности вероятности относительно x . Учитывая функцию плотности вероятности w (что означает, что w неотрицательно и интегрируется до 1), функция
снова является функцией плотности вероятности для x . Похожий интеграл можно записать для кумулятивной функции распределения. Обратите внимание, что формулы здесь сводятся к случаю конечной или бесконечной смеси, если плотность w допускается как обобщенная функция, представляющая «производную» кумулятивной функции распределения дискретного распределения .
Компоненты смеси часто не являются произвольными распределениями вероятностей, а являются членами параметрического семейства (например, нормальных распределений) с различными значениями параметра или параметров. В таких случаях, предполагая, что он существует, плотность можно записать в виде суммы как:
для одного параметра, или
для двух параметров и так далее.
Общая линейная комбинация функций плотности вероятности не обязательно является плотностью вероятности, поскольку она может быть отрицательной или может интегрироваться до чего-то, отличного от 1. Однако выпуклая комбинация функций плотности вероятности сохраняет оба этих свойства (неотрицательность и интегрируемость до 1), и, таким образом, плотности смеси сами по себе являются функциями плотности вероятности.
Пусть X 1 , ..., X n обозначают случайные величины из распределений компонентов n , а X обозначает случайную величину из распределения смеси. Тогда для любой функции H (·), для которой существует, и предполагая, что существуют плотности компонентов p i ( x ),
Момент j относительно нуля (т.е. выбирая H ( x ) = x j ) является просто взвешенным средним моментов j компонентов. Моменты относительно среднего H ( x ) = ( x − μ ) j включают биномиальное разложение: [1]
где μ i обозначает среднее значение i -го компонента.
В случае смеси одномерных распределений с весами w i , средними значениями μ i и дисперсиями σ i 2 общее среднее значение и дисперсия будут равны:
Эти отношения подчеркивают потенциал смешанных распределений для отображения нетривиальных моментов высшего порядка, таких как асимметрия и эксцесс ( толстые хвосты ) и мультимодальность, даже при отсутствии таких особенностей в самих компонентах. Маррон и Ванд (1992) дают иллюстративный отчет о гибкости этой структуры. [2]
Вопрос о многомодальности прост для некоторых случаев, таких как смеси экспоненциальных распределений : все такие смеси являются унимодальными . [3] Однако для случая смесей нормальных распределений он сложен. Условия для числа мод в многомерной нормальной смеси исследуются Рэем и Линдси [4], расширяя более ранние работы по одномерным [5] [6] и многомерным [7] распределениям.
Здесь задача оценки мод n - компонентной смеси в D -мерном пространстве сводится к идентификации критических точек (локальных минимумов, максимумов и седловых точек ) на многообразии, называемом поверхностью хребта , которая является изображением функции хребта
где принадлежит -мерному стандартному симплексу : и соответствуют ковариации и среднему значению i- го компонента. Рэй и Линдси [4] рассматривают случай, в котором показано однозначное соответствие мод смеси и мод функции возвышения хребта, таким образом, можно идентифицировать моды, решая относительно и определяя значение .
Используя графические инструменты, демонстрируется потенциальная мультимодальность смесей с числом компонентов ; в частности, показано, что число мод может превышать и что моды могут не совпадать со средними значениями компонентов. Для двух компонентов они разрабатывают графический инструмент для анализа, решая вместо этого вышеупомянутый дифференциал относительно первого веса смешивания (который также определяет второй вес смешивания через ) и выражая решения в виде функции так, чтобы число и расположение мод для заданного значения соответствовало числу пересечений графика на линии . Это, в свою очередь, может быть связано с числом колебаний графика и, следовательно, с решениями, приводящими к явному решению для случая двухкомпонентной смеси с (иногда называемой гомоскедастической смесью), заданной как
где — расстояние Махаланобиса между и .
Поскольку приведенное выше уравнение является квадратичным, то в данном случае существует максимум две моды независимо от размерности или веса.
Для нормальных смесей с общими и известны нижняя граница максимального числа возможных мод и – условно при условии, что максимальное число конечно – верхняя граница. Для тех комбинаций и , для которых известно максимальное число, оно совпадает с нижней границей. [8]
Простыми примерами могут служить смеси двух нормальных распределений. ( Более подробную информацию см. в разделе Мультимодальное распределение#Смесь двух нормальных распределений .)
При равной (50/50) смеси двух нормальных распределений с одинаковым стандартным отклонением и разными средними ( гомоскедастичным ), общее распределение будет демонстрировать низкий эксцесс относительно одного нормального распределения — средние значения субпопуляций попадают на плечи общего распределения. Если они достаточно разделены, а именно на удвоенное (общее) стандартное отклонение, то они образуют бимодальное распределение , в противном случае оно просто имеет широкий пик. [9] Дисперсия общей популяции также будет больше, чем дисперсия двух субпопуляций (из-за разброса от разных средних), и, таким образом, демонстрирует сверхдисперсию относительно нормального распределения с фиксированной дисперсией , хотя она не будет сверхдисперсной относительно нормального распределения с дисперсией, равной дисперсии общей популяции.
В качестве альтернативы, если взять две субпопуляции с одинаковым средним значением и разными стандартными отклонениями, то общая популяция будет демонстрировать высокий эксцесс с более острым пиком и более тяжелыми хвостами (и, соответственно, более пологими плечами), чем при одном распределении.
Следующий пример взят из работы Хэмпела [10], который указывает на Джона Тьюки .
Рассмотрим распределение смеси, определяемое формулой
Среднее значение независимых наблюдений из F ( x ) ведет себя «нормально», за исключением случаев непомерно больших выборок, хотя среднее значение F ( x ) даже не существует.
Плотности смесей — это сложные плотности, выражаемые через более простые плотности (компоненты смеси), и используются как потому, что они обеспечивают хорошую модель для определенных наборов данных (где различные подмножества данных демонстрируют разные характеристики и лучше всего могут быть смоделированы по отдельности), так и потому, что они более поддаются математической обработке, поскольку отдельные компоненты смеси легче изучать, чем общую плотность смеси.
Плотности смеси можно использовать для моделирования статистической популяции с субпопуляциями , где компоненты смеси представляют собой плотности субпопуляций, а веса — доли каждой субпопуляции в общей популяции.
Плотности смесей также можно использовать для моделирования экспериментальной ошибки или загрязнения — предполагается, что большинство образцов измеряют желаемое явление, а некоторые образцы имеют другое, ошибочное распределение.
Параметрическая статистика, которая не предполагает наличия ошибок, часто дает сбой при таких плотностях смеси — например, статистика, которая предполагает нормальность, часто дает сбой при наличии даже нескольких выбросов — и вместо этого используется надежная статистика .
В метаанализе отдельных исследований неоднородность исследования приводит к тому , что распределение результатов становится смешанным распределением и приводит к чрезмерной дисперсии результатов относительно прогнозируемой ошибки. Например, в статистическом исследовании погрешность (определяемая размером выборки) предсказывает погрешность выборки и, следовательно, дисперсию результатов при повторных исследованиях. Наличие неоднородности исследования (исследования имеют разное смещение выборки ) увеличивает дисперсию относительно погрешности.