В статистике модель смеси — это вероятностная модель для представления наличия субпопуляций в общей популяции, не требующая, чтобы наблюдаемый набор данных идентифицировал субпопуляцию, к которой принадлежит отдельное наблюдение. Формально модель смеси соответствует распределению смеси , которое представляет распределение вероятностей наблюдений в общей популяции. Однако, в то время как проблемы, связанные с «распределениями смеси», относятся к получению свойств общей популяции из свойств субпопуляций, «модели смеси» используются для статистических выводов о свойствах субпопуляций, учитывая только наблюдения за объединенной популяцией, без информации об идентичности субпопуляции. Модели смеси используются для кластеризации под названием кластеризация на основе моделей , а также для оценки плотности .
Модели смесей не следует путать с моделями для композиционных данных , т. е. данных, компоненты которых ограничены суммой до постоянного значения (1, 100% и т. д.). Однако композиционные модели можно рассматривать как модели смесей, где члены популяции выбираются случайным образом. И наоборот, модели смесей можно рассматривать как композиционные модели, где общий размер считываемой популяции нормализован до 1.
Структура
Общая модель смеси
Типичная конечномерная модель смеси представляет собой иерархическую модель, состоящую из следующих компонентов:
N наблюдаемых случайных величин, каждая из которых распределена в соответствии со смесью K компонентов, причем компоненты принадлежат к одному и тому же параметрическому семейству распределений (например, все нормальные , все ципфовские и т. д.), но с разными параметрами
Набор весов смеси K , представляющих собой вероятности, сумма которых равна 1.
Набор параметров K , каждый из которых определяет параметр соответствующего компонента смеси. Во многих случаях каждый «параметр» на самом деле является набором параметров. Например, если компоненты смеси являются гауссовыми распределениями , то для каждого компонента будут среднее значение и дисперсия . Если компоненты смеси являются категориальными распределениями (например, когда каждое наблюдение является токеном из конечного алфавита размера V ), то будет вектор вероятностей V , суммирующихся до 1.
Кроме того, в байесовской настройке , веса смеси и параметры сами по себе будут случайными величинами, а априорные распределения будут размещены над переменными. В таком случае веса обычно рассматриваются как K -мерный случайный вектор, взятый из распределения Дирихле ( сопряженное априорное распределение категориального распределения), а параметры будут распределены согласно их соответствующим сопряженным априорным распределениям.
Математически базовую параметрическую модель смеси можно описать следующим образом:
В байесовской постановке все параметры связаны со случайными величинами следующим образом:
Эта характеристика использует F и H для описания произвольных распределений по наблюдениям и параметрам соответственно. Обычно H будет сопряженным априорным распределением F. Два наиболее распространенных выбора F — это гауссовское, также известное как « нормальное » (для вещественнозначных наблюдений) и категориальное (для дискретных наблюдений). Другие общие возможности для распределения компонентов смеси:
Биномиальное распределение для числа «положительных событий» (например, успехов, голосов «за» и т. д.) при фиксированном общем числе событий.
Мультиномиальное распределение , похожее на биномиальное распределение, но для подсчета многофакторных событий (например, да/нет/может быть в опросе)
Распределение Пуассона , для числа появлений события за определенный период времени, для события, которое характеризуется фиксированной частотой появления
Экспоненциальное распределение , для времени до наступления следующего события, для события, которое характеризуется фиксированной частотой появления
Логнормальное распределение для положительных действительных чисел, которые, как предполагается, растут экспоненциально, например, доходы или цены.
Многомерное нормальное распределение (также известное как многомерное гауссово распределение) для векторов коррелированных результатов, которые индивидуально распределены по Гауссу.
Вектор значений, распределенных по закону Бернулли , соответствующий, например, черно-белому изображению, где каждое значение представляет пиксель; см. пример распознавания рукописного текста ниже.
Конкретные примеры
Модель гауссовской смеси
Типичная небайесовская гауссовская модель смеси выглядит следующим образом:
Байесовская версия модели гауссовой смеси выглядит следующим образом:
Многомерная модель гауссовской смеси
Модель байесовской смеси Гаусса обычно расширяется для подгонки под вектор неизвестных параметров (обозначенных жирным шрифтом) или многомерных нормальных распределений. В многомерном распределении (то есть моделирующем вектор с N случайными переменными) можно моделировать вектор параметров (например, несколько наблюдений сигнала или участков в пределах изображения) с использованием предварительного распределения модели смеси Гаусса на векторе оценок, заданных как
где компонент вектора i характеризуется нормальными распределениями с весами , средними и ковариационными матрицами . Чтобы включить это априорное распределение в байесовскую оценку, априорное распределение умножается на известное распределение данных , обусловленное параметрами, которые необходимо оценить. При такой формулировке апостериорное распределение также является гауссовой смешанной моделью вида
с новыми параметрами и которые обновляются с помощью алгоритма EM . [2] Хотя обновления параметров на основе EM хорошо зарекомендовали себя, предоставление начальных оценок для этих параметров в настоящее время является областью активных исследований. Обратите внимание, что эта формулировка дает решение в замкнутой форме для полного апостериорного распределения. Оценки случайной величины могут быть получены с помощью одного из нескольких оценщиков, таких как среднее или максимум апостериорного распределения.
Такие распределения полезны, например, для предположений о формах изображений и кластеров по лоскутам. В случае представления изображения каждое гауссово распределение может быть наклонено, расширено и деформировано в соответствии с ковариационными матрицами . Одно гауссово распределение набора соответствует каждому лоскуту (обычно размером 8x8 пикселей) на изображении. Примечательно, что любое распределение точек вокруг кластера (см. k -средние ) может быть точно задано достаточным количеством гауссовых компонентов, но едва ли требуется более K =20 компонентов для точного моделирования заданного распределения изображения или кластера данных.
Модель категориальной смеси
Типичная небайесовская смешанная модель с категориальными наблюдениями выглядит следующим образом:
как указано выше
как указано выше
как указано выше
размерность категориальных наблюдений, например, размер словарного запаса
вероятность для компонента наблюдаемого элемента
Вектор размерности, состоящий из должен быть в сумме равен 1
Случайные величины:
Типичная байесовская смешанная модель с категориальными наблюдениями выглядит следующим образом:
как указано выше
как указано выше
как указано выше
размерность категориальных наблюдений, например, размер словарного запаса
вероятность для компонента наблюдаемого элемента
Вектор размерности, состоящий из должен быть в сумме равен 1
общий гиперпараметр концентрации для каждого компонента
Предположим, что мы наблюдаем цены на N разных домов. Разные типы домов в разных районах будут иметь совершенно разные цены, но цена конкретного типа дома в определенном районе (например, дом с тремя спальнями в умеренно престижном районе) будет иметь тенденцию группироваться довольно близко вокруг среднего значения. Одной из возможных моделей таких цен было бы предположение, что цены точно описываются смешанной моделью с K различными компонентами, каждый из которых распределен как нормальное распределение с неизвестным средним значением и дисперсией, причем каждый компонент определяет определенную комбинацию типа дома/района. Подгонка этой модели к наблюдаемым ценам, например, с использованием алгоритма максимизации ожидания , будет иметь тенденцию группировать цены в соответствии с типом дома/районом и показывать разброс цен в каждом типе/районе. (Обратите внимание, что для таких значений, как цены или доходы, которые гарантированно являются положительными и которые имеют тенденцию расти экспоненциально , логнормальное распределение может быть на самом деле лучшей моделью, чем нормальное распределение.)
Темы в документе
Предположим, что документ состоит из N различных слов из общего словаря размером V , где каждое слово соответствует одной из K возможных тем. Распределение таких слов можно смоделировать как смесь K различных V -мерных категориальных распределений . Модель такого рода обычно называется тематической моделью . Обратите внимание, что максимизация ожиданий, применяемая к такой модели, как правило, не дает реалистичных результатов из-за (помимо прочего) чрезмерного количества параметров . Для получения хороших результатов обычно необходимы некоторые виды дополнительных предположений. Обычно в модель добавляются два вида дополнительных компонентов:
Априорное распределение накладывается на параметры, описывающие распределения тем, с использованием распределения Дирихле с параметром концентрации , который устанавливается значительно ниже 1, чтобы поощрять разреженные распределения (где только небольшое количество слов имеют значительно ненулевые вероятности).
На тематические идентичности слов накладывается некоторое дополнительное ограничение, чтобы воспользоваться преимуществами естественной кластеризации.
Например, цепь Маркова может быть размещена на идентичностях тем (т. е. скрытых переменных, определяющих компонент смеси каждого наблюдения), что соответствует тому факту, что соседние слова относятся к схожим темам. (Это приводит к скрытой модели Маркова , в частности, к той, в которой априорное распределение размещено над переходами состояний, что благоприятствует переходам, которые остаются в том же состоянии.)
Другая возможность — это модель скрытого распределения Дирихле , которая делит слова на D различных документов и предполагает, что в каждом документе с любой частотой встречается лишь небольшое количество тем.
Распознавание почерка
Следующий пример основан на примере из книги Кристофера М. Бишопа « Распознавание образов и машинное обучение» . [4]
Представьте, что нам дано черно-белое изображение размером N × N , которое, как известно, является сканированной рукописной цифрой от 0 до 9, но мы не знаем, какая именно цифра написана. Мы можем создать смешанную модель с различными компонентами, где каждый компонент является вектором размера распределений Бернулли (один на пиксель). Такая модель может быть обучена с помощью алгоритма максимизации ожидания на немаркированном наборе рукописных цифр и будет эффективно кластеризовать изображения в соответствии с написанной цифрой. Затем ту же модель можно использовать для распознавания цифры другого изображения, просто удерживая параметры постоянными, вычисляя вероятность нового изображения для каждой возможной цифры (тривиальный расчет) и возвращая цифру, которая сгенерировала самую высокую вероятность.
Модели смеси применяются в задаче наведения нескольких снарядов на цель (как в системах воздушной, наземной или морской обороны), где физические и/или статистические характеристики снарядов различаются в пределах нескольких снарядов. Примером могут служить выстрелы из нескольких типов боеприпасов или выстрелы из нескольких мест, направленные на одну цель. Сочетание типов снарядов можно охарактеризовать как модель смеси Гаусса. [5] Кроме того, хорошо известной мерой точности для группы снарядов является круговая вероятная ошибка (CEP), которая представляет собой число R, такое, что в среднем половина группы снарядов попадает в круг радиусом R вокруг целевой точки. Модель смеси может использоваться для определения (или оценки) значения R. Модель смеси должным образом охватывает различные типы снарядов.
Прямые и косвенные применения
Финансовый пример выше является одним из прямых применений модели смеси, ситуации, в которой мы предполагаем базовый механизм, так что каждое наблюдение принадлежит одному из некоторого количества различных источников или категорий. Однако этот базовый механизм может быть наблюдаемым или нет. В этой форме смеси каждый из источников описывается функцией плотности вероятности компонента, а его вес смеси является вероятностью того, что наблюдение исходит из этого компонента.
При косвенном применении модели смеси мы не предполагаем такой механизм. Модель смеси используется просто из-за ее математической гибкости. Например, смесь двух нормальных распределений с разными средними может привести к плотности с двумя модами , которая не моделируется стандартными параметрическими распределениями. Другой пример — возможность смешанных распределений моделировать более толстые хвосты, чем у базовых гауссовских, чтобы быть кандидатом на моделирование более экстремальных событий. В сочетании с динамической согласованностью этот подход был применен к оценке финансовых деривативов при наличии улыбки волатильности в контексте моделей локальной волатильности . Это определяет наше применение.
Прогностическое обслуживание
Кластеризация на основе смешанной модели также преимущественно используется для определения состояния машины при предиктивном обслуживании . Графики плотности используются для анализа плотности высокоразмерных признаков. Если наблюдаются многомодельные плотности, то предполагается, что конечный набор плотностей образован конечным набором нормальных смесей. Многомерная гауссовская модель смеси используется для кластеризации данных признаков в k групп, где k представляет каждое состояние машины. Состояние машины может быть нормальным, выключенным или неисправным. [6] Каждый сформированный кластер можно диагностировать с помощью таких методов, как спектральный анализ. В последние годы это также широко использовалось в других областях, таких как раннее обнаружение неисправностей. [7]
Нечеткая сегментация изображения
В обработке изображений и компьютерном зрении традиционные модели сегментации изображений часто назначают одному пикселю только один исключительный шаблон. В нечеткой или мягкой сегментации любой шаблон может иметь определенное «право собственности» на любой отдельный пиксель. Если шаблоны являются гауссовыми, нечеткая сегментация естественным образом приводит к гауссовым смесям. В сочетании с другими аналитическими или геометрическими инструментами (например, фазовыми переходами через диффузные границы) такие пространственно регуляризованные модели смесей могут привести к более реалистичным и вычислительно эффективным методам сегментации. [8]
Регистрация набора точек
Вероятностные модели смешения, такие как модели гауссовской смеси (GMM), используются для решения проблем регистрации наборов точек в областях обработки изображений и компьютерного зрения. Для попарной регистрации наборов точек один набор точек рассматривается как центроид моделей смеси, а другой набор точек рассматривается как точки данных (наблюдения). Современные методы, например, когерентный дрейф точек (CPD) [9]
и модели смешения t-распределения Стьюдента (TMM). [10]
Результаты недавних исследований демонстрируют превосходство гибридных моделей смешения [11]
(например, объединение t-распределения Стьюдента и распределения Уотсона/ распределения Бингама для моделирования пространственных положений и ориентаций осей по отдельности) по сравнению с CPD и TMM с точки зрения присущей им надежности, точности и дискриминационной способности.
Идентифицируемость
Идентифицируемость относится к существованию уникальной характеристики для любой из моделей в рассматриваемом классе (семействе). Процедуры оценки могут быть нечетко определены, а асимптотическая теория может не работать, если модель не идентифицируема.
Пример
Пусть J — класс всех биномиальных распределений с n = 2. Тогда смесь двух членов J будет иметь
и p 2 = 1 − p 0 − p 1. Очевидно, что при заданных p 0 и p 1 невозможно однозначно определить вышеуказанную модель смеси, поскольку необходимо определить три параметра ( π , θ 1 , θ 2 ).
Определение
Рассмотрим смесь параметрических распределений одного класса. Пусть
быть классом всех компонентных распределений. Тогда выпуклая оболочка K множества J определяет класс всех конечных смесей распределений в J :
Говорят, что K идентифицируем, если все его члены уникальны, то есть, если даны два члена p и p′ в K , являющиеся смесями распределений k и распределений k′ соответственно в J , мы имеем p = p′ тогда и только тогда, когда, во-первых, k = k′, а во-вторых, мы можем переупорядочить суммирования таким образом, что a i = a i ′ и ƒ i = ƒ i ′ для всех i .
Оценка параметров и идентификация системы
Параметрические модели смеси часто используются, когда мы знаем распределение Y и можем сделать выборку из X , но мы хотели бы определить значения a i и θ i . Такие ситуации могут возникнуть в исследованиях, в которых мы делаем выборку из популяции, состоящей из нескольких отдельных субпопуляций.
Обычно моделирование смеси вероятностей считают проблемой отсутствующих данных. Один из способов понять это — предположить, что рассматриваемые точки данных имеют «членство» в одном из распределений, которые мы используем для моделирования данных. Когда мы начинаем, это членство неизвестно или отсутствует. Задача оценки — разработать соответствующие параметры для выбранных нами функций модели, при этом связь с точками данных представляется как их членство в отдельных распределениях модели.
Было предложено множество подходов к проблеме разложения смеси, многие из которых фокусируются на методах максимального правдоподобия, таких как максимизация ожидания (EM) или максимальная апостериорная оценка (MAP). Обычно эти методы рассматривают отдельно вопросы идентификации системы и оценки параметров; методы определения количества и функциональной формы компонентов в смеси отличаются от методов оценки соответствующих значений параметров. Некоторые заметные отклонения — это графические методы, описанные в Tarter и Lock [12], и более поздние методы минимальной длины сообщения (MML), такие как Figueiredo и Jain [13], и в некоторой степени процедуры анализа шаблонов сопоставления моментов, предложенные McWilliam и Loh (2009). [14]
Максимизация ожиданий (EM)
Максимизация ожидания (EM) — это, по-видимому, наиболее популярный метод, используемый для определения параметров смеси с априорно заданным числом компонентов. Это особый способ реализации оценки максимального правдоподобия для этой проблемы. EM особенно привлекателен для конечных нормальных смесей, где возможны выражения в замкнутой форме, такие как в следующем итеративном алгоритме Демпстера и др. (1977) [15]
с апостериорными вероятностями
Таким образом, на основе текущей оценки параметров, условная вероятность для данного наблюдения x ( t ) , генерируемого из состояния s, определяется для каждого t = 1, …, N ; N — размер выборки. Затем параметры обновляются таким образом, чтобы новые веса компонентов соответствовали средней условной вероятности, а среднее значение и ковариация каждого компонента были взвешенным средним значением и ковариацией всей выборки.
Демпстер [15] также показал, что каждая последующая итерация EM не будет уменьшать правдоподобие, свойство, не разделяемое другими градиентными методами максимизации. Более того, EM естественным образом встраивает в себя ограничения на вектор вероятности, и для достаточно больших размеров выборки положительная определенность ковариации итерируется. Это ключевое преимущество, поскольку явно ограниченные методы влекут за собой дополнительные вычислительные затраты для проверки и поддержания соответствующих значений. Теоретически EM является алгоритмом первого порядка и, как таковой, медленно сходится к решению с фиксированной точкой. Реднер и Уокер (1984) [ полная ссылка необходима ] подчеркивают эту точку зрения, выступая в пользу сверхлинейных и второго порядка методов Ньютона и квазиньютона и сообщая о медленной сходимости в EM на основе своих эмпирических тестов. Они признают, что сходимость в правдоподобии была быстрой, даже если сходимость в самих значениях параметров не была. Относительные достоинства EM и других алгоритмов по сравнению со сходимостью обсуждались в другой литературе. [16]
Другие распространенные возражения против использования EM заключаются в том, что он склонен ложно определять локальные максимумы, а также проявлять чувствительность к начальным значениям. [17] [18] Можно решить эти проблемы, оценивая EM в нескольких начальных точках в пространстве параметров, но это требует больших вычислительных затрат, и другие подходы, такие как метод отжига EM Удеа и Накано (1998) (в котором начальные компоненты по сути вынуждены перекрываться, обеспечивая менее неоднородную основу для начальных предположений), могут быть предпочтительнее.
Фигейредо и Джейн [13] отмечают, что сходимость к «бессмысленным» значениям параметров, полученным на границе (где нарушается условие регулярности, например, Гош и Сен (1985)), часто наблюдается, когда число компонентов модели превышает оптимальное/истинное. На этой основе они предлагают единый подход к оценке и идентификации, в котором начальное n выбирается так, чтобы значительно превышать ожидаемое оптимальное значение. Их процедура оптимизации строится с помощью критерия минимальной длины сообщения (MML), который эффективно исключает компонент-кандидат, если для его поддержки недостаточно информации. Таким образом, можно систематизировать сокращения n и рассматривать оценку и идентификацию совместно.
Шаг ожидания
С начальными предположениями для параметров нашей модели смеси, "частичное членство" каждой точки данных в каждом составном распределении вычисляется путем вычисления значений ожиданий для переменных членства каждой точки данных. То есть, для каждой точки данных x j и распределения Y i , значение членства y i , j равно:
Шаг максимизации
Имея ожидаемые значения для членства в группе, оценки подключаемых модулей пересчитываются для параметров распределения.
Коэффициенты смешивания a i представляют собой средние значения значений принадлежности по N точкам данных.
Параметры модели компонента θ i также рассчитываются путем максимизации ожидания с использованием точек данных x j , которые были взвешены с использованием значений членства. Например, если θ является средним μ
С новыми оценками для a i и θ i ' шаг ожидания повторяется для пересчета новых значений членства. Вся процедура повторяется до тех пор, пока параметры модели не сойдутся.
Марковская цепь Монте-Карло
В качестве альтернативы алгоритму EM параметры модели смеси могут быть выведены с использованием апостериорной выборки, как указано в теореме Байеса . Это по-прежнему считается проблемой неполных данных, в которой принадлежность точек данных является недостающими данными. Можно использовать двухэтапную итеративную процедуру, известную как выборка Гиббса .
Предыдущий пример смеси двух гауссовых распределений может продемонстрировать, как работает метод. Как и прежде, делаются начальные предположения о параметрах для модели смеси. Вместо вычисления частичных членств для каждого элементарного распределения, значение членства для каждой точки данных извлекается из распределения Бернулли (то есть оно будет назначено либо первому, либо второму гауссову). Параметр Бернулли θ определяется для каждой точки данных на основе одного из составляющих распределений. [ неопределенно ] Извлечения из распределения генерируют ассоциации членства для каждой точки данных. Затем можно использовать подключаемые оценщики, как на шаге M EM, для генерации нового набора параметров модели смеси, а шаг биномиального извлечения повторяется.
Момент соответствия
Метод сопоставления моментов является одним из старейших методов определения параметров смеси, восходящих к основополагающей работе Карла Пирсона 1894 года. В этом подходе параметры смеси определяются таким образом, что составное распределение имеет моменты, соответствующие некоторому заданному значению. Во многих случаях извлечение решений уравнений моментов может представлять нетривиальные алгебраические или вычислительные проблемы. Более того, численный анализ Дэя [19] показал, что такие методы могут быть неэффективны по сравнению с EM. Тем не менее, интерес к этому методу возобновился, например, у Крейгмайл и Титтерингтон (1998) и Вана. [20]
McWilliam и Loh (2009) рассматривают характеристику гиперкубоидной нормальной смеси копулы в системах больших размерностей, для которых EM будет вычислительно невыгодным. Здесь процедура анализа шаблонов используется для генерации многомерных хвостовых зависимостей, соответствующих набору одномерных и (в некотором смысле) двумерных моментов. Затем производительность этого метода оценивается с использованием данных логарифмической доходности капитала со статистикой теста Колмогорова–Смирнова , предполагающей хорошее описательное соответствие.
Спектральные методы обучения моделей смесей основаны на использовании разложения сингулярных значений матрицы, содержащей точки данных. Идея заключается в рассмотрении k верхних сингулярных векторов, где k — число распределений, которые необходимо изучить. Проекция каждой точки данных на линейное подпространство, охватываемое этими векторами, группирует точки, происходящие из одного и того же распределения, очень близко друг к другу, в то время как точки из разных распределений остаются далеко друг от друга.
Отличительной особенностью спектрального метода является то, что он позволяет доказать , что если распределения удовлетворяют определенному условию разделения (например, не слишком близки), то расчетная смесь с высокой вероятностью будет очень близка к истинной.
Графические методы
Тартер и Лок [12] описывают графический подход к идентификации смеси, в котором функция ядра применяется к эмпирическому графику частот, чтобы уменьшить внутрикомпонентную дисперсию. Таким образом, можно легче идентифицировать компоненты, имеющие различные средние значения. Хотя этот λ -метод не требует предварительного знания числа или функциональной формы компонентов, его успех зависит от выбора параметров ядра, которые в некоторой степени неявно встраивают предположения о структуре компонента.
Другие методы
Некоторые из них, вероятно, даже могут изучать смеси распределений с тяжелыми хвостами , включая те, которые имеют бесконечную дисперсию (см. ссылки на статьи ниже). В этой обстановке методы, основанные на EM, не будут работать, поскольку шаг Expectation будет расходиться из-за наличия выбросов .
Симуляция
Для моделирования выборки размера N , которая представляет собой смесь распределений F i , i =1 до n , с вероятностями p i (сумма = p i = 1):
Сгенерировать N случайных чисел из категориального распределения размера n и вероятностей p i для i = 1= до n . Они говорят вам, из какого F i будет получено каждое из N значений. Обозначим через m i количество случайных чисел, отнесенных к i- й категории.
Для каждого i сгенерируйте m i случайных чисел из распределения F i .
Расширения
В байесовской настройке к графической модели , определяющей модель смеси, можно добавить дополнительные уровни . Например, в общей скрытой модели распределения тем Дирихле наблюдения представляют собой наборы слов, взятые из D различных документов, а компоненты смеси K представляют темы, которые являются общими для всех документов. Каждый документ имеет свой набор весов смеси, которые определяют темы, преобладающие в этом документе. Все наборы весов смеси имеют общие гиперпараметры .
Очень распространенным расширением является соединение скрытых переменных, определяющих идентичности компонентов смеси, в цепь Маркова , вместо того, чтобы предполагать, что они являются независимыми одинаково распределенными случайными величинами. Полученная модель называется скрытой марковской моделью и является одной из наиболее распространенных последовательных иерархических моделей. Было разработано множество расширений скрытых марковских моделей; см. полученную статью для получения дополнительной информации.
История
Распределения смесей и проблема разложения смеси, то есть идентификация ее составляющих компонентов и их параметров, упоминались в литературе еще в 1846 году (Quetelet in McLachlan, [17] 2000), хотя обычно ссылаются на работу Карла Пирсона (1894) [21] как первого автора, который явно обратился к проблеме разложения при характеристике ненормальных атрибутов соотношений длины лба к длине тела в популяциях самок берегового краба. Мотивацией для этой работы послужил зоолог Уолтер Франк Рафаэль Уэлдон, который предположил в 1893 году (в Tarter and Lock [12] ), что асимметрия в гистограмме этих соотношений может сигнализировать об эволюционной дивергенции. Подход Пирсона заключался в том, чтобы подогнать одномерную смесь двух нормалей к данным, выбрав пять параметров смеси таким образом, чтобы эмпирические моменты соответствовали моментам модели.
Хотя его работа оказалась успешной в выявлении двух потенциально различных подгрупп и демонстрации гибкости смесей как инструмента сопоставления моментов, формулировка требовала решения полинома 9-й степени (нелинейного), что в то время представляло собой значительную вычислительную задачу.
^ Chatzis, Sotirios P.; Kosmopoulos, Dimitrios I.; Varvarigou, Theodora A. (2008). «Моделирование и классификация сигналов с использованием надежной модели скрытого пространства на основе распределений t». Труды IEEE по обработке сигналов . 56 (3): 949–963. Bibcode : 2008ITSP...56..949C. doi : 10.1109/TSP.2007.907912. S2CID 15583243.
^ Ю, Гуошэнь (2012). «Решение обратных задач с помощью кусочно-линейных оценщиков: от моделей гауссовых смесей к структурированной разреженности». Труды IEEE по обработке изображений . 21 (5): 2481–2499. arXiv : 1006.3056 . Bibcode : 2012ITIP...21.2481G. doi : 10.1109/tip.2011.2176743. PMID 22180506. S2CID 479845.
^ Динов, ИД. "Учебник по максимизации ожиданий и моделированию смесей". Калифорнийская цифровая библиотека , статистический онлайн-вычислительный ресурс, статья EM_MM, http://repositories.cdlib.org/socr/EM_MM, 9 декабря 2008 г.
^ Бишоп, Кристофер (2006). Распознавание образов и машинное обучение . Нью-Йорк: Springer. ISBN978-0-387-31073-2.
^ Сполл, Дж. К. и Марьяк, Дж. Л. (1992). «Возможная байесовская оценка квантилей для точности снаряда из не-iid данных». Журнал Американской статистической ассоциации , т. 87 (419), стр. 676–681. JSTOR 2290205
^ Амрутнат, Нагдев; Гупта, Тарун (2018-02-02). Прогнозирование класса неисправностей в неконтролируемом обучении с использованием подхода кластеризации на основе моделей. Неопубликовано. doi :10.13140/rg.2.2.22085.14563.
^ Амрутнат, Нагдев; Гупта, Тарун (2018-02-01). Исследование алгоритмов машинного обучения без учителя для обнаружения неисправностей в предиктивном обслуживании. Неопубликовано. doi :10.13140/rg.2.2.28822.24648.
^ Шен, Цзяньхун (Джеки) (2006). «Стохастически-вариационная модель для мягкой сегментации Мамфорда-Шаха». Международный журнал биомедицинской визуализации . 2006 : 2–16. Bibcode : 2006IJBI.200649515H. doi : 10.1155/IJBI/2006/92329 . PMC 2324060. PMID 23165059 .
^ abc Tarter, Michael E. (1993), Оценка кривой без модели , Chapman and Hall
^ ab Figueiredo, MAT; Jain, AK (март 2002 г.). «Неконтролируемое обучение моделей конечных смесей». Труды IEEE по анализу шаблонов и машинному интеллекту . 24 (3): 381–396. CiteSeerX 10.1.1.362.9811 . doi :10.1109/34.990138.
^ Мак-Вильям, Н.; Лох, К. (2008), Включение многомерных хвостовых зависимостей в оценку кредитных деривативов (рабочий документ)[1]
^ ab Демпстер, AP; Лэрд, NM; Рубин, DB (1977). «Максимальное правдоподобие неполных данных с помощью алгоритма EM». Журнал Королевского статистического общества, серия B. 39 ( 1): 1–38. CiteSeerX 10.1.1.163.7580 . doi :10.1111/j.2517-6161.1977.tb01600.x. JSTOR 2984875.
^ Сюй, Л.; Джордан, М.И. (январь 1996 г.). «О свойствах сходимости алгоритма EM для гауссовых смесей». Neural Computation . 8 (1): 129–151. doi :10.1162/neco.1996.8.1.129. hdl : 10338.dmlcz/135225 . S2CID 207714252.
^ ab McLachlan, GJ (2000), Модели конечных смесей , Wiley
^ Ботев, З.И.; Крезе, Д.П. (2004). «Глобальная оптимизация правдоподобия с помощью метода кросс-энтропии с применением к моделям смесей». Труды Зимней конференции по моделированию 2004 г., 2004 г. Том 1. С. 517–523. CiteSeerX 10.1.1.331.2319 . doi :10.1109/WSC.2004.1371358. ISBN978-0-7803-8786-7. S2CID 6880171.
^ Day, NE (1969). «Оценка компонентов смеси нормальных распределений». Biometrika . 56 (3): 463–474. doi :10.2307/2334652. JSTOR 2334652.
^ Ван, Дж. (2001), «Создание ежедневных изменений рыночных переменных с использованием многомерной смеси нормальных распределений», Труды 33-й зимней конференции по моделированию : 283–289
^ Амендола, Карлос и др. (2015). «Моментные многообразия гауссовых смесей». Журнал алгебраической статистики . 7. arXiv : 1510.04654 . Bibcode : 2015arXiv151004654A. doi : 10.18409/jas.v7i1.42. S2CID 88515304.
^ Маклахлан, Г.Дж.; Басфорд, К.Э. (1988), «Смешанные модели: вывод и приложения к кластеризации», Статистика: Учебники и монографии , Bibcode : 1988mmia.book.....M
^ Титтерингтон, Смит и Маков, 1985 г.
Дальнейшее чтение
Книги по моделям смесей
Эверитт, Б.С.; Хэнд, Д.Дж. (1981). Конечные смеси распределений . Чапман и Холл. ISBN 978-0-412-22420-1.
Линдсей, Б. Г. (1995). Модели смесей: теория, геометрия и приложения . Серия региональных конференций NSF-CBMS по теории вероятностей и статистике. Том 5. Хейворд: Институт математической статистики.
Marin, JM; Mengersen, K .; Robert, CP (2011). "Байесовское моделирование и вывод на основе смесей распределений" (PDF) . В Dey, D.; Rao, CR (ред.). Essential Bayesian models . Справочник по статистике: Байесовское мышление - моделирование и вычисления. Том 25. Elsevier. ISBN 9780444537324.
Маклахлан, Г.Дж.; Пил, Д. (2000). Модели конечных смесей . Wiley. ISBN 978-0-471-00626-8.
Press, WH; Teukolsky, SA; Vetterling, WT; Flannery, BP (2007). "Раздел 16.1. Модели гауссовских смесей и кластеризация k-средних". Numerical Recipes: The Art of Scientific Computing (3-е изд.). Нью-Йорк: Cambridge University Press. ISBN 978-0-521-88068-8.
Титтерингтон, Д.; Смит, А.; Маков, У. (1985). Статистический анализ распределений конечных смесей . Wiley. ISBN 978-0-471-90763-3.
Яо, В.; Сян, С. (2024). Смешанные модели: параметрические, полупараметрические и новые направления. Chapman & Hall/CRC Press. ISBN 978-0367481827.
Применение моделей гауссовой смеси
Рейнольдс, ДА; Роуз, Р.К. (январь 1995 г.). «Надежная текстонезависимая идентификация говорящего с использованием моделей гауссовой смеси говорящих». Труды IEEE по обработке речи и звука . 3 (1): 72–83. doi :10.1109/89.365379. S2CID 7319345.
Пермутер, Хаим; Франкос, Джозеф; Джермин, Ян (2006). «Исследование моделей гауссовой смеси цветовых и текстурных признаков для классификации и сегментации изображений» (PDF) . Распознавание образов . 39 (4): 695–706. Bibcode :2006PatRe..39..695P. doi :10.1016/j.patcog.2005.10.028. S2CID 8530776.
Лемке, Вольфганг (2005). Моделирование и оценка структуры терминов в пространстве состояний . Springer Verlag. ISBN 978-3-540-28342-3.
Brigo, Damiano ; Mercurio, Fabio (2001). Смещенные и смешанные диффузии для аналитически-трактуемых моделей улыбок . Математические финансы – Bachelier Congress 2000. Труды. Springer Verlag.
Brigo, Damiano; Mercurio, Fabio (июнь 2002 г.). «Динамика логнормальной смеси и калибровка улыбок волатильности рынка». International Journal of Theoretical and Applied Finance . 5 (4): 427. CiteSeerX 10.1.1.210.4165 . doi :10.1142/S0219024902001511.
Сполл, Дж. К.; Марьяк, Дж. Л. (1992). «Возможная байесовская оценка квантилей для точности снаряда из не-iid данных». Журнал Американской статистической ассоциации . 87 (419): 676–681. doi :10.1080/01621459.1992.10475269. JSTOR 2290205.
Александр, Кэрол (декабрь 2004 г.). «Нормальная диффузия смеси с неопределенной волатильностью: моделирование краткосрочных и долгосрочных эффектов улыбки» (PDF) . Журнал банковского дела и финансов . 28 (12): 2957–80. doi :10.1016/j.jbankfin.2003.10.017.
Chen, J.; Adebomi, 0.E.; Olusayo, OS; Kulesza, W. (2010). Оценка подхода на основе плотности вероятностной гипотезы гауссовой смеси для отслеживания нескольких целей . Международная конференция IEEE по системам и методам визуализации, 2010. doi :10.1109/IST.2010.5548541.{{cite conference}}: CS1 maint: numeric names: authors list (link)
Внешние ссылки
Нильсен, Франк (23 марта 2012 г.). "K-MLE: быстрый алгоритм для обучения статистических моделей смесей". Международная конференция IEEE по акустике, речи и обработке сигналов (ICASSP) 2012 г. стр. 869–872. arXiv : 1203.5181 . Bibcode :2012arXiv1203.5181N. doi :10.1109/ICASSP.2012.6288022. ISBN 978-1-4673-0046-9. S2CID 935615.
Демонстрации SOCR по EM и моделированию смесей
Страница моделирования смесей (и программа Snob для минимальной длины сообщения ( MML ), применяемая к моделям конечных смесей), поддерживаемая DL Dowe.
PyMix – пакет Python Mixture, алгоритмы и структуры данных для широкого спектра приложений интеллектуального анализа данных на основе смешанных моделей в Python
sklearn.mixture – модуль из библиотеки Python scikit-learn для изучения моделей гауссовых смесей (и выборки из них), ранее поставляемый вместе с SciPy , а теперь поставляемый как SciKit
Код GMM.m Matlab для реализации GMM
Реализация моделей байесовской смеси на GPUmix C++ с использованием EM и MCMC с ускорением в 100 раз с использованием GPGPU.
[2] Код Matlab для реализации GMM с использованием алгоритма EM
[3] jMEF: библиотека Java с открытым исходным кодом для обучения и обработки смесей экспоненциальных семейств (используя дуальность с расхождениями Брегмана). Включает оболочку Matlab.
Очень быстрая и чистая реализация на языке C алгоритма максимизации ожидания (EM) для оценки моделей гауссовых смесей (GMM).
mclust — это пакет R для моделирования смесей.
dpgmm Pure Python Реализация модели гауссовой смеси процессов Дирихле (вариационная).
Публикация в блоге о моделях гауссовых смесей, обученных с помощью максимизации ожидания, с реализацией на Python.