Генеративная топографическая карта

Генеративная топографическая карта ( GTM ) — это метод машинного обучения , который является вероятностным аналогом самоорганизующейся карты (SOM), вероятно, является конвергентным и не требует сокращения окрестности или уменьшения размера шага. Это генеративная модель : предполагается, что данные возникают путем сначала вероятностного выбора точки в низкомерном пространстве, сопоставления точки с наблюдаемым многомерным входным пространством (с помощью гладкой функции), а затем добавления шума в это пространство. Параметры низкоразмерного распределения вероятностей, гладкой карты и шума извлекаются из обучающих данных с использованием алгоритма максимизации ожидания (EM) . GTM был представлен в 1996 году в статье Кристофера Бишопа , Маркуса Свенсена и Кристофера К.И. Уильямса.

Подробности алгоритма

Этот подход тесно связан с сетями плотности, которые используют выборку по важности и многослойный персептрон для формирования нелинейной модели скрытых переменных . В GTM скрытое пространство представляет собой дискретную сетку точек, которая предполагается нелинейно проецируемой в пространство данных. Затем в пространстве данных делается предположение о гауссовском шуме , так что модель становится ограниченной смесью гауссиан . Тогда вероятность модели может быть максимизирована с помощью EM.

Теоретически можно использовать произвольную нелинейную параметрическую деформацию. Оптимальные параметры можно найти методом градиентного спуска и т.п.

Предлагаемый подход к нелинейному отображению заключается в использовании радиальной сети базисных функций (RBF) для создания нелинейного отображения между скрытым пространством и пространством данных. Затем узлы сети RBF образуют пространство признаков , и нелинейное отображение затем можно рассматривать как линейное преобразование этого пространства признаков. Этот подход имеет преимущество перед предлагаемым подходом сети плотности, заключающееся в том, что его можно оптимизировать аналитически.

Использование

В анализе данных GTM похожи на нелинейную версию анализа главных компонентов , которая позволяет моделировать многомерные данные как результат гауссовского шума, добавленного к источникам в скрытом пространстве более низкой размерности. Например, чтобы найти акции в графическом 2D-пространстве на основе их форм временных рядов высокого разрешения. Другие приложения могут захотеть иметь меньше источников, чем точек данных, например модели смесей.

При генеративном деформационном моделировании скрытое пространство и пространство данных имеют одинаковые размеры, например, 2D-изображения или 1 звуковая звуковая волна. К источнику добавляются дополнительные «пустые» измерения (известные как «шаблон» в этой форме моделирования), например, размещение одномерной звуковой волны в двухмерном пространстве. Затем добавляются дополнительные нелинейные размеры, полученные путем объединения исходных размеров. Увеличенное скрытое пространство затем проецируется обратно в одномерное пространство данных. Вероятность данной проекции, как и прежде, определяется произведением правдоподобия данных в рамках модели гауссовского шума на априорный параметр деформации. В отличие от традиционного моделирования деформации на основе пружин, это имеет то преимущество, что его можно аналитически оптимизировать. Недостаток заключается в том, что это подход «добычи данных», т. е. форма предшествующей деформации вряд ли будет иметь смысл для объяснения возможных деформаций, поскольку он основан на очень высокой, искусственно и произвольно построенной скрытой нелинейной зависимости. космос. По этой причине априорное значение извлекается из данных, а не создается человеком-экспертом, как это возможно для моделей на основе пружин.

Сравнение с самоорганизующимися картами Кохонена.

В то время как узлы на самоорганизующейся карте (SOM) могут перемещаться по своему желанию, узлы GTM ограничены допустимыми преобразованиями и их вероятностями. Если деформации ведут себя хорошо, топология скрытого пространства сохраняется.

SOM был создан как биологическая модель нейронов и представляет собой эвристический алгоритм. Напротив, GTM не имеет ничего общего с нейробиологией или познанием и представляет собой модель, основанную на вероятностных принципах. Таким образом, он имеет ряд преимуществ перед СОМ, а именно:

он явно формулирует модель плотности данных.
он использует функцию стоимости, которая количественно определяет, насколько хорошо обучена карта.
он использует надежную процедуру оптимизации ( алгоритм EM ).

GTM был представлен Бишопом, Свенсеном и Уильямсом в их техническом отчете в 1997 году (Технический отчет NCRG/96/015, Астонский университет, Великобритания), опубликованном позже в журнале Neural Computation. Это также было описано в докторской диссертации Маркуса Свенсена (Астон, 1998).

Приложения

Смотрите также

Самоорганизующаяся карта (СОМ)
Нейронная сеть (машинное обучение), также известная как Искусственная нейронная сеть (ИНС)
Коннекционизм
Сбор данных
Машинное обучение
Нелинейное уменьшение размерности
Программное обеспечение для нейронных сетей
Распознавание образов

Внешние ссылки

Документ Бишопа, Свенсена и Уильямса о генеративном топографическом картировании
Генеративное топографическое картографирование разработано в Исследовательской группе нейронных вычислений Астонского университета (Великобритания). (Набор инструментов Matlab)