Слабый надзор

Слабое супервизирование — парадигма в машинном обучении , актуальность и заметность которой возросли с появлением больших языковых моделей из-за большого объёма данных, необходимых для их обучения. Он характеризуется использованием комбинации небольшого количества данных, размеченных человеком (используемых исключительно в более дорогой и трудоемкой парадигме обучения с учителем ), за которым следует большой объем немаркированных данных (используемых исключительно в парадигме обучения без учителя ). Другими словами, желаемые выходные значения предоставляются только для подмножества обучающих данных. Остальные данные не помечены или помечены неточно. Интуитивно это можно рассматривать как экзамен, а данные помечать как примеры задач, которые учитель решает для класса в качестве помощи в решении другого набора задач. В трансдуктивной обстановке эти нерешенные проблемы действуют как экзаменационные вопросы. В индуктивной обстановке они превращаются в практические задачи, подобные экзамену. Технически это можно рассматривать как выполнение кластеризации с последующей маркировкой кластеров помеченными данными, отодвигание границы принятия решения от областей с высокой плотностью или изучение базового одномерного многообразия, в котором находятся данные.

Проблема

Тенденция к использованию в задаче контролируемых и неконтролируемых методов. Названия задач, выходящие за границы круга, созданы намеренно. Это показывает, что классическое разделение творческих задач (слева) с использованием неконтролируемых методов размыто в современных схемах обучения.

Для получения размеченных данных для задачи обучения часто требуется квалифицированный человек (например, для расшифровки аудиосегмента) или физический эксперимент (например, определение трехмерной структуры белка или определение наличия масла в определенном месте). Таким образом, стоимость, связанная с процессом маркировки, может сделать невозможным создание больших, полностью маркированных обучающих наборов, тогда как получение немаркированных данных обходится относительно недорого. В таких ситуациях полуконтролируемое обучение может иметь большую практическую ценность. Обучение с полуконтролем также представляет теоретический интерес в машинном обучении и в качестве модели человеческого обучения.

Техника

Более формально, полу-контролируемое обучение предполагает обработку набора независимо одинаково распределенных примеров с соответствующими метками и немаркированных примеров . Полуконтролируемое обучение объединяет эту информацию, чтобы превзойти эффективность классификации , которую можно получить либо путем отбрасывания немаркированных данных и выполнения контролируемого обучения, либо путем отказа от меток и выполнения неконтролируемого обучения. $l$ $x_{1},\dots ,x_{l}\in X$ $y_{1},\dots ,y_{l}\in Y$ $u$ $x_{l+1},\dots ,x_{l+u}\in X$

Обучение с полуконтролем может относиться либо к трансдуктивному обучению , либо к индуктивному обучению . ^[1] Цель трансдуктивного обучения — найти правильные метки только для данных немаркированных данных. Цель индуктивного обучения — вывести правильное отображение от до . $x_{l+1},\dots ,x_{l+u}$ $X$ $Y$

Нет необходимости (и, согласно принципу Вапника , неосмотрительно) выполнять трансдуктивное обучение путем вывода правила классификации по всему входному пространству; однако на практике алгоритмы, формально разработанные для трансдукции или индукции, часто используются как взаимозаменяемые.

Предположения

Чтобы можно было использовать немаркированные данные, должна существовать некоторая связь с основным распределением данных. Алгоритмы полуконтролируемого обучения используют по крайней мере одно из следующих допущений: ^[2]

Предположение непрерывности/гладкости

Точки, расположенные близко друг к другу, с большей вероятностью будут иметь одну и ту же метку. Это также обычно предполагается при обучении с учителем и дает предпочтение геометрически простым границам решений . В случае полуконтролируемого обучения предположение о гладкости дополнительно дает предпочтение границам решений в регионах с низкой плотностью, поэтому несколько точек находятся близко друг к другу, но в разных классах. ^[3]

Кластерное предположение

Данные имеют тенденцию образовывать дискретные кластеры, и точки в одном кластере с большей вероятностью будут иметь общую метку (хотя данные, имеющие общую метку, могут распространяться по нескольким кластерам). Это частный случай предположения о гладкости, который приводит к обучению признаков с помощью алгоритмов кластеризации.

Многообразное предположение

Данные лежат приблизительно на многообразии гораздо меньшей размерности, чем входное пространство. В этом случае изучение многообразия с использованием как размеченных, так и неразмеченных данных может избежать проклятия размерности . Затем обучение может продолжиться с использованием расстояний и плотностей, определенных на многообразии.

Предположение о многообразии практично, когда многомерные данные генерируются каким-либо процессом, который сложно смоделировать напрямую, но который имеет лишь несколько степеней свободы. Например, человеческий голос контролируется несколькими голосовыми связками ^[4] , а изображения различных выражений лица контролируются несколькими мышцами. В этих случаях расстояния и гладкость лучше рассматривать в естественном пространстве порождающей задачи, а не в пространстве всех возможных акустических волн или изображений соответственно.

История

Эвристический подход самообучения (также известный как самообучение или самомаркировка ) исторически является старейшим подходом к полуконтролируемому обучению ^[2] , примеры его применения начались в 1960-х годах. ^[5]

Трансдуктивная система обучения была официально представлена Владимиром Вапником в 1970-х годах. ^[6] Интерес к индуктивному обучению с использованием генеративных моделей также возник в 1970-х годах. Вероятно, приблизительно правильное обучение для полуконтролируемого обучения гауссовской смеси было продемонстрировано Рацаби и Венкатешем в 1995 году. ^[7]

Методы

Генеративные модели

Генеративные подходы к статистическому обучению в первую очередь направлены на оценку , ^[^{оспаривается}^–^{обсуждается}^] распределение точек данных, принадлежащих к каждому классу. Тогда вероятность того, что данная точка имеет метку, пропорциональна по правилу Байеса . Обучение с полуконтролем с помощью генеративных моделей можно рассматривать либо как расширение обучения с учителем (классификация плюс информация о ), либо как расширение обучения без учителя (кластеризация плюс некоторые метки). $p(x|y)$ $p(y|x)$ $x$ $y$ $p(x|y)p(y)$ $p(x)$

Генеративные модели предполагают, что распределения принимают некоторую конкретную форму , параметризованную вектором . Если эти предположения неверны, неразмеченные данные могут фактически снизить точность решения по сравнению с тем, что было бы получено только из размеченных данных. ^[8] Однако, если предположения верны, то немаркированные данные обязательно улучшат производительность. ^[7] $p(x|y,\theta )$ $\theta$

Немаркированные данные распределяются в соответствии со смесью распределений отдельных классов. Чтобы узнать распределение смеси по немаркированным данным, оно должно быть идентифицируемым, то есть разные параметры должны давать разные суммарные распределения. Распределения гауссовской смеси легко идентифицировать и обычно используются для генеративных моделей.

Параметризованное совместное распределение можно записать, используя правило цепочки . Каждый вектор параметров связан с функцией решения . Затем параметр выбирается на основе соответствия как помеченным, так и неразмеченным данным с весом : $p(x,y|\theta )=p(y|\theta )p(x|y,\theta )$ $\theta$ $f_{\theta }(x)={\underset {y}{\operatorname {argmax} }}\ p(y|x,\theta )$ $\lambda$

{\underset {\Theta }{\operatorname {argmax} }}\left(\log p(\{x_{i},y_{i}\}_{i=1}^{l}|\theta )+\lambda \log p(\{x_{i}\}_{i=l+1}^{l+u}|\theta )\right)

^[9]

Сепарация низкой плотности

Другой основной класс методов пытается разместить границы в регионах с небольшим количеством точек данных (помеченных или неразмеченных). Одним из наиболее часто используемых алгоритмов является трансдуктивная машина опорных векторов , или TSVM (которая, несмотря на свое название, также может использоваться для индуктивного обучения). В то время как машины опорных векторов для контролируемого обучения ищут границу решения с максимальным запасом по помеченным данным, целью TSVM является маркировка немаркированных данных так, чтобы граница решения имела максимальный запас по всем данным. В дополнение к стандартным потерям шарнира для помеченных данных, функция потерь вводится для неразмеченных данных, позволяя . Затем TSVM выбирает из воспроизводящего ядра гильбертова пространства , минимизируя регуляризованный эмпирический риск : $(1-yf(x))_{+}$ $(1-|f(x)|)_{+}$ $y=\operatorname {sign} {f(x)}$ $f^{*}(x)=h^{*}(x)+b$ ${\mathcal {H}}$

f^{*}={\underset {f}{\operatorname {argmin} }}\left(\displaystyle \sum _{i=1}^{l}(1-y_{i}f(x_{i}))_{+}+\lambda _{1}\|h\|_{\mathcal {H}}^{2}+\lambda _{2}\sum _{i=l+1}^{l+u}(1-|f(x_{i})|)_{+}\right)

Точное решение трудно найти из-за невыпуклости члена , поэтому исследования сосредоточены на полезных приближениях. ^[9] $(1-|f(x)|)_{+}$

Другие подходы, реализующие разделение с низкой плотностью, включают модели гауссовских процессов, регуляризацию информации и минимизацию энтропии (особым случаем которых является TSVM).

Лапласова регуляризация

К регуляризации Лапласа исторически подходили через граф-лапласиан. Методы на основе графов для полуконтролируемого обучения используют графовое представление данных с узлом для каждого помеченного и неразмеченного примера. Граф может быть построен с использованием знаний предметной области или подобия примеров; Два распространенных метода — соединить каждую точку данных с ее ближайшими соседями или с примерами, находящимися на некотором расстоянии . Затем вес ребра между и устанавливается равным . $k$ $\epsilon$ $W_{ij}$ $x_{i}$ $x_{j}$ $e^{-\|x_{i}-x_{j}\|^{2}/\epsilon ^{2}}$

В рамках регуляризации многообразия ^[10]^[11] граф служит заместителем многообразия. К стандартной задаче регуляризации Тихонова добавляется термин , обеспечивающий гладкость решения относительно многообразия (во внутреннем пространстве задачи), а также относительно окружающего входного пространства. Задача минимизации становится

{\underset {f\in {\mathcal {H}}}{\operatorname {argmin} }}\left({\frac {1}{l}}\displaystyle \sum _{i=1}^{l}V(f(x_{i}),y_{i})+\lambda _{A}\|f\|_{\mathcal {H}}^{2}+\lambda _{I}\int _{\mathcal {M}}\|\nabla _{\mathcal {M}}f(x)\|^{2}dp(x)\right)

^[9]

где – гильбертово пространство с воспроизводящим ядром, а – многообразие, на котором лежат данные. Параметры регуляризации и гладкость управления в окружающем и внутреннем пространствах соответственно. График используется для аппроксимации внутреннего члена регуляризации. Определив лапласиан графа, где и - вектор , мы имеем ${\mathcal {H}}$ ${\mathcal {M}}$ $\lambda _{A}$ $\lambda _{I}$ $L=D-W$ $D_{ii}=\sum _{j=1}^{l+u}W_{ij}$ $\mathbf {f}$ $[f(x_{1})\dots f(x_{l+u})]$

\mathbf {f} ^{T}L\mathbf {f} =\displaystyle \sum _{i,j=1}^{l+u}W_{ij}(f_{i}-f_{j})^{2}\approx \int _{\mathcal {M}}\|\nabla _{\mathcal {M}}f(x)\|^{2}dp(x)

Основанный на графах подход к регуляризации Лапласа должен быть сопоставлен с методом конечных разностей . ^{[ нужны разъяснения ]}^{[ нужна ссылка ]}

Лапласиан также можно использовать для расширения алгоритмов обучения с учителем: регуляризованных методов наименьших квадратов и машин опорных векторов (SVM) до полуконтролируемых версий регуляризованных наименьших квадратов Лапласа и лапласианских SVM.

Эвристические подходы

Некоторые методы полуконтролируемого обучения по своей сути не предназначены для обучения как на немаркированных, так и на маркированных данных, а вместо этого используют немаркированные данные в рамках контролируемого обучения. Например, помеченные и неразмеченные примеры могут служить основой для выбора представления, метрики расстояния или ядра для данных на неконтролируемом первом этапе. Тогда обучение с учителем происходит только на отмеченных примерах. В этом ключе некоторые методы изучают низкоразмерное представление с использованием контролируемых данных, а затем применяют к изученному представлению либо разделение с низкой плотностью, либо методы на основе графов. ^[12]^[13] Итеративное уточнение представления и последующее полуконтролируемое обучение указанного представления могут еще больше повысить производительность. $x_{1},\dots ,x_{l+u}$

Самообучение — это метод-оболочка полуконтролируемого обучения. ^[14] Сначала алгоритм контролируемого обучения обучается только на основе помеченных данных. Затем этот классификатор применяется к немаркированным данным для создания большего количества помеченных примеров в качестве входных данных для алгоритма обучения с учителем. Обычно на каждом этапе добавляются только те метки, в которых классификатор наиболее уверен. ^[15] При обработке естественного языка распространенным алгоритмом самообучения является алгоритм Яровского для решения таких задач, как устранение неоднозначности смысла слов, восстановление акцента и исправление правописания. ^[16]

Совместное обучение — это расширение самообучения, при котором несколько классификаторов обучаются на разных (в идеале непересекающихся) наборах функций и генерируют помеченные примеры друг для друга. ^[17]

В человеческом познании

Реакция человека на формальные проблемы обучения с полуконтролем привела к различным выводам о степени влияния немаркированных данных. ^[18] Более естественные проблемы обучения также можно рассматривать как примеры обучения под учителем. Большая часть обучения человеческим понятиям включает в себя небольшое количество прямых инструкций (например, навешивание родительскими ярлыками объектов в детстве) в сочетании с большим объемом немаркированного опыта (например, наблюдение за объектами без их называния или подсчета или, по крайней мере, без обратной связи).

Человеческие младенцы чувствительны к структуре немаркированных природных категорий, таких как изображения собак и кошек или мужских и женских лиц. ^[19] Младенцы и дети принимают во внимание не только немаркированные примеры, но и процесс отбора проб , в результате которого возникают маркированные примеры. ^[20]^[21]

Смотрите также

ПУ обучение

Источники

Шапель, Оливье; Шёлкопф, Бернхард; Зиен, Александр (2006). Полуконтролируемое обучение . Кембридж, Массачусетс: MIT Press. ISBN 978-0-262-03358-9.

Внешние ссылки

Регуляризация многообразия. Свободно доступная реализация MATLAB основанных на графах полуконтролируемых алгоритмов. Машины опорных векторов Лапласа и регуляризованные лапласовские наименьшие квадраты.
KEEL: программный инструмент для оценки эволюционных алгоритмов для задач интеллектуального анализа данных (регрессия, классификация, кластеризация, анализ шаблонов и т. д.). Модуль KEEL для полуконтролируемого обучения.
Программное обеспечение для полуконтролируемого обучения
Полуконтролируемое обучение — документация scikit-learn Полуконтролируемое обучение в scikit-learn .