Слабое руководство — это парадигма в машинном обучении , актуальность и значимость которой возросли с появлением больших языковых моделей из-за большого объема данных, необходимых для их обучения. Она характеризуется использованием комбинации небольшого объема данных, размеченных человеком (используемых исключительно в более дорогой и трудоемкой парадигме контролируемого обучения ), за которой следует большой объем неразмеченных данных (используемых исключительно в парадигме неконтролируемого обучения ). Другими словами, желаемые выходные значения предоставляются только для подмножества обучающих данных. Остальные данные не размечены или размечены неточно. Интуитивно это можно рассматривать как экзамен, а размеченные данные — как примеры задач, которые учитель решает для класса в качестве помощи в решении другого набора задач. В трансдуктивной установке эти нерешенные задачи выступают в качестве экзаменационных вопросов. В индуктивной установке они становятся практическими задачами того типа, которые составят экзамен. Технически это можно рассматривать как выполнение кластеризации и последующую маркировку кластеров с использованием маркированных данных, отодвигая границу принятия решений от областей с высокой плотностью или изучая базовое одномерное многообразие, в котором находятся данные.
Получение маркированных данных для задачи обучения часто требует квалифицированного человеческого агента (например, для расшифровки аудиофрагмента) или физического эксперимента (например, определения трехмерной структуры белка или определения наличия нефти в определенном месте). Таким образом, стоимость, связанная с процессом маркировки, может сделать большие, полностью маркированные обучающие наборы невозможными, тогда как получение немаркированных данных относительно недорого. В таких ситуациях полуконтролируемое обучение может иметь большую практическую ценность. Полуконтролируемое обучение также представляет теоретический интерес для машинного обучения и как модель для обучения человека.
Более формально, полуконтролируемое обучение предполагает, что набор независимо идентично распределенных примеров с соответствующими метками и немаркированными примерами обрабатывается. Полуконтролируемое обучение объединяет эту информацию, чтобы превзойти производительность классификации , которая может быть получена либо путем отбрасывания немаркированных данных и выполнения контролируемого обучения, либо путем отбрасывания меток и выполнения неконтролируемого обучения.
Полуконтролируемое обучение может относиться либо к трансдуктивному обучению , либо к индуктивному обучению . [1] Цель трансдуктивного обучения — вывести правильные метки только для данных немаркированных данных . Цель индуктивного обучения — вывести правильное отображение из в .
Нет необходимости (и, согласно принципу Вапника , неразумно) выполнять трансдуктивное обучение путем выведения правила классификации по всему входному пространству; однако на практике алгоритмы, формально разработанные для трансдукции или индукции, часто используются взаимозаменяемо.
Для того, чтобы использовать немаркированные данные, должна существовать некоторая связь с лежащим в основе распределением данных. Алгоритмы полуконтролируемого обучения используют по крайней мере одно из следующих предположений: [2]
Точки, которые находятся близко друг к другу, с большей вероятностью разделяют метку. Это также обычно предполагается в контролируемом обучении и дает предпочтение геометрически простым границам решений . В случае полуконтролируемого обучения предположение о гладкости дополнительно дает предпочтение границам решений в областях с низкой плотностью, поэтому немногие точки находятся близко друг к другу, но в разных классах. [3]
Данные имеют тенденцию образовывать дискретные кластеры, и точки в одном кластере с большей вероятностью будут иметь общую метку (хотя данные, имеющие общую метку, могут распространяться на несколько кластеров). Это особый случай предположения о гладкости, который приводит к обучению признаков с помощью алгоритмов кластеризации.
Данные лежат приблизительно на многообразии гораздо меньшей размерности, чем входное пространство. В этом случае изучение многообразия с использованием как маркированных, так и немаркированных данных может избежать проклятия размерности . Затем обучение может продолжаться с использованием расстояний и плотностей, определенных на многообразии.
Предположение о многообразии практично, когда многомерные данные генерируются некоторым процессом, который может быть трудно смоделировать напрямую, но который имеет только несколько степеней свободы. Например, человеческий голос контролируется несколькими голосовыми связками, [4] а изображения различных выражений лица контролируются несколькими мышцами. В этих случаях лучше рассматривать расстояния и гладкость в естественном пространстве порождающей проблемы, а не в пространстве всех возможных акустических волн или изображений соответственно.
Эвристический подход самообучения ( также известный как самообучение или самомаркировка ) исторически является старейшим подходом к полуконтролируемому обучению [2] , примеры применения которого датируются 1960-ми годами. [5]
Трансдуктивная структура обучения была официально представлена Владимиром Вапником в 1970-х годах. [6] Интерес к индуктивному обучению с использованием генеративных моделей также начался в 1970-х годах. Вероятно, приблизительно правильная граница обучения для полуконтролируемого обучения гауссовой смеси была продемонстрирована Ратсаби и Венкатешем в 1995 году. [7]
Генеративные подходы к статистическому обучению сначала стремятся оценить [ спорный – обсудить ] распределение точек данных, принадлежащих каждому классу. Вероятность того, что данная точка имеет метку , тогда пропорциональна по правилу Байеса . Полуконтролируемое обучение с генеративными моделями можно рассматривать либо как расширение контролируемого обучения (классификация плюс информация о ), либо как расширение неконтролируемого обучения (кластеризация плюс некоторые метки).
Генеративные модели предполагают, что распределения принимают некоторую конкретную форму , параметризованную вектором . Если эти предположения неверны, немаркированные данные могут фактически снизить точность решения относительно того, что было бы получено только из маркированных данных. [8] Однако, если предположения верны, то немаркированные данные обязательно улучшают производительность. [7]
Немаркированные данные распределены в соответствии со смесью распределений отдельных классов. Чтобы узнать распределение смеси из немаркированных данных, оно должно быть идентифицируемым, то есть разные параметры должны давать разные суммарные распределения. Распределения смеси Гаусса идентифицируемы и обычно используются для генеративных моделей.
Параметризованное совместное распределение можно записать как с использованием цепного правила . Каждый вектор параметров связан с функцией решения . Затем параметр выбирается на основе соответствия как маркированным, так и немаркированным данным, взвешенным по :
Другой основной класс методов пытается разместить границы в регионах с небольшим количеством точек данных (помеченных или не помеченных). Одним из наиболее часто используемых алгоритмов является трансдуктивная машина опорных векторов , или TSVM (которая, несмотря на свое название, может использоваться и для индуктивного обучения). В то время как машины опорных векторов для контролируемого обучения ищут границу решения с максимальным запасом по помеченным данным, целью TSVM является маркировка не помеченных данных таким образом, чтобы граница решения имела максимальный запас по всем данным. В дополнение к стандартной потере шарнира для помеченных данных, вводится функция потерь по не помеченным данным, позволяя . Затем TSVM выбирает из воспроизводящего ядра гильбертово пространство, минимизируя регуляризованный эмпирический риск :
Точное решение труднодостижимо из-за невыпуклого члена , поэтому исследования сосредоточены на полезных приближениях. [9]
Другие подходы, реализующие разделение с низкой плотностью, включают модели гауссовских процессов, регуляризацию информации и минимизацию энтропии (частным случаем которой является TSVM).
Лапласовская регуляризация исторически применялась через граф-лапласиан. Графовые методы для полуконтролируемого обучения используют графовое представление данных с узлом для каждого помеченного и не помеченного примера. Граф может быть построен с использованием знания предметной области или сходства примеров; два распространенных метода — соединить каждую точку данных с ее ближайшими соседями или с примерами на некотором расстоянии . Вес ребра между и затем устанавливается равным .
В рамках регуляризации многообразия [10] [11] граф служит в качестве заместителя для многообразия. К стандартной задаче регуляризации Тихонова добавляется член , чтобы обеспечить гладкость решения относительно многообразия (во внутреннем пространстве задачи), а также относительно окружающего входного пространства. Задача минимизации становится
где — воспроизводящее ядро гильбертово пространство , а — многообразие, на котором лежат данные. Параметры регуляризации и управляют гладкостью в окружающем и внутреннем пространствах соответственно. График используется для аппроксимации внутреннего члена регуляризации. Определяя граф Лапласиан , где и — вектор , имеем
Графический подход к регуляризации Лапласа заключается в том, чтобы связать его с методом конечных разностей . [ необходимо разъяснение ] [ необходима ссылка ]
Лапласиан также можно использовать для расширения алгоритмов контролируемого обучения: регуляризованного метода наименьших квадратов и машины опорных векторов (SVM) до полуконтролируемых версий регуляризованного лапласианом метода наименьших квадратов и лапласианской SVM.
Некоторые методы полуконтролируемого обучения не ориентированы на обучение как на немаркированных, так и на маркированных данных, а вместо этого используют немаркированные данные в рамках контролируемого обучения. Например, маркированные и немаркированные примеры могут информировать о выборе представления, метрики расстояния или ядра для данных на первом шаге без учителя. Затем контролируемое обучение исходит только из маркированных примеров. В этом ключе некоторые методы изучают низкоразмерное представление с использованием контролируемых данных, а затем применяют либо разделение с низкой плотностью, либо методы на основе графов к изученному представлению. [12] [13] Итеративное уточнение представления и последующее выполнение полуконтролируемого обучения на указанном представлении может дополнительно повысить производительность.
Самообучение — это метод-оболочка для полуконтролируемого обучения. [14] Сначала контролируемый алгоритм обучения обучается только на основе маркированных данных. Затем этот классификатор применяется к немаркированным данным для генерации большего количества маркированных примеров в качестве входных данных для контролируемого алгоритма обучения. Обычно на каждом шаге добавляются только те метки, в которых классификатор наиболее уверен. [15] При обработке естественного языка распространенным алгоритмом самообучения является алгоритм Яровского для таких задач, как устранение неоднозначности смысла слов, восстановление акцента и исправление орфографии. [16]
Совместное обучение — это расширение самообучения, при котором несколько классификаторов обучаются на разных (в идеале непересекающихся) наборах признаков и генерируют помеченные примеры друг для друга. [17]
Человеческие реакции на формальные проблемы полуконтролируемого обучения привели к различным выводам о степени влияния немаркированных данных. [18] Более естественные проблемы обучения также можно рассматривать как примеры полуконтролируемого обучения. Большая часть обучения понятий человека включает в себя небольшое количество прямых инструкций (например, родительское обозначение объектов в детстве) в сочетании с большим количеством немаркированного опыта (например, наблюдение за объектами без их называния или подсчета или, по крайней мере, без обратной связи).
Человеческие младенцы чувствительны к структуре немаркированных естественных категорий, таких как изображения собак и кошек или мужских и женских лиц. [19] Младенцы и дети принимают во внимание не только немаркированные примеры, но и процесс выборки , из которого возникают маркированные примеры. [20] [21]
{{cite journal}}
: CS1 maint: multiple names: authors list (link)