Контролируемое обучение

Контролируемое обучение ( SL ) — это парадигма в машинном обучении , где входные объекты (например, вектор предикторных переменных) и желаемое выходное значение (также известное как маркированный человеком контрольный сигнал ) обучают модель. Обучающие данные обрабатываются, создавая функцию, которая сопоставляет новые данные с ожидаемыми выходными значениями. ^[1] Оптимальный сценарий позволит алгоритму правильно определять выходные значения для невидимых случаев. Это требует, чтобы обучающий алгоритм обобщал обучающие данные на невидимые ситуации «разумным» способом (см. индуктивное смещение ). Это статистическое качество алгоритма измеряется с помощью так называемой ошибки обобщения .

Тенденция к задаче использовать контролируемые и неконтролируемые методы. Названия задач, пересекающие границы круга, являются преднамеренными. Это показывает, что классическое разделение творческих задач (слева), использующих неконтролируемые методы, размыто в современных схемах обучения.

Шаги, которым нужно следовать

Для решения данной задачи контролируемого обучения необходимо выполнить следующие шаги:

Определите тип обучающих примеров. Прежде чем что-либо делать, пользователь должен решить, какие данные будут использоваться в качестве обучающего набора. В случае анализа почерка , например, это может быть один рукописный символ, целое рукописное слово, целое предложение рукописного текста или, возможно, целый абзац рукописного текста.
Соберите обучающий набор . Обучающий набор должен быть репрезентативным для реального использования функции. Таким образом, собирается набор входных объектов и соответствующие выходные данные, либо от экспертов-людей, либо из измерений.
Определите представление входных признаков изученной функции. Точность изученной функции сильно зависит от того, как представлен входной объект. Обычно входной объект преобразуется в вектор признаков , который содержит ряд признаков, описывающих объект. Количество признаков не должно быть слишком большим из-за проклятия размерности ; но должно содержать достаточно информации для точного предсказания выходных данных.
Определите структуру изученной функции и соответствующий алгоритм обучения. Например, инженер может выбрать использование опорных векторных машин или деревьев решений .
Завершите проектирование. Запустите алгоритм обучения на собранном обучающем наборе. Некоторые контролируемые алгоритмы обучения требуют, чтобы пользователь определил определенные параметры управления . Эти параметры могут быть скорректированы путем оптимизации производительности на подмножестве (называемом проверочным набором ) обучающего набора или с помощью перекрестной проверки .
Оцените точность обученной функции. После настройки параметров и обучения производительность полученной функции следует измерить на тестовом наборе , отдельном от обучающего набора.

Выбор алгоритма

Доступен широкий спектр алгоритмов контролируемого обучения, каждый из которых имеет свои сильные и слабые стороны. Не существует единого алгоритма обучения, который бы лучше всего подходил для всех задач контролируемого обучения (см. теорему о бесплатном обеде ).

При контролируемом обучении следует учитывать четыре основных вопроса:

Компромисс между смещением и дисперсией

Первая проблема — это компромисс между смещением и дисперсией . ^[2] Представьте, что у нас есть несколько разных, но одинаково хороших наборов обучающих данных. Обучающий алгоритм смещен для определенного входного сигнала , если при обучении на каждом из этих наборов данных он систематически неверен при прогнозировании правильного выходного сигнала для . Обучающий алгоритм имеет высокую дисперсию для определенного входного сигнала , если он предсказывает разные выходные значения при обучении на разных обучающих наборах. Ошибка прогнозирования обученного классификатора связана с суммой смещения и дисперсии обучающего алгоритма. ^[3] Как правило, существует компромисс между смещением и дисперсией. Обучающий алгоритм с низким смещением должен быть «гибким», чтобы хорошо подгонять данные. Но если обучающий алгоритм слишком гибкий, он будет подгонять каждый обучающий набор данных по-разному и, следовательно, иметь высокую дисперсию. Ключевым аспектом многих контролируемых методов обучения является то, что они могут корректировать этот компромисс между смещением и дисперсией (автоматически или путем предоставления параметра смещения/дисперсии, который может настроить пользователь). $x$ $x$ $x$

Сложность функции и объем обучающих данных

Вторая проблема заключается в объеме доступных обучающих данных относительно сложности «истинной» функции (классификатора или функции регрессии). Если истинная функция проста, то «негибкий» алгоритм обучения с высоким смещением и низкой дисперсией сможет обучить ее на небольшом объеме данных. Но если истинная функция очень сложна (например, потому что она включает в себя сложные взаимодействия между многими различными входными признаками и ведет себя по-разному в разных частях входного пространства), то функция сможет обучиться только на большом объеме обучающих данных в паре с «гибким» алгоритмом обучения с низким смещением и высокой дисперсией.

Размерность входного пространства

Третья проблема — размерность входного пространства. Если входные векторы признаков имеют большие размерности, изучение функции может быть сложным, даже если истинная функция зависит только от небольшого числа этих признаков. Это связано с тем, что множество «дополнительных» измерений могут запутать алгоритм обучения и привести к его высокой дисперсии. Следовательно, входные данные больших размерностей обычно требуют настройки классификатора для получения низкой дисперсии и высокого смещения. На практике, если инженер может вручную удалить нерелевантные признаки из входных данных, это, вероятно, повысит точность обученной функции. Кроме того, существует множество алгоритмов для выбора признаков , которые стремятся идентифицировать релевантные признаки и отбрасывать нерелевантные. Это пример более общей стратегии снижения размерности , которая стремится отобразить входные данные в пространство с меньшей размерностью перед запуском контролируемого алгоритма обучения.

Шум в выходных значениях

Четвертая проблема — это степень шума в желаемых выходных значениях (контрольные целевые переменные ). Если желаемые выходные значения часто неверны (из-за человеческой ошибки или ошибок датчиков), то алгоритм обучения не должен пытаться найти функцию, которая точно соответствует обучающим примерам. Попытка слишком тщательно подогнать данные приводит к переобучению . Вы можете переобучиться даже при отсутствии ошибок измерения (стохастический шум), если функция, которую вы пытаетесь изучить, слишком сложна для вашей обучающей модели. В такой ситуации часть целевой функции, которую невозможно смоделировать, «портит» ваши обучающие данные — это явление называется детерминированным шумом . Когда присутствует любой из типов шума, лучше использовать оценку с более высоким смещением и более низкой дисперсией.

На практике существует несколько подходов к уменьшению шума в выходных значениях, таких как ранняя остановка для предотвращения переобучения , а также обнаружение и удаление шумных обучающих примеров до обучения контролируемого алгоритма обучения. Существует несколько алгоритмов, которые идентифицируют шумные обучающие примеры, и удаление предполагаемых шумных обучающих примеров до обучения уменьшило ошибку обобщения со статистической значимостью . ^[4]^[5]

Другие факторы, которые следует учитывать

Другие факторы, которые следует учитывать при выборе и применении алгоритма обучения, включают следующее:

Гетерогенность данных. Если векторы признаков включают признаки многих различных видов (дискретные, дискретно упорядоченные, счетчики, непрерывные значения), некоторые алгоритмы применять проще, чем другие. Многие алгоритмы, включая машины опорных векторов , линейную регрессию , логистическую регрессию , нейронные сети и методы ближайших соседей , требуют, чтобы входные признаки были числовыми и масштабировались до схожих диапазонов (например, до интервала [-1,1]). Методы, использующие функцию расстояния, такие как методы ближайших соседей и машины опорных векторов с гауссовыми ядрами , особенно чувствительны к этому. Преимущество деревьев решений заключается в том, что они легко обрабатывают неоднородные данные.
Избыточность данных. Если входные признаки содержат избыточную информацию (например, высококоррелированные признаки), некоторые алгоритмы обучения (например, линейная регрессия , логистическая регрессия и методы на основе расстояний ) будут работать плохо из-за числовой нестабильности. Эти проблемы часто можно решить, наложив некоторую форму регуляризации .
Наличие взаимодействий и нелинейностей. Если каждый из признаков вносит независимый вклад в вывод, то алгоритмы, основанные на линейных функциях (например, линейная регрессия , логистическая регрессия , машины опорных векторов , наивный байесовский алгоритм ) и функциях расстояния (например, методы ближайшего соседа , машины опорных векторов с гауссовыми ядрами ), обычно работают хорошо. Однако, если между признаками есть сложные взаимодействия, то такие алгоритмы, как деревья решений и нейронные сети, работают лучше, поскольку они специально разработаны для обнаружения этих взаимодействий. Линейные методы также могут применяться, но инженер должен вручную указывать взаимодействия при их использовании.

При рассмотрении нового приложения инженер может сравнить несколько алгоритмов обучения и экспериментально определить, какой из них лучше всего подходит для рассматриваемой проблемы (см. перекрестную проверку ). Настройка производительности алгоритма обучения может занять очень много времени. При фиксированных ресурсах часто лучше потратить больше времени на сбор дополнительных данных обучения и более информативных функций, чем тратить дополнительное время на настройку алгоритмов обучения.

Алгоритмы

Наиболее широко используемые алгоритмы обучения:

Как работают алгоритмы контролируемого обучения

При наличии набора обучающих примеров в форме, такой что — вектор признаков -го примера, а — его метка (т. е. класс), обучающий алгоритм ищет функцию , где — входное пространство, а — выходное пространство. Функция является элементом некоторого пространства возможных функций , обычно называемого пространством гипотез . Иногда удобно представлять с помощью функции подсчета баллов, такой что определяется как возвращающее значение, дающее наивысшую оценку: . Пусть обозначает пространство функций подсчета баллов. $N$ $\{(x_{1},y_{1}),...,(x_{N},\;y_{N})\}$ $x_{i}$ $i$ $y_{i}$ $g:X\to Y$ $X$ $Y$ $g$ $G$ $g$ $f:X\times Y\to \mathbb {R}$ $g$ $y$ $g(x)={\underset {y}{\arg \max }}\;f(x,y)$ $F$

Хотя и может быть любым пространством функций, многие алгоритмы обучения являются вероятностными моделями, где принимает форму условной вероятностной модели или принимает форму совместной вероятностной модели . Например, наивный байесовский и линейный дискриминантный анализ являются совместными вероятностными моделями, тогда как логистическая регрессия является условной вероятностной моделью. $G$ $F$ $g$ $g(x)={\underset {y}{\arg \max }}\;P(y|x)$ $f$ $f(x,y)=P(x,y)$

Существует два основных подхода к выбору или : эмпирическая минимизация риска и структурная минимизация риска . ^[6] Эмпирическая минимизация риска ищет функцию, которая наилучшим образом соответствует обучающим данным. Структурная минимизация риска включает штрафную функцию , которая контролирует компромисс смещения/дисперсии. $f$ $g$

В обоих случаях предполагается, что обучающий набор состоит из выборки независимых и одинаково распределенных пар , . Для того чтобы измерить, насколько хорошо функция соответствует обучающим данным, определяется функция потерь . Для обучающего примера потеря предсказания значения составляет . $(x_{i},\;y_{i})$ $L:Y\times Y\to \mathbb {R} ^{\geq 0}$ $(x_{i},\;y_{i})$ ${\hat {y}}$ $L(y_{i},{\hat {y}})$

Риск функции определяется как ожидаемая потеря . Это можно оценить по данным обучения как $R(g)$ $g$ $g$

R_{emp}(g)={\frac {1}{N}}\sum _{i}L(y_{i},g(x_{i}))

Эмпирическая минимизация риска

При минимизации эмпирического риска алгоритм контролируемого обучения ищет функцию, которая минимизирует . Следовательно, алгоритм контролируемого обучения может быть построен путем применения алгоритма оптимизации для нахождения . $g$ $R(g)$ $g$

Когда — условное распределение вероятностей , а функция потерь — отрицательный логарифм правдоподобия: , то эмпирическая минимизация риска эквивалентна оценке максимального правдоподобия . $g$ $P(y|x)$ $L(y,{\hat {y}})=-\log P(y|x)$

Когда содержит много функций-кандидатов или обучающий набор недостаточно велик, минимизация эмпирического риска приводит к высокой дисперсии и плохому обобщению. Обучающий алгоритм способен запоминать обучающие примеры, не обобщая их хорошо. Это называется переобучением . $G$

Минимизация структурного риска

Минимизация структурного риска стремится предотвратить переобучение путем включения штрафа за регуляризацию в оптимизацию. Штраф за регуляризацию можно рассматривать как реализацию формы бритвы Оккама , которая предпочитает более простые функции более сложным.

Было использовано множество штрафов, соответствующих различным определениям сложности. Например, рассмотрим случай, когда функция является линейной функцией вида $g$

g(x)=\sum _{j=1}^{d}\beta _{j}x_{j}

Популярный штраф регуляризации — это , который является квадратом евклидовой нормы весов, также известной как норма. Другие нормы включают норму, и «норму» , которая является числом ненулевых s. Штраф будет обозначаться как . $\sum _{j}\beta _{j}^{2}$ $L_{2}$ $L_{1}$ $\sum _{j}|\beta _{j}|$ $L_{0}$ $\beta _{j}$ $C(g)$

Задача оптимизации контролируемого обучения заключается в нахождении функции , которая минимизирует $g$

J(g)=R_{emp}(g)+\lambda C(g).

Параметр контролирует компромисс смещения-дисперсии. Когда , это дает эмпирическую минимизацию риска с низким смещением и высокой дисперсией. Когда велико, алгоритм обучения будет иметь высокое смещение и низкую дисперсию. Значение может быть выбрано эмпирически с помощью перекрестной проверки . $\lambda$ $\lambda =0$ $\lambda$ $\lambda$

Штраф за сложность имеет байесовскую интерпретацию как отрицательную логарифмическую априорную вероятность , в этом случае апостериорная вероятность равна . $g$ $-\log P(g)$ $J(g)$ $g$

Генеративное обучение

Методы обучения, описанные выше, являются дискриминативными методами обучения, поскольку они стремятся найти функцию , которая хорошо различает различные выходные значения (см. дискриминативную модель ). Для особого случая, когда — совместное распределение вероятностей , а функция потерь — отрицательное логарифмическое правдоподобие, говорят, что алгоритм минимизации риска выполняет генеративное обучение , поскольку может рассматриваться как генеративная модель , которая объясняет, как были сгенерированы данные. Генеративное обучение часто проще и более эффективно с вычислительной точки зрения, чем дискриминативное обучение. В некоторых случаях решение может быть вычислено в замкнутой форме, как в наивном байесовском и линейном дискриминантном анализе . $g$ $f(x,y)=P(x,y)$ $-\sum _{i}\log P(x_{i},y_{i}),$ $f$

Обобщения

Существует несколько способов обобщения стандартной проблемы контролируемого обучения:

Полуконтролируемое обучение или слабое наблюдение : желаемые выходные значения предоставляются только для подмножества обучающих данных. Остальные данные не маркированы или маркированы неточно.
Активное обучение : вместо того, чтобы предполагать, что все примеры обучения даны в начале, алгоритмы активного обучения интерактивно собирают новые примеры, как правило, отправляя запросы пользователю-человеку. Часто запросы основаны на немаркированных данных, что является сценарием, который сочетает полуконтролируемое обучение с активным обучением.
Структурированное прогнозирование : когда желаемое выходное значение представляет собой сложный объект, например, дерево синтаксического анализа или маркированный граф, то стандартные методы необходимо расширить.
Обучение ранжированию : когда входные данные представляют собой набор объектов, а желаемый результат — ранжирование этих объектов, то стандартные методы снова должны быть расширены.

Подходы и алгоритмы

Аналитическое обучение
Искусственная нейронная сеть
Обратное распространение
Повышение (мета-алгоритм)
Байесовская статистика
Рассуждение на основе прецедентов
Обучение дереву решений
Индуктивное логическое программирование
Гауссовский процесс регрессии
Генетическое программирование
Групповой метод обработки данных
Оценки ядра
Обучающиеся автоматы
Системы классификаторов обучения
Изучение векторного квантования
Минимальная длина сообщения ( деревья решений , графы решений и т. д.)
Мультилинейное подпространственное обучение
Наивный байесовский классификатор
Классификатор максимальной энтропии
Условное случайное поле
Алгоритм ближайшего соседа
Вероятно, приблизительно правильное обучение (PAC) обучение
Правила распространения информации , методология получения знаний
Символьные алгоритмы машинного обучения
Субсимвольные алгоритмы машинного обучения
Машины опорных векторов
Машины минимальной сложности (MCM)
Случайные леса
Ансамбли классификаторов
Порядковая классификация
Предварительная обработка данных
Обработка несбалансированных наборов данных
Статистическое реляционное обучение
Proaftn , алгоритм многокритериальной классификации

Приложения

Биоинформатика
Хеминформатика
- Количественная связь структуры и активности
Маркетинг баз данных
Распознавание почерка
Поиск информации
- Учимся ранжировать
Извлечение информации
Распознавание объектов в компьютерном зрении
Оптическое распознавание символов
Обнаружение спама
Распознавание образов
Распознавание речи
Контролируемое обучение — это особый случай нисходящей причинно-следственной связи в биологических системах.
Классификация рельефа с использованием спутниковых снимков ^[7]
Классификация расходов в процессах закупок ^[8]

Общие вопросы

Смотрите также

Список наборов данных для исследований машинного обучения

Ссылки

^ Мехрияр Мохри , Афшин Ростамизаде, Амит Талвалкар (2012) Основы машинного обучения , MIT Press ISBN 9780262018258 .
^ S. Geman, E. Bienenstock и R. Doursat (1992). Нейронные сети и дилемма смещения/дисперсии. Neural Computation 4, 1–58.
^ G. James (2003) Дисперсия и смещение для общих функций потерь, Machine Learning 51, 115-135. (http://www-bcf.usc.edu/~gareth/research/bv.pdf)
^ CE Brodely и MA Friedl (1999). Выявление и устранение неправильно маркированных обучающих примеров, Журнал исследований искусственного интеллекта 11, 131-167. (http://jair.org/media/606/live-606-1803-jair.pdf)
^ MR Smith и T. Martinez (2011). «Улучшение точности классификации путем выявления и удаления случаев, которые следует классифицировать неправильно». Труды Международной совместной конференции по нейронным сетям (IJCNN 2011) . стр. 2690–2697. CiteSeerX 10.1.1.221.1371 . doi :10.1109/IJCNN.2011.6033571.
^ Вапник, В. Н. Природа статистической теории обучения (2-е изд.), Springer Verlag, 2000.
^ А. Майти (2016). «Контролируемая классификация поляриметрических данных RADARSAT-2 для различных особенностей суши». arXiv : 1608.00501 [cs.CV].
^ "Ключевые технологии для гибких закупок | Публикации SIPMM". publication.sipmm.edu.sg . 2020-10-09 . Получено 2022-06-16 .

Внешние ссылки

Программное обеспечение с открытым исходным кодом для машинного обучения (MLOSS)