Активное обучение (машинное обучение)

Активное обучение — это особый случай машинного обучения , в котором алгоритм обучения может в интерактивном режиме запрашивать пользователя-человека (или какой-либо другой источник информации), чтобы пометить новые точки данных желаемыми результатами. Пользователь-человек должен обладать знаниями/опытом в проблемной области, включая возможность консультироваться/исследовать авторитетные источники, когда это необходимо. ^[1]^[2]^[3] В статистической литературе его иногда также называют оптимальным планом эксперимента . ^[4] Источник информации также называют учителем или оракулом .

Бывают ситуации, когда немаркированных данных много, но маркировка вручную обходится дорого. В таком сценарии алгоритмы обучения могут активно запрашивать у пользователя/учителя метки. Этот тип итеративного контролируемого обучения называется активным обучением. Поскольку примеры выбирает учащийся, количество примеров для изучения концепции часто может быть намного меньше, чем количество, необходимое при обычном обучении с учителем. При таком подходе существует риск того, что алгоритм будет перегружен неинформативными примерами. Последние разработки посвящены многоуровневому активному обучению, ^[5] гибридному активному обучению ^[6] и активному обучению в однопроходном (онлайн) контексте, ^[7] сочетающему концепции из области машинного обучения (например, конфликты и невежество) с помощью адаптивной, поэтапной политики обучения в области онлайн-машинного обучения . Использование активного обучения позволяет ускорить разработку алгоритма машинного обучения, когда для сравнительных обновлений потребуется квантовый или суперкомпьютер. ^[8]

Крупномасштабные проекты активного обучения могут выиграть от краудсорсинговых систем, таких как Amazon Mechanical Turk , которые включают в цикл активного обучения множество людей .

Определения

Пусть $T$ — общий набор всех рассматриваемых данных. Например, в задаче белковой инженерии $T$ будет включать все белки, которые, как известно, обладают определенной интересной активностью, а также все дополнительные белки, которые можно проверить на наличие этой активности.

Во время каждой итерации $i$ , $T$ разбивается на три подмножества

$\mathbf {T} _{K,i}$ : Точки данных, где метка известна .
$\mathbf {T} _{U,i}$ : Точки данных, для которых метка неизвестна .
$\mathbf {T} _{C,i}$ : подмножество $TU,i$ , выбранное для маркировки.

Большинство текущих исследований в области активного обучения связаны с поиском наилучшего метода выбора точек данных для $TC,i$ .

Сценарии

Выборка на основе пула . В этом подходе, который является наиболее известным сценарием, ^[9] алгоритм обучения пытается оценить весь набор данных перед выбором точек данных (экземпляров) для маркировки. Часто он изначально обучается на полностью размеченном подмножестве данных с использованием метода машинного обучения, такого как логистическая регрессия или SVM, который дает вероятности членства в классе для отдельных экземпляров данных. Экземпляры-кандидаты — это те, для которых прогноз наиболее неоднозначен. Экземпляры выбираются из всего пула данных и им присваивается показатель достоверности — показатель того, насколько хорошо учащийся «понимает» данные. Затем система выбирает случаи, в которых она наименее уверена, и запрашивает у учителя метки.
Теоретический недостаток выборки на основе пула заключается в том, что она требует большого объема памяти и, следовательно, ограничена в своих возможностях обработки огромных наборов данных, но на практике фактором, ограничивающим скорость, является то, что преподавателем обычно является (утомляемый) человек-эксперт, который должен им будут платить за их усилия, а не за память компьютера.
Выборочная выборка на основе потоков . Здесь каждый последовательный немаркированный интервал исследуется по одному, при этом машина оценивает информативность каждого элемента по параметрам запроса. Учащийся сам решает, присвоить ли ему метку или запросить у учителя каждую точку данных. В отличие от выборки на основе пула, очевидным недостатком потоковых методов является то, что алгоритм обучения не имеет достаточной информации на ранних этапах процесса, чтобы принять правильное решение о назначении метки или задании преподавателем. максимально эффективно использовать наличие уже размеченных данных. Таким образом, учитель, скорее всего, потратит больше усилий на выдачу меток, чем при использовании пулового подхода.
Синтез запроса на членство : здесь учащийся генерирует синтетические данные из основного естественного распределения. Например, если набор данных представляет собой изображения людей и животных, учащийся может отправить учителю обрезанное изображение ноги и запросить, принадлежит ли этот придаток животному или человеку. Это особенно полезно, если набор данных небольшой. ^[10]
Проблема здесь, как и во всех усилиях по созданию синтетических данных, заключается в обеспечении того, чтобы синтетические данные были согласованы с точки зрения соответствия ограничениям реальных данных. По мере увеличения количества переменных/признаков во входных данных и существования сильных зависимостей между переменными становится все труднее генерировать синтетические данные с достаточной точностью.
Например, чтобы создать синтетический набор данных для значений лабораторных тестов человека, сумма различных компонентов лейкоцитов (лейкоцитов) в дифференциале лейкоцитов должна равняться 100, поскольку числа компонентов на самом деле представляют собой проценты. Аналогично, ферменты аланиновая трансаминаза (АЛТ) и аспартат-трансаминаза (АСТ) измеряют функцию печени (хотя АСТ также вырабатывается и другими тканями, например, легкими, поджелудочной железой). Синтетическая точка данных, при которой АСТ находится на нижней границе нормального диапазона (8- 33 ЕД/л) при уровне АЛТ, в несколько раз превышающем нормальный диапазон (4-35 ЕД/л) у моделируемого хронического больного, было бы физиологически невозможно.

Стратегии запросов

Алгоритмы определения того, какие точки данных следует пометить, можно разделить на несколько различных категорий в зависимости от их назначения: ^[1]

Баланс исследования и эксплуатации : выбор примеров для маркировки рассматривается как дилемма между исследованием и использованием представления пространства данных. Эта стратегия позволяет избежать этого компромисса, моделируя проблему активного обучения как проблему контекстуального бандита. Например, Бунеффуф и др. ^[11] предлагают последовательный алгоритм под названием «Активная выборка Томпсона» (ATS), который в каждом раунде назначает распределение выборки в пуле, выбирает одну точку из этого распределения и запрашивает у оракула метку этой точки выборки.
Ожидаемое изменение модели : отметьте те точки, которые больше всего изменят текущую модель.
Ожидаемое уменьшение ошибок : отметьте те точки, которые в наибольшей степени уменьшат ошибку обобщения модели .
Исследование экспоненциального градиента для активного обучения : ^[12] В этой статье автор предлагает последовательный алгоритм, называемый экспоненциальным градиентом (EG)-активный, который может улучшить любой алгоритм активного обучения путем оптимального случайного исследования.
Случайная выборка: выборка выбирается случайным образом. ^[13]
Выборка по неопределенности : пометьте те точки, для которых текущая модель менее всего уверена в том, какими должны быть правильные выходные данные.
- Выборка по энтропии: формула энтропии используется для каждой выборки, и выборка с самой высокой энтропией считается наименее достоверной. ^[13]
- Маржинальная выборка: выборка с наименьшей разницей между двумя вероятностями самого высокого класса считается наиболее неопределенной. ^[13]
- Наименее уверенная выборка. Выборка с наименьшей наилучшей вероятностью считается наиболее неопределенной. ^[13]
Запрос комитета : различные модели обучаются на текущих размеченных данных и голосуют за выходные данные за неразмеченные данные; обозначьте те пункты, по которым «комитет» не согласен больше всего
Запросы из различных подпространств или разделов : ^[14] Если базовая модель представляет собой лес деревьев, конечные узлы могут представлять (перекрывающиеся) разделы исходного пространства объектов . Это дает возможность выбирать экземпляры из непересекающихся или минимально перекрывающихся разделов для маркировки.
Уменьшение дисперсии : отметьте те точки, которые минимизируют дисперсию выходных данных, которая является одним из компонентов ошибки.
Конформное предсказание : прогнозирует, что новая точка данных будет иметь метку, аналогичную старым точкам данных каким-то определенным образом, а степень сходства в старых примерах используется для оценки достоверности прогноза.^[15]
Несоответствие – сначала самый дальний обход : основным критерием выбора является несоответствие прогноза между текущей моделью и прогнозом ближайшего соседа. Он нацелен на ошибочно предсказанные точки данных. Второй критерий выбора — расстояние до ранее выбранных данных, самый дальний первым. Он направлен на оптимизацию разнообразия выбранных данных. ^[16]
Стратегии маркировки, ориентированные на пользователя. Обучение осуществляется путем применения уменьшения размерности к графикам и цифрам, таким как точечные диаграммы. Затем пользователю предлагается пометить скомпилированные данные (категориальные, числовые, оценки релевантности, связь между двумя экземплярами. ^[17]

Было изучено множество алгоритмов, попадающих в эти категории. ^[1]^[4] Хотя традиционные стратегии AL могут обеспечить выдающуюся производительность, часто бывает сложно заранее предсказать, какая стратегия является наиболее подходящей в конкретной ситуации. В последние годы алгоритмы метаобучения набирают популярность. Некоторые из них были предложены для решения проблемы изучения стратегий AL вместо того, чтобы полагаться на стратегии, разработанные вручную. Тест, который сравнивает «подходы метаобучения к активному обучению» с «традиционным активным обучением, основанным на эвристике», может дать интуитивное представление о том, находится ли «активное обучение» на перепутье ^[18]

Минимальная маргинальная гиперплоскость

Некоторые алгоритмы активного обучения построены на машинах опорных векторов (SVM) и используют структуру SVM, чтобы определить, какие точки данных следует пометить. Такие методы обычно вычисляют границу W $для$ каждого немаркированного элемента данных в $T U,i$ и рассматривают $W$ как $n$ -мерное расстояние от этого элемента данных до разделяющей гиперплоскости.

Методы минимальной маргинальной гиперплоскости предполагают, что данные с наименьшим $W$ — это те, в отношении которых SVM наиболее неопределенен, и поэтому их следует поместить в $TC,i$ для маркировки. Другие подобные методы , такие как «Максимальная маргинальная гиперплоскость», выбирают данные с наибольшим $W.$ Методы компромисса выбирают сочетание наименьшего и наибольшего $W$ .

Смотрите также

Литература

Балкан, Мария-Флорина и Ханнеке, Стив и Вортман, Дженнифер. (2008). Истинная выборочная сложность активного обучения. 45-56. https://link.springer.com/article/10.1007/s10994-010-5174-y
Активное обучение и байесовская оптимизация : единая перспектива обучения с целью, Франческо Ди Фиоре, Микела Нарделли, Лаура Майнини, https://arxiv.org/abs/2303.01560v2
Научимся активному обучению: подход к обучению с глубоким подкреплением, Мэн Фан, Юань Ли, Тревор Кон, https://arxiv.org/abs/1708.02383v1