stringtranslate.com

Слабый надзор

Слабое супервизирование — парадигма в машинном обучении , актуальность и заметность которой возросли с появлением больших языковых моделей из-за большого объёма данных, необходимых для их обучения. Он характеризуется использованием комбинации небольшого количества данных, размеченных человеком (используемых исключительно в более дорогой и трудоемкой парадигме обучения с учителем ), за которым следует большой объем немаркированных данных (используемых исключительно в парадигме обучения без учителя ). Другими словами, желаемые выходные значения предоставляются только для подмножества обучающих данных. Остальные данные не помечены или помечены неточно. Интуитивно это можно рассматривать как экзамен, а данные помечать как примеры задач, которые учитель решает для класса в качестве помощи в решении другого набора задач. В трансдуктивной обстановке эти нерешенные проблемы действуют как экзаменационные вопросы. В индуктивной обстановке они превращаются в практические задачи, подобные экзамену. Технически это можно рассматривать как выполнение кластеризации с последующей маркировкой кластеров помеченными данными, отодвигание границы принятия решения от областей с высокой плотностью или изучение базового одномерного многообразия, в котором находятся данные.

Проблема

Тенденция к использованию в задаче контролируемых и неконтролируемых методов. Названия задач, выходящие за границы круга, созданы намеренно. Это показывает, что классическое разделение творческих задач (слева) с использованием неконтролируемых методов размыто в современных схемах обучения.

Для получения размеченных данных для задачи обучения часто требуется квалифицированный человек (например, для расшифровки аудиосегмента) или физический эксперимент (например, определение трехмерной структуры белка или определение наличия масла в определенном месте). Таким образом, стоимость, связанная с процессом маркировки, может сделать невозможным создание больших, полностью маркированных обучающих наборов, тогда как получение немаркированных данных обходится относительно недорого. В таких ситуациях полуконтролируемое обучение может иметь большую практическую ценность. Обучение с полуконтролем также представляет теоретический интерес в машинном обучении и в качестве модели человеческого обучения.

Техника

Пример влияния немаркированных данных при полуконтролируемом обучении. На верхней панели показаны границы решения, которые мы могли бы принять, увидев только один положительный (белый кружок) и один отрицательный (черный кружок) примеры. На нижней панели показана граница решения, которую мы могли бы принять, если бы в дополнение к двум помеченным примерам нам был предоставлен набор неразмеченных данных (серые кружки).

Более формально, полу-контролируемое обучение предполагает обработку набора независимо одинаково распределенных примеров с соответствующими метками и немаркированных примеров . Полуконтролируемое обучение объединяет эту информацию, чтобы превзойти эффективность классификации , которую можно получить либо путем отбрасывания немаркированных данных и выполнения контролируемого обучения, либо путем отказа от меток и выполнения неконтролируемого обучения.

Обучение с полуконтролем может относиться либо к трансдуктивному обучению , либо к индуктивному обучению . [1] Цель трансдуктивного обучения — найти правильные метки только для данных немаркированных данных. Цель индуктивного обучения — вывести правильное отображение от до .

Нет необходимости (и, согласно принципу Вапника , неосмотрительно) выполнять трансдуктивное обучение путем вывода правила классификации по всему входному пространству; однако на практике алгоритмы, формально разработанные для трансдукции или индукции, часто используются как взаимозаменяемые.

Предположения

Чтобы можно было использовать немаркированные данные, должна существовать некоторая связь с основным распределением данных. Алгоритмы полуконтролируемого обучения используют по крайней мере одно из следующих допущений: [2]

Предположение непрерывности/гладкости

Точки, расположенные близко друг к другу, с большей вероятностью будут иметь одну и ту же метку. Это также обычно предполагается при обучении с учителем и дает предпочтение геометрически простым границам решений . В случае полуконтролируемого обучения предположение о гладкости дополнительно дает предпочтение границам решений в регионах с низкой плотностью, поэтому несколько точек находятся близко друг к другу, но в разных классах. [3]

Кластерное предположение

Данные имеют тенденцию образовывать дискретные кластеры, и точки в одном кластере с большей вероятностью будут иметь общую метку (хотя данные, имеющие общую метку, могут распространяться по нескольким кластерам). Это частный случай предположения о гладкости, который приводит к обучению признаков с помощью алгоритмов кластеризации.

Многообразное предположение

Данные лежат приблизительно на многообразии гораздо меньшей размерности, чем входное пространство. В этом случае изучение многообразия с использованием как размеченных, так и неразмеченных данных может избежать проклятия размерности . Затем обучение может продолжиться с использованием расстояний и плотностей, определенных на многообразии.

Предположение о многообразии практично, когда многомерные данные генерируются каким-либо процессом, который сложно смоделировать напрямую, но который имеет лишь несколько степеней свободы. Например, человеческий голос контролируется несколькими голосовыми связками [4] , а изображения различных выражений лица контролируются несколькими мышцами. В этих случаях расстояния и гладкость лучше рассматривать в естественном пространстве порождающей задачи, а не в пространстве всех возможных акустических волн или изображений соответственно.

История

Эвристический подход самообучения (также известный как самообучение или самомаркировка ) исторически является старейшим подходом к полуконтролируемому обучению [2] , примеры его применения начались в 1960-х годах. [5]

Трансдуктивная система обучения была официально представлена ​​Владимиром Вапником в 1970-х годах. [6] Интерес к индуктивному обучению с использованием генеративных моделей также возник в 1970-х годах. Вероятно, приблизительно правильное обучение для полуконтролируемого обучения гауссовской смеси было продемонстрировано Рацаби и Венкатешем в 1995 году. [7]

Методы

Генеративные модели

Генеративные подходы к статистическому обучению в первую очередь направлены на оценку , [ оспаривается ] распределение точек данных, принадлежащих к каждому классу. Тогда вероятность того, что данная точка имеет метку, пропорциональна по правилу Байеса . Обучение с полуконтролем с помощью генеративных моделей можно рассматривать либо как расширение обучения с учителем (классификация плюс информация о ), либо как расширение обучения без учителя (кластеризация плюс некоторые метки).

Генеративные модели предполагают, что распределения принимают некоторую конкретную форму , параметризованную вектором . Если эти предположения неверны, неразмеченные данные могут фактически снизить точность решения по сравнению с тем, что было бы получено только из размеченных данных. [8] Однако, если предположения верны, то немаркированные данные обязательно улучшат производительность. [7]

Немаркированные данные распределяются в соответствии со смесью распределений отдельных классов. Чтобы узнать распределение смеси по немаркированным данным, оно должно быть идентифицируемым, то есть разные параметры должны давать разные суммарные распределения. Распределения гауссовской смеси легко идентифицировать и обычно используются для генеративных моделей.

Параметризованное совместное распределение можно записать, используя правило цепочки . Каждый вектор параметров связан с функцией решения . Затем параметр выбирается на основе соответствия как помеченным, так и неразмеченным данным с весом :

[9]

Сепарация низкой плотности

Другой основной класс методов пытается разместить границы в регионах с небольшим количеством точек данных (помеченных или неразмеченных). Одним из наиболее часто используемых алгоритмов является трансдуктивная машина опорных векторов , или TSVM (которая, несмотря на свое название, также может использоваться для индуктивного обучения). В то время как машины опорных векторов для контролируемого обучения ищут границу решения с максимальным запасом по помеченным данным, целью TSVM является маркировка немаркированных данных так, чтобы граница решения имела максимальный запас по всем данным. В дополнение к стандартным потерям шарнира для помеченных данных, функция потерь вводится для неразмеченных данных, позволяя . Затем TSVM выбирает из воспроизводящего ядра гильбертова пространства , минимизируя регуляризованный эмпирический риск :

Точное решение трудно найти из-за невыпуклости члена , поэтому исследования сосредоточены на полезных приближениях. [9]

Другие подходы, реализующие разделение с низкой плотностью, включают модели гауссовских процессов, регуляризацию информации и минимизацию энтропии (особым случаем которых является TSVM).

Лапласова регуляризация

К регуляризации Лапласа исторически подходили через граф-лапласиан. Методы на основе графов для полуконтролируемого обучения используют графовое представление данных с узлом для каждого помеченного и неразмеченного примера. Граф может быть построен с использованием знаний предметной области или подобия примеров; Два распространенных метода — соединить каждую точку данных с ее ближайшими соседями или с примерами, находящимися на некотором расстоянии . Затем вес ребра между и устанавливается равным .

В рамках регуляризации многообразия [10] [11] граф служит заместителем многообразия. К стандартной задаче регуляризации Тихонова добавляется термин , обеспечивающий гладкость решения относительно многообразия (во внутреннем пространстве задачи), а также относительно окружающего входного пространства. Задача минимизации становится

[9]

где – гильбертово пространство с воспроизводящим ядром, а – многообразие, на котором лежат данные. Параметры регуляризации и гладкость управления в окружающем и внутреннем пространствах соответственно. График используется для аппроксимации внутреннего члена регуляризации. Определив лапласиан графа, где и - вектор , мы имеем

.

Основанный на графах подход к регуляризации Лапласа должен быть сопоставлен с методом конечных разностей . [ нужны разъяснения ] [ нужна ссылка ]

Лапласиан также можно использовать для расширения алгоритмов обучения с учителем: регуляризованных методов наименьших квадратов и машин опорных векторов (SVM) до полуконтролируемых версий регуляризованных наименьших квадратов Лапласа и лапласианских SVM.

Эвристические подходы

Некоторые методы полуконтролируемого обучения по своей сути не предназначены для обучения как на немаркированных, так и на маркированных данных, а вместо этого используют немаркированные данные в рамках контролируемого обучения. Например, помеченные и неразмеченные примеры могут служить основой для выбора представления, метрики расстояния или ядра для данных на неконтролируемом первом этапе. Тогда обучение с учителем происходит только на отмеченных примерах. В этом ключе некоторые методы изучают низкоразмерное представление с использованием контролируемых данных, а затем применяют к изученному представлению либо разделение с низкой плотностью, либо методы на основе графов. [12] [13] Итеративное уточнение представления и последующее полуконтролируемое обучение указанного представления могут еще больше повысить производительность.

Самообучение — это метод-оболочка полуконтролируемого обучения. [14] Сначала алгоритм контролируемого обучения обучается только на основе помеченных данных. Затем этот классификатор применяется к немаркированным данным для создания большего количества помеченных примеров в качестве входных данных для алгоритма обучения с учителем. Обычно на каждом этапе добавляются только те метки, в которых классификатор наиболее уверен. [15] При обработке естественного языка распространенным алгоритмом самообучения является алгоритм Яровского для решения таких задач, как устранение неоднозначности смысла слов, восстановление акцента и исправление правописания. [16]

Совместное обучение — это расширение самообучения, при котором несколько классификаторов обучаются на разных (в идеале непересекающихся) наборах функций и генерируют помеченные примеры друг для друга. [17]

В человеческом познании

Реакция человека на формальные проблемы обучения с полуконтролем привела к различным выводам о степени влияния немаркированных данных. [18] Более естественные проблемы обучения также можно рассматривать как примеры обучения под учителем. Большая часть обучения человеческим понятиям включает в себя небольшое количество прямых инструкций (например, навешивание родительскими ярлыками объектов в детстве) в сочетании с большим объемом немаркированного опыта (например, наблюдение за объектами без их называния или подсчета или, по крайней мере, без обратной связи).

Человеческие младенцы чувствительны к структуре немаркированных природных категорий, таких как изображения собак и кошек или мужских и женских лиц. [19] Младенцы и дети принимают во внимание не только немаркированные примеры, но и процесс отбора проб , в результате которого возникают маркированные примеры. [20] [21]

Смотрите также

Рекомендации

  1. ^ Обзор литературы по полуконтролируемому обучению, страница 5 , 2007, CiteSeerX  10.1.1.99.9681
  2. ^ ab Chapelle, Schölkopf & Zien 2006.
  3. ^ Чавла, Н., Бойер, К., Холл, ЛО, и Кегельмейер, WP (2002). SMOTE: Техника избыточной выборки синтетического меньшинства. ArXiv, абс/1106.1813.
  4. ^ Стивенс, Кеннет Н. (1998). Акустическая фонетика . Кембридж, Массачусетс: MIT Press. ISBN 0-585-08720-2. ОСЛК  42856189.
  5. ^ Скаддер, Х. (июль 1965 г.). «Вероятность ошибки некоторых адаптивных машин распознавания образов». Транзакции IEEE по теории информации . 11 (3): 363–371. дои : 10.1109/TIT.1965.1053799. ISSN  1557-9654.
  6. ^ Вапник, В.; Червоненкис, А. (1974). Теория распознавания образов . Москва: Наука.цитируется по Chapelle, Schölkopf & Zien 2006, p. 3
  7. ^ аб Рэтсаби, Дж.; Венкатеш, С. «Обучение на смеси помеченных и немаркированных примеров с параметрической дополнительной информацией» (PDF) .в материалах восьмой ежегодной конференции по теории вычислительного обучения - COLT '95 . Нью-Йорк, Нью-Йорк, США: ACM Press. 1995. стр. 412–417. дои : 10.1145/225298.225348. ISBN 0-89791-723-5. S2CID  17561403.. Цитируется по Chapelle, Schölkopf & Zien 2006, с. 4
  8. ^ Фабио, Козман; Ира, Коэн (22 сентября 2006 г.), «Риски полуконтролируемого обучения: как немаркированные данные могут ухудшить производительность генеративных классификаторов», Полуконтролируемое обучение , MIT Press, стр. 56–72, doi : 10.7551/mitpress /9780262033589.003.0004, ISBN 978-0-262-03358-9В: Chapelle, Schölkopf & Zien, 2006 г.
  9. ^ abc Чжу, Сяоцзинь. Университет полуконтролируемого обучения Висконсин-Мэдисон.
  10. ^ М. Белкин; П. Нийоги (2004). «Полуконтролируемое обучение на римановых многообразиях». Машинное обучение . 56 (Специальный выпуск по кластеризации): 209–239. doi : 10.1023/b:mach.0000033120.25363.1e .
  11. ^ М. Белкин, П. Нийоги, В. Синдхвани. О регуляризации многообразий. АЙСТАТС 2005.
  12. ^ Искен, Ахмет; Толиас, Гиоргос; Авритис, Яннис; Чум, Ондрей (2019). «Распространение меток для глубокого полуконтролируемого обучения». Конференция IEEE/CVF 2019 по компьютерному зрению и распознаванию образов (CVPR) . стр. 5065–5074. arXiv : 1904.04717 . дои : 10.1109/CVPR.2019.00521. ISBN 978-1-7281-3293-8. S2CID  104291869 . Проверено 26 марта 2021 г.
  13. ^ Беркхарт, Майкл С.; Шан, Кайл (2020). «Глубокое разделение низкой плотности для полуконтролируемой классификации». Международная конференция по вычислительной науке (ICCS) . Конспекты лекций по информатике. 12139 : 297–311. arXiv : 2205.11995 . дои : 10.1007/978-3-030-50420-5_22 . ISBN 978-3-030-50419-9.
  14. ^ Тригеро, Исаак; Гарсия, Сальвадор; Эррера, Франциско (26 ноября 2013 г.). «Самомаркированные методы обучения с полуконтролем: таксономия, программное обеспечение и эмпирическое исследование». Знания и информационные системы . 42 (2): 245–284. дои : 10.1007/s10115-013-0706-y. ISSN  0219-1377. S2CID  1955810.
  15. ^ Фазакис, Никос; Карлос, Стаматис; Коциантис, Сотирис; Сгарбас, Кириакос (29 декабря 2015 г.). «Самообучающийся LMT для обучения с полуконтролем». Вычислительный интеллект и нейронаука . 2016 : 3057481. doi : 10.1155/2016/3057481 . ПМК 4709606 . ПМИД  26839531. 
  16. ^ Яровский, Дэвид (1995). «Неконтролируемое устранение смысловой неоднозначности, конкурирующее с контролируемыми методами». Материалы 33-го ежегодного собрания Ассоциации компьютерной лингвистики . Кембридж, Массачусетс: Ассоциация компьютерной лингвистики: 189–196. дои : 10.3115/981658.981684 . Проверено 1 ноября 2022 г.
  17. ^ Дидачи, Лука; Фумера, Джорджио; Роли, Фабио (07 ноября 2012 г.). Гимельфарб, Георгий; Хэнкок, Эдвин; Имия, Ацуши; Куйпер, Арьян; Кудо, Минеичи; Омати, Шиничиро; Виндетт, Терри; Ямада, Кейджи (ред.). Анализ алгоритма совместного обучения с очень маленькими обучающими наборами . Конспекты лекций по информатике. Шпрингер Берлин Гейдельберг. стр. 719–726. дои : 10.1007/978-3-642-34166-3_79. ISBN 9783642341656. S2CID  46063225.
  18. ^ Чжу, Сяоцзинь (2009). Введение в полуконтролируемое обучение . Гольдберг, AB (Эндрю Б.). [Сан-Рафаэль, Калифорния]: Morgan & Claypool Publishers. ISBN 978-1-59829-548-1. ОСЛК  428541480.
  19. ^ Младший бакалавр; Боясь ДД (1999). «Разбор предметов на отдельные категории: изменения в классификации младенцев в процессе развития». Развитие ребенка . 70 (2): 291–303. дои : 10.1111/1467-8624.00022.
  20. ^ Сюй, Ф. и Тененбаум, Дж.Б. (2007). «Чувствительность к выборке при байесовском изучении слов». Наука развития . 10 (3): 288–297. CiteSeerX 10.1.1.141.7505 . дои : 10.1111/j.1467-7687.2007.00590.x. ПМИД  17444970. 
  21. ^ Гвеон, Х., Тененбаум Дж.Б. и Шульц Л.Е. (2010). «Младенцы учитывают как образец, так и процесс выборки при индуктивном обобщении». Proc Natl Acad Sci США . 107 (20): 9066–71. Бибкод : 2010PNAS..107.9066G. дои : 10.1073/pnas.1003095107 . ПМЦ 2889113 . ПМИД  20435914. {{cite journal}}: CS1 maint: multiple names: authors list (link)

Источники

Внешние ссылки