stringtranslate.com

Слабый надзор

Слабое руководство — это парадигма в машинном обучении , актуальность и значимость которой возросли с появлением больших языковых моделей из-за большого объема данных, необходимых для их обучения. Она характеризуется использованием комбинации небольшого объема данных, размеченных человеком (используемых исключительно в более дорогой и трудоемкой парадигме контролируемого обучения ), за которой следует большой объем неразмеченных данных (используемых исключительно в парадигме неконтролируемого обучения ). Другими словами, желаемые выходные значения предоставляются только для подмножества обучающих данных. Остальные данные не размечены или размечены неточно. Интуитивно это можно рассматривать как экзамен, а размеченные данные — как примеры задач, которые учитель решает для класса в качестве помощи в решении другого набора задач. В трансдуктивной установке эти нерешенные задачи выступают в качестве экзаменационных вопросов. В индуктивной установке они становятся практическими задачами того типа, которые составят экзамен. Технически это можно рассматривать как выполнение кластеризации и последующую маркировку кластеров с использованием маркированных данных, отодвигая границу принятия решений от областей с высокой плотностью или изучая базовое одномерное многообразие, в котором находятся данные.

Проблема

Тенденция к задаче использовать контролируемые и неконтролируемые методы. Названия задач, пересекающие границы круга, являются преднамеренными. Это показывает, что классическое разделение творческих задач (слева), использующих неконтролируемые методы, размыто в современных схемах обучения.

Получение маркированных данных для задачи обучения часто требует квалифицированного человеческого агента (например, для расшифровки аудиофрагмента) или физического эксперимента (например, определения трехмерной структуры белка или определения наличия нефти в определенном месте). Таким образом, стоимость, связанная с процессом маркировки, может сделать большие, полностью маркированные обучающие наборы невозможными, тогда как получение немаркированных данных относительно недорого. В таких ситуациях полуконтролируемое обучение может иметь большую практическую ценность. Полуконтролируемое обучение также представляет теоретический интерес для машинного обучения и как модель для обучения человека.

Техника

Пример влияния немаркированных данных в полуконтролируемом обучении. Верхняя панель показывает границу решения, которую мы могли бы принять, увидев только один положительный (белый круг) и один отрицательный (черный круг) пример. Нижняя панель показывает границу решения, которую мы могли бы принять, если бы в дополнение к двум маркированным примерам нам дали набор немаркированных данных (серые круги).

Более формально, полуконтролируемое обучение предполагает, что набор независимо идентично распределенных примеров с соответствующими метками и немаркированными примерами обрабатывается. Полуконтролируемое обучение объединяет эту информацию, чтобы превзойти производительность классификации , которая может быть получена либо путем отбрасывания немаркированных данных и выполнения контролируемого обучения, либо путем отбрасывания меток и выполнения неконтролируемого обучения.

Полуконтролируемое обучение может относиться либо к трансдуктивному обучению , либо к индуктивному обучению . [1] Цель трансдуктивного обучения — вывести правильные метки только для данных немаркированных данных . Цель индуктивного обучения — вывести правильное отображение из в .

Нет необходимости (и, согласно принципу Вапника , неразумно) выполнять трансдуктивное обучение путем выведения правила классификации по всему входному пространству; однако на практике алгоритмы, формально разработанные для трансдукции или индукции, часто используются взаимозаменяемо.

Предположения

Для того, чтобы использовать немаркированные данные, должна существовать некоторая связь с лежащим в основе распределением данных. Алгоритмы полуконтролируемого обучения используют по крайней мере одно из следующих предположений: [2]

Предположение о непрерывности/гладкости

Точки, которые находятся близко друг к другу, с большей вероятностью разделяют метку. Это также обычно предполагается в контролируемом обучении и дает предпочтение геометрически простым границам решений . В случае полуконтролируемого обучения предположение о гладкости дополнительно дает предпочтение границам решений в областях с низкой плотностью, поэтому немногие точки находятся близко друг к другу, но в разных классах. [3]

Кластерное предположение

Данные имеют тенденцию образовывать дискретные кластеры, и точки в одном кластере с большей вероятностью будут иметь общую метку (хотя данные, имеющие общую метку, могут распространяться на несколько кластеров). Это особый случай предположения о гладкости, который приводит к обучению признаков с помощью алгоритмов кластеризации.

Многообразное предположение

Данные лежат приблизительно на многообразии гораздо меньшей размерности, чем входное пространство. В этом случае изучение многообразия с использованием как маркированных, так и немаркированных данных может избежать проклятия размерности . Затем обучение может продолжаться с использованием расстояний и плотностей, определенных на многообразии.

Предположение о многообразии практично, когда многомерные данные генерируются некоторым процессом, который может быть трудно смоделировать напрямую, но который имеет только несколько степеней свободы. Например, человеческий голос контролируется несколькими голосовыми связками, [4] а изображения различных выражений лица контролируются несколькими мышцами. В этих случаях лучше рассматривать расстояния и гладкость в естественном пространстве порождающей проблемы, а не в пространстве всех возможных акустических волн или изображений соответственно.

История

Эвристический подход самообучения ( также известный как самообучение или самомаркировка ) исторически является старейшим подходом к полуконтролируемому обучению [2] , примеры применения которого датируются 1960-ми годами. [5]

Трансдуктивная структура обучения была официально представлена ​​Владимиром Вапником в 1970-х годах. [6] Интерес к индуктивному обучению с использованием генеративных моделей также начался в 1970-х годах. Вероятно, приблизительно правильная граница обучения для полуконтролируемого обучения гауссовой смеси была продемонстрирована Ратсаби и Венкатешем в 1995 году. [7]

Методы

Генеративные модели

Генеративные подходы к статистическому обучению сначала стремятся оценить [ спорныйобсудить ] распределение точек данных, принадлежащих каждому классу. Вероятность того, что данная точка имеет метку , тогда пропорциональна по правилу Байеса . Полуконтролируемое обучение с генеративными моделями можно рассматривать либо как расширение контролируемого обучения (классификация плюс информация о ), либо как расширение неконтролируемого обучения (кластеризация плюс некоторые метки).

Генеративные модели предполагают, что распределения принимают некоторую конкретную форму , параметризованную вектором . Если эти предположения неверны, немаркированные данные могут фактически снизить точность решения относительно того, что было бы получено только из маркированных данных. [8] Однако, если предположения верны, то немаркированные данные обязательно улучшают производительность. [7]

Немаркированные данные распределены в соответствии со смесью распределений отдельных классов. Чтобы узнать распределение смеси из немаркированных данных, оно должно быть идентифицируемым, то есть разные параметры должны давать разные суммарные распределения. Распределения смеси Гаусса идентифицируемы и обычно используются для генеративных моделей.

Параметризованное совместное распределение можно записать как с использованием цепного правила . Каждый вектор параметров связан с функцией решения . Затем параметр выбирается на основе соответствия как маркированным, так и немаркированным данным, взвешенным по :

[9]

Разделение низкой плотности

Другой основной класс методов пытается разместить границы в регионах с небольшим количеством точек данных (помеченных или не помеченных). Одним из наиболее часто используемых алгоритмов является трансдуктивная машина опорных векторов , или TSVM (которая, несмотря на свое название, может использоваться и для индуктивного обучения). В то время как машины опорных векторов для контролируемого обучения ищут границу решения с максимальным запасом по помеченным данным, целью TSVM является маркировка не помеченных данных таким образом, чтобы граница решения имела максимальный запас по всем данным. В дополнение к стандартной потере шарнира для помеченных данных, вводится функция потерь по не помеченным данным, позволяя . Затем TSVM выбирает из воспроизводящего ядра гильбертово пространство, минимизируя регуляризованный эмпирический риск :

Точное решение труднодостижимо из-за невыпуклого члена , поэтому исследования сосредоточены на полезных приближениях. [9]

Другие подходы, реализующие разделение с низкой плотностью, включают модели гауссовских процессов, регуляризацию информации и минимизацию энтропии (частным случаем которой является TSVM).

Лапласовская регуляризация

Лапласовская регуляризация исторически применялась через граф-лапласиан. Графовые методы для полуконтролируемого обучения используют графовое представление данных с узлом для каждого помеченного и не помеченного примера. Граф может быть построен с использованием знания предметной области или сходства примеров; два распространенных метода — соединить каждую точку данных с ее ближайшими соседями или с примерами на некотором расстоянии . Вес ребра между и затем устанавливается равным .

В рамках регуляризации многообразия [10] [11] граф служит в качестве заместителя для многообразия. К стандартной задаче регуляризации Тихонова добавляется член , чтобы обеспечить гладкость решения относительно многообразия (во внутреннем пространстве задачи), а также относительно окружающего входного пространства. Задача минимизации становится

[9]

где — воспроизводящее ядро ​​гильбертово пространство , а — многообразие, на котором лежат данные. Параметры регуляризации и управляют гладкостью в окружающем и внутреннем пространствах соответственно. График используется для аппроксимации внутреннего члена регуляризации. Определяя граф Лапласиан , где и — вектор , имеем

.

Графический подход к регуляризации Лапласа заключается в том, чтобы связать его с методом конечных разностей . [ необходимо разъяснение ] [ необходима ссылка ]

Лапласиан также можно использовать для расширения алгоритмов контролируемого обучения: регуляризованного метода наименьших квадратов и машины опорных векторов (SVM) до полуконтролируемых версий регуляризованного лапласианом метода наименьших квадратов и лапласианской SVM.

Эвристические подходы

Некоторые методы полуконтролируемого обучения не ориентированы на обучение как на немаркированных, так и на маркированных данных, а вместо этого используют немаркированные данные в рамках контролируемого обучения. Например, маркированные и немаркированные примеры могут информировать о выборе представления, метрики расстояния или ядра для данных на первом шаге без учителя. Затем контролируемое обучение исходит только из маркированных примеров. В этом ключе некоторые методы изучают низкоразмерное представление с использованием контролируемых данных, а затем применяют либо разделение с низкой плотностью, либо методы на основе графов к изученному представлению. [12] [13] Итеративное уточнение представления и последующее выполнение полуконтролируемого обучения на указанном представлении может дополнительно повысить производительность.

Самообучение — это метод-оболочка для полуконтролируемого обучения. [14] Сначала контролируемый алгоритм обучения обучается только на основе маркированных данных. Затем этот классификатор применяется к немаркированным данным для генерации большего количества маркированных примеров в качестве входных данных для контролируемого алгоритма обучения. Обычно на каждом шаге добавляются только те метки, в которых классификатор наиболее уверен. [15] При обработке естественного языка распространенным алгоритмом самообучения является алгоритм Яровского для таких задач, как устранение неоднозначности смысла слов, восстановление акцента и исправление орфографии. [16]

Совместное обучение — это расширение самообучения, при котором несколько классификаторов обучаются на разных (в идеале непересекающихся) наборах признаков и генерируют помеченные примеры друг для друга. [17]

В человеческом познании

Человеческие реакции на формальные проблемы полуконтролируемого обучения привели к различным выводам о степени влияния немаркированных данных. [18] Более естественные проблемы обучения также можно рассматривать как примеры полуконтролируемого обучения. Большая часть обучения понятий человека включает в себя небольшое количество прямых инструкций (например, родительское обозначение объектов в детстве) в сочетании с большим количеством немаркированного опыта (например, наблюдение за объектами без их называния или подсчета или, по крайней мере, без обратной связи).

Человеческие младенцы чувствительны к структуре немаркированных естественных категорий, таких как изображения собак и кошек или мужских и женских лиц. [19] Младенцы и дети принимают во внимание не только немаркированные примеры, но и процесс выборки , из которого возникают маркированные примеры. [20] [21]

Смотрите также

Ссылки

  1. ^ Обзор литературы по полуконтролируемому обучению, стр. 5 , 2007, CiteSeerX  10.1.1.99.9681
  2. ^ ab Chapelle, Schölkopf & Zien 2006.
  3. ^ Чавла, Н., Бойер, К., Холл, ЛО, и Кегельмейер, ВП (2002). SMOTE: Метод избыточной выборки синтетического меньшинства. ArXiv, abs/1106.1813.
  4. ^ Стивенс, Кеннет Н. (1998). Акустическая фонетика . Кембридж, Массачусетс: MIT Press. ISBN 0-585-08720-2. OCLC  42856189.
  5. ^ Scudder, H. (июль 1965 г.). «Вероятность ошибки некоторых адаптивных машин распознавания образов». IEEE Transactions on Information Theory . 11 (3): 363–371. doi :10.1109/TIT.1965.1053799. ISSN  1557-9654.
  6. ^ Вапник, В.; Червоненкис, А. (1974). Теория распознавания образов . М.: Наука.цитируется по Chapelle, Schölkopf & Zien 2006, p. 3
  7. ^ ab Ратсаби, Дж.; Венкатеш, С. «Обучение на основе смеси маркированных и немаркированных примеров с параметрической побочной информацией» (PDF) .в Трудах восьмой ежегодной конференции по теории вычислительного обучения - COLT '95 . Нью-Йорк, Нью-Йорк, США: ACM Press. 1995. стр. 412–417. doi :10.1145/225298.225348. ISBN 0-89791-723-5. S2CID  17561403.. Цитируется по Chapelle, Schölkopf & Zien 2006, с. 4
  8. ^ Фабио, Козман; Айра, Коэн (2006-09-22), «Риски полуконтролируемого обучения: как немаркированные данные могут ухудшить производительность генеративных классификаторов», Полуконтролируемое обучение , The MIT Press, стр. 56–72, doi :10.7551/mitpress/9780262033589.003.0004, ISBN 978-0-262-03358-9В: Chapelle, Schölkopf & Zien, 2006 г.
  9. ^ abc Чжу, Сяоцзинь. Полуконтролируемое обучение, Университет Висконсин-Мэдисон.
  10. ^ М. Белкин; П. Ниёги (2004). «Полуконтролируемое обучение на римановых многообразиях». Машинное обучение . 56 (Специальный выпуск по кластеризации): 209–239. doi : 10.1023/b:mach.0000033120.25363.1e .
  11. ^ М. Белкин, П. Ниёги, В. Синдхвани. О регуляризации многообразий. AISTATS 2005.
  12. ^ Исен, Ахмет; Толиас, Гиоргос; Авритис, Яннис; Чум, Ондрей (2019). «Распространение меток для глубокого полуконтролируемого обучения». Конференция IEEE/CVF по компьютерному зрению и распознаванию образов (CVPR) 2019 г. стр. 5065–5074. arXiv : 1904.04717 . doi :10.1109/CVPR.2019.00521. ISBN 978-1-7281-3293-8. S2CID  104291869 . Получено 26 марта 2021 г. .
  13. ^ Burkhart, Michael C.; Shan, Kyle (2020). «Глубокое разделение низкой плотности для полуконтролируемой классификации». Международная конференция по вычислительной науке (ICCS) . Lecture Notes in Computer Science. Vol. 12139. pp. 297–311. arXiv : 2205.11995 . doi : 10.1007/978-3-030-50420-5_22 . ISBN 978-3-030-50419-9.
  14. ^ Тригеро, Исаак; Гарсия, Сальвадор; Эррера, Франциско (2013-11-26). «Самостоятельно маркированные методы полуконтролируемого обучения: таксономия, программное обеспечение и эмпирическое исследование». Knowledge and Information Systems . 42 (2): 245–284. doi :10.1007/s10115-013-0706-y. ISSN  0219-1377. S2CID  1955810.
  15. ^ Фазакис, Никос; Карлос, Стаматис; Коциантис, Сотирис; Сгарбас, Кириакос (29 декабря 2015 г.). «Самообучающийся LMT для обучения с полуконтролем». Вычислительный интеллект и нейронаука . 2016 : 3057481. doi : 10.1155/2016/3057481 . ПМК 4709606 . ПМИД  26839531. 
  16. ^ Yarowsky, David (1995). «Unsupervised Word Sense Disambiguation Rivaled Controlled Methods». Труды 33-го ежегодного собрания Ассоциации компьютерной лингвистики . Кембридж, Массачусетс: Ассоциация компьютерной лингвистики: 189–196. doi : 10.3115/981658.981684 . Получено 1 ноября 2022 г.
  17. ^ Didaci, Luca; Fumera, Giorgio; Roli, Fabio (2012-11-07). Gimel'farb, Georgy; Hancock, Edwin; Imiya, Atsushi; Kuijper, Arjan; Kudo, Mineichi; Omachi, Shinichiro; Windeatt, Terry; Yamada, Keiji (ред.). Анализ алгоритма совместного обучения с очень малыми обучающими наборами . Конспект лекций по информатике. Springer Berlin Heidelberg. стр. 719–726. doi :10.1007/978-3-642-34166-3_79. ISBN 9783642341656. S2CID  46063225.
  18. ^ Чжу, Сяоцзинь (2009). Введение в полуконтролируемое обучение . Голдберг, А. Б. (Эндрю Б.). [Сан-Рафаэль, Калифорния]: Morgan & Claypool Publishers. ISBN 978-1-59829-548-1. OCLC  428541480.
  19. ^ Younger BA; Fearing DD (1999). «Разбор элементов в отдельные категории: изменение в развитии младенческой категоризации». Child Development . 70 (2): 291–303. doi :10.1111/1467-8624.00022.
  20. ^ Xu, F. & Tenenbaum, JB (2007). «Чувствительность к выборке при байесовском обучении словам». Developmental Science . 10 (3): 288–297. CiteSeerX 10.1.1.141.7505 . doi :10.1111/j.1467-7687.2007.00590.x. PMID  17444970. 
  21. ^ Gweon, H., Tenenbaum JB и Schulz LE (2010). «Младенцы рассматривают как выборку, так и процесс выборки в индуктивном обобщении». Proc Natl Acad Sci USA . 107 (20): 9066–71. Bibcode : 2010PNAS..107.9066G. doi : 10.1073 /pnas.1003095107 . PMC 2889113. PMID  20435914. {{cite journal}}: CS1 maint: multiple names: authors list (link)

Источники

Внешние ссылки