Самостоятельное обучение

Самообучение с самоконтролем ( SSL ) — это парадигма в машинном обучении , где модель обучается на задаче, используя сами данные для генерации контрольных сигналов, а не полагаясь на внешние метки, предоставленные людьми. В контексте нейронных сетей самообучение направлено на использование внутренних структур или отношений во входных данных для создания значимых обучающих сигналов. Задачи SSL разработаны таким образом, что для их решения требуется фиксация существенных особенностей или отношений в данных. Входные данные обычно дополняются или преобразуются таким образом, что создаются пары связанных образцов. Один образец служит входом, а другой используется для формулирования контрольного сигнала. Это дополнение может включать введение шума, обрезку, поворот или другие преобразования. Самообучение более точно имитирует способ, которым люди учатся классифицировать объекты. ^[1]

Типичный метод SSL основан на искусственной нейронной сети или другой модели, такой как список решений . ^[2] Модель обучается в два этапа. Во-первых, задача решается на основе вспомогательной или претекстовой задачи классификации с использованием псевдометок, которые помогают инициализировать параметры модели. ^[3]^[4] Во-вторых, фактическая задача выполняется с контролируемым или неконтролируемым обучением. ^[5]^[6]^[7] Другие вспомогательные задачи включают завершение шаблона из замаскированных входных шаблонов (молчаливые паузы в речи или части изображения, замаскированные черным).

Самостоятельное обучение дало многообещающие результаты в последние годы и нашло практическое применение в обработке звука , а также используется Facebook и другими для распознавания речи . ^[8]

Типы

Автоассоциативное самоконтролируемое обучение

Автоассоциативное самоконтролируемое обучение — это особая категория самоконтролируемого обучения, при котором нейронная сеть обучается воспроизводить или реконструировать свои собственные входные данные. ^[9] Другими словами, модель должна изучить представление данных, которое фиксирует их основные характеристики или структуру, что позволяет ей регенерировать исходные входные данные.

Термин «автоассоциативный» происходит от того факта, что модель по сути ассоциирует входные данные с собой. Это часто достигается с помощью автоэнкодеров , которые являются типом архитектуры нейронной сети, используемой для обучения представлению. Автоэнкодеры состоят из сети кодировщика, которая отображает входные данные в представление меньшей размерности (латентное пространство), и сети декодера, которая реконструирует входные данные из этого представления.

Процесс обучения включает в себя предоставление модели входных данных и требование к ней реконструировать те же данные как можно точнее. Функция потерь, используемая во время обучения, обычно штрафует разницу между исходным входом и реконструированным выходом. Минимизируя эту ошибку реконструкции, автоэнкодер изучает осмысленное представление данных в своем скрытом пространстве.

Контрастное самоконтролируемое обучение

Для задачи бинарной классификации обучающие данные можно разделить на положительные примеры и отрицательные примеры. Положительные примеры — это те, которые соответствуют цели. Например, если вы учитесь определять птиц, положительными обучающими данными будут те изображения, на которых изображены птицы. Отрицательными примерами — это те, на которых их нет. ^[10] Контрастное самоконтролируемое обучение использует как положительные, так и отрицательные примеры. Функция потерь контрастного обучения минимизирует расстояние между положительными парами образцов, максимизируя расстояние между отрицательными парами образцов. ^[10]

Ранний пример использует пару одномерных сверточных нейронных сетей для обработки пары изображений и максимизации их соответствия. ^[11]

Контрастное предварительное обучение языка и изображения позволяет проводить совместное предварительное обучение текстового кодировщика и кодировщика изображения таким образом, чтобы совпадающая пара изображение-текст имела вектор кодирования изображения и вектор кодирования текста, охватывающие небольшой угол (имеющий большое косинусное сходство).

InfoNCE (Noise-Contrastive Estimation) ^[12] — это метод совместной оптимизации двух моделей на основе Noise Contrastive Estimation (NCE). ^[13] При наличии набора случайных выборок, содержащих одну положительную выборку из распределения «предложения» и одну отрицательную выборку , он минимизирует следующую функцию потерь: $X=\left\{x_{1},\ldots x_{N}\right\}$ $N$ $p\left(x_{t+k}\mid c_{t}\right)$ $N-1$ $p\left(x_{t+k}\right)$ ${\mathcal {L}}_{\mathrm {N} }=-\mathbb {E} _{X}\left[\log {\frac {f_{k}\left(x_{t+k},c_{t}\right)}{\sum _{x_{j}\in X}f_{k}\left(x_{j},c_{t}\right)}}\right]$

Неконтрастное самоконтролируемое обучение

Неконтрастное самоконтролируемое обучение (NCSSL) использует только положительные примеры. Вопреки здравому смыслу, NCSSL сходится к полезному локальному минимуму, а не достигает тривиального решения с нулевыми потерями. Для примера бинарной классификации он бы тривиально научился классифицировать каждый пример как положительный. Эффективный NCSSL требует дополнительного предиктора на стороне онлайн, который не осуществляет обратное распространение на целевой стороне. ^[10]

Сравнение с другими формами машинного обучения

SSL относится к контролируемым методам обучения, поскольку его цель — сгенерировать классифицированный вывод из ввода. В то же время, однако, он не требует явного использования маркированных пар ввода-вывода. Вместо этого корреляции, метаданные, встроенные в данные, или знания предметной области, присутствующие во вводе, неявно и автономно извлекаются из данных. Эти контролируемые сигналы, сгенерированные из данных, затем могут использоваться для обучения. ^[1]

SSL похож на неконтролируемое обучение в том, что не требует меток в данных выборки. Однако, в отличие от неконтролируемого обучения, обучение не осуществляется с использованием внутренних структур данных.

Полуконтролируемое обучение сочетает контролируемое и неконтролируемое обучение, требуя, чтобы была размечена лишь небольшая часть обучающих данных . ^[4]

При трансферном обучении модель, разработанная для одной задачи, повторно используется для другой задачи. ^[14]

Обучение автокодировщика по сути представляет собой самоконтролируемый процесс, поскольку выходной шаблон должен стать оптимальной реконструкцией самого входного шаблона. Однако в современном жаргоне термин «самоконтролируемый» стал ассоциироваться с задачами классификации, которые основаны на настройке обучения предтекстовой задачи. Это подразумевает (человеческое) проектирование такой предтекстовой задачи(-ок), в отличие от случая полностью автономного обучения автокодировщика. ^[9]

В обучении с подкреплением самоконтролируемое обучение на основе комбинации потерь может создавать абстрактные представления, в которых в сжатом виде хранится только самая важная информация о состоянии. ^[15]

Примеры

Самообучающееся обучение особенно подходит для распознавания речи. Например, Facebook разработал wav2vec , самообучающийся алгоритм, для выполнения распознавания речи с использованием двух глубоких сверточных нейронных сетей , которые строятся друг на друге. ^[8]

Модель Google Bidirectional Encoder Representations from Transformers (BERT) используется для лучшего понимания контекста поисковых запросов. ^[16]

GPT-3 от OpenAI — это авторегрессивная языковая модель , которая может использоваться в языковой обработке. Она может использоваться для перевода текстов или ответов на вопросы, среди прочего. ^[17]

Bootstrap Your Own Latent (BYOL) — это NCSSL, показавший превосходные результаты на ImageNet , а также на тестах передачи и полуконтролируемого тестирования. ^[18]

Алгоритм Яровского является примером самоконтролируемого обучения в обработке естественного языка . Из небольшого количества помеченных примеров он учится предсказывать, какое значение многозначного слова используется в заданном месте текста.

DirectPred — это NCSSL, который напрямую устанавливает веса предиктора, а не изучает его с помощью обновления градиента . ^[10]

Self-GenomeNet — пример самоконтролируемого обучения в геномике. ^[19]

Ссылки

^ ab Bouchard, Louis (25 ноября 2020 г.). «Что такое самоконтролируемое обучение? | Смогут ли машины когда-нибудь учиться, как люди?». Medium . Получено 9 июня 2021 г. .
^ Yarowsky, David (1995). «Unsupervised Word Sense Disambiguation Rivaled Controlled Methods». Труды 33-го ежегодного собрания Ассоциации компьютерной лингвистики . Кембридж, Массачусетс: Ассоциация компьютерной лингвистики: 189–196. doi : 10.3115/981658.981684 . Получено 1 ноября 2022 г.
^ Doersch, Carl; Zisserman, Andrew (октябрь 2017 г.). «Многозадачное самостоятельное визуальное обучение». Международная конференция IEEE по компьютерному зрению (ICCV) 2017 г. IEEE. стр. 2070–2079. arXiv : 1708.07860 . doi :10.1109/iccv.2017.226. ISBN 978-1-5386-1032-9. S2CID 473729.
^ ab Бейер, Лукас; Чжай, Сяохуа; Оливер, Авиталь; Колесников, Александр (октябрь 2019 г.). "S4L: Самоконтролируемое полуконтролируемое обучение". Международная конференция IEEE/CVF по компьютерному зрению (ICCV) 2019 г. IEEE. стр. 1476–1485. arXiv : 1905.03670 . doi :10.1109/iccv.2019.00156. ISBN 978-1-7281-4803-8. S2CID 167209887.
^ Doersch, Carl; Gupta, Abhinav; Efros, Alexei A. (декабрь 2015 г.). «Неконтролируемое обучение визуальному представлению с помощью прогнозирования контекста». Международная конференция IEEE по компьютерному зрению (ICCV) 2015 г. IEEE. стр. 1422–1430. arXiv : 1505.05192 . doi :10.1109/iccv.2015.167. ISBN 978-1-4673-8391-2. S2CID 9062671.
^ Чжэн, Синь; Ван, Юн; Ван, Гою; Лю, Цзяньго (апрель 2018 г.). «Быстрая и надежная сегментация изображений белых кровяных клеток с помощью самоконтролируемого обучения». Micron . 107 : 55–71. doi :10.1016/j.micron.2018.01.010. ISSN 0968-4328. PMID 29425969. S2CID 3796689.
^ Гидарис, Спирос; Бурсук, Андрей; Комодакис, Никос; Перес, Патрик Перес; Корд, Матье (октябрь 2019 г.). «Усиление визуального обучения с малым количеством снимков с помощью самоконтроля». Международная конференция IEEE/CVF по компьютерному зрению (ICCV) 2019 г. IEEE. стр. 8058–8067. arXiv : 1906.05186 . doi :10.1109/iccv.2019.00815. ISBN 978-1-7281-4803-8. S2CID 186206588.
^ ab "Wav2vec: современное распознавание речи с помощью самоконтроля". ai.facebook.com . Получено 9 июня 2021 г. .
^ ab Kramer, Mark A. (1991). "Нелинейный главный компонентный анализ с использованием автоассоциативных нейронных сетей" (PDF) . Журнал AIChE . 37 (2): 233–243. Bibcode :1991AIChE..37..233K. doi :10.1002/aic.690370209.
^ abcd «Демистификация ключевой методики самостоятельного обучения: неконтрастное обучение». ai.facebook.com . Получено 5 октября 2021 г. .
^ Беккер, Сюзанна; Хинтон, Джеффри Э. (январь 1992 г.). «Самоорганизующаяся нейронная сеть, которая обнаруживает поверхности в стереограммах со случайными точками». Nature . 355 (6356): 161–163. Bibcode :1992Natur.355..161B. doi :10.1038/355161a0. ISSN 1476-4687.
^ Oord, Aaron van den; Li, Yazhe; Vinyals, Oriol (22 января 2019 г.), Representation Learning with Contrastive Predictive Coding, arXiv : 1807.03748 , получено 16 октября 2024 г.
^ Гутманн, Михаэль; Хювяринен, Аапо (31 марта 2010 г.). «Оценка контрастности шума: новый принцип оценки для ненормализованных статистических моделей». Труды Тринадцатой международной конференции по искусственному интеллекту и статистике . Труды семинара и конференции JMLR: 297–304.
^ Литтвин, Этай; Вольф, Лиор (июнь 2016 г.). «Потери мультивселенной для надежного переноса обучения». Конференция IEEE 2016 г. по компьютерному зрению и распознаванию образов (CVPR) . IEEE. стр. 3957–3966. arXiv : 1511.09033 . doi : 10.1109/cvpr.2016.429. ISBN 978-1-4673-8851-1. S2CID 6517610.
^ Франсуа-Лаве, Венсан; Бенжио, Йошуа; Прекап, Дойна; Пино, Жоэль (2019). «Комбинированное обучение с подкреплением через абстрактные представления». Труды конференции AAAI по искусственному интеллекту . arXiv : 1809.04506 .
^ "Open Sourcing BERT: современное предварительное обучение для обработки естественного языка". Блог Google AI . 2 ноября 2018 г. Получено 9 июня 2021 г.
^ Уилкокс, Итан; Цянь, Пэн; Футрелл, Ричард; Кохита, Рёсукэ; Леви, Роджер; Баллестерос, Мигель (2020). «Структурный надзор улучшает быстрое обучение и синтаксическое обобщение в нейронных языковых моделях». Труды конференции 2020 года по эмпирическим методам в обработке естественного языка (EMNLP) . Страудсбург, Пенсильвания, США: Ассоциация компьютерной лингвистики. стр. 4640–4652. arXiv : 2010.05725 . doi : 10.18653/v1/2020.emnlp-main.375. S2CID 222291675.
^ Гриль, Жан-Бастьен; Струб, Флориан; Альче, Флоран; Таллек, Корантен; Ричмонд, Пьер Х.; Бучацкая Елена; Дорш, Карл; Пирес, Бернардо Авила; Го, Чжаохан Даниэль; Азар, Мохаммад Гешлаги; Пиот, Билал (10 сентября 2020 г.). «Загрузите свое собственное скрытое: новый подход к самостоятельному обучению». arXiv : 2006.07733 [cs.LG].
^ Гюндюз, Хусейн Анил; Биндер, Мартин; То, Сяо-Инь; Мречес, Рене; Бишль, Бернд; Макхарди, Элис К.; Мюнх, Филипп К.; Резаи, Мина (11 сентября 2023 г.). «Метод глубокого обучения с самоконтролем для эффективного обучения с использованием данных в геномике». Communications Biology . 6 (1): 928. doi : 10.1038/s42003-023-05310-2 . ISSN 2399-3642. PMC 10495322 . PMID 37696966.

Дальнейшее чтение

Балестриеро, Рэндалл; Ибрагим, Марк; Собаль, Влад; Моркос, Ари; Шекхар, Шашанк; Гольдштейн, Том; Бордес, Флориан; Бардес, Адриан; Миалон, Грегуар; Тянь, Юаньдун; Шварцшильд, Ави; Уилсон, Эндрю Гордон; Гейпинг, Йонас; Гарридо, Квентин; Фернандес, Пьер (24 апреля 2023 г.). «Поваренная книга самостоятельного обучения». arXiv : 2304.12210 [cs.LG].

Внешние ссылки

Doersch, Carl; Zisserman, Andrew (октябрь 2017 г.). «Многозадачное самостоятельное визуальное обучение». Международная конференция IEEE по компьютерному зрению (ICCV) 2017 г. . стр. 2070–2079. arXiv : 1708.07860 . doi :10.1109/ICCV.2017.226. ISBN 978-1-5386-1032-9. S2CID 473729.
Дорш, Карл; Гупта, Абхинав; Эфрос, Алексей А. (декабрь 2015 г.). «Обучение визуальному представлению без учителя посредством прогнозирования контекста». Международная конференция IEEE по компьютерному зрению (ICCV) , 2015 г. стр. 1422–1430. arXiv : 1505.05192 . дои : 10.1109/ICCV.2015.167. ISBN 978-1-4673-8391-2. S2CID 9062671.
Чжэн, Синь; Ван, Юн; Ван, Гою; Лю, Цзяньго (1 апреля 2018 г.). «Быстрая и надежная сегментация изображений белых кровяных клеток с помощью самоконтролируемого обучения». Micron . 107 : 55–71. doi :10.1016/j.micron.2018.01.010. ISSN 0968-4328. PMID 29425969. S2CID 3796689.
Yarowsky, David (1995). «Unsupervised Word Sense Disambiguation Rivaled Controlled Methods». Труды 33-го ежегодного собрания Ассоциации компьютерной лингвистики . Кембридж, Массачусетс: Ассоциация компьютерной лингвистики: 189–196. doi : 10.3115/981658.981684 . Получено 1 ноября 2022 г.