stringtranslate.com

Передача обучения

Иллюстрация трансферного обучения

Передача обучения ( TL ) — это метод машинного обучения (ML), при котором знания, полученные в ходе выполнения задачи, повторно используются для повышения производительности в смежной задаче. [1] Например, для классификации изображений знания, полученные при обучении распознаванию автомобилей, могут быть применены при попытке распознавать грузовики. Эта тема связана с психологической литературой по передаче обучения , хотя практические связи между этими двумя областями ограничены. Повторное использование/передача информации из ранее изученных задач в новые задачи может значительно повысить эффективность обучения. [2]

Поскольку трансферное обучение использует обучение с несколькими целевыми функциями, оно связано с чувствительным к затратам машинным обучением и многоцелевой оптимизацией . [3]

История

В 1976 году Бозиновски и Фулгоси опубликовали статью, посвященную трансферному обучению в обучении нейронных сетей . [4] [5] В статье дана математическая и геометрическая модель темы. В 1981 году в докладе рассматривалось применение трансферного обучения к набору данных изображений, представляющих буквы компьютерных терминалов, экспериментально демонстрируя положительное и отрицательное трансферное обучение. [6]

В 1992 году Лориен Пратт сформулировал алгоритм переноса на основе различимости (DBT). [7]

К 1998 году эта область расширилась и включила многозадачное обучение [ 8] вместе с более формальными теоретическими основами. [9] Влиятельные публикации по трансферному обучению включают книгу Learning to Learn 1998 года [10] , обзор 2009 года [11] и обзор 2019 года [12] .

В своем руководстве NIPS 2016 [13] [14] Нг заявил , что TL станет следующим драйвером коммерческого успеха машинного обучения после контролируемого обучения .

В статье 2020 года «Переосмысление предварительной подготовки и самостоятельной подготовки» [15] Зоф и др. сообщили, что предварительная подготовка может ухудшить точность, и вместо этого рекомендуют самостоятельную подготовку.

Определение

Определение трансферного обучения дается в терминах доменов и задач. Домен состоит из: пространства признаков и предельного распределения вероятностей , где . При наличии конкретного домена , задача состоит из двух компонентов: пространства меток и целевой предсказательной функции . Функция используется для предсказания соответствующей метки нового экземпляра . Эта задача, обозначенная , изучается на основе обучающих данных, состоящих из пар , где и . [16]

Учитывая исходную область и задачу обучения , целевую область и задачу обучения , где , или , трансферное обучение направлено на помощь в улучшении обучения целевой предсказательной функции с использованием знаний в и . [16]

Приложения

Алгоритмы доступны для переноса обучения в логических сетях Маркова [17] и байесовских сетях . [18] Перенос обучения применялся для обнаружения подтипов рака, [19] использования зданий , [20] [21] общих игр , [22] классификации текста , [23] [24] распознавания цифр, [25] медицинской визуализации и фильтрации спама . [26]

В 2020 году было обнаружено, что из-за их схожей физической природы возможно трансферное обучение между электромиографическими (ЭМГ) сигналами от мышц и классификацией поведения электроэнцефалографических (ЭЭГ) мозговых волн, от области распознавания жестов до области распознавания психического состояния. Было отмечено, что эта связь работает в обоих направлениях, показывая, что электроэнцефалографию также можно использовать для классификации ЭМГ. [27] Эксперименты показали, что точность нейронных сетей и сверточных нейронных сетей была улучшена [28] посредством трансферного обучения как до любого обучения (по сравнению со стандартным случайным распределением веса), так и в конце процесса обучения (асимптота). То есть результаты улучшаются при воздействии на другую область. Более того, конечный пользователь предварительно обученной модели может изменить структуру полностью связанных слоев для повышения производительности. [29]

Программное обеспечение

Передача обучения и адаптация домена

Реализовано несколько компиляций алгоритмов трансферного обучения и адаптации домена:

Смотрите также

Ссылки

  1. ^ Уэст, Джереми; Вентура, Дэн; Уорник, Шон (2007). «Весенняя исследовательская презентация: теоретическое обоснование индуктивного переноса». Университет Бригама Янга, Колледж физических и математических наук. Архивировано из оригинала 01.08.2007 . Получено 05.08.2007 .
  2. ^ Джордж Каримпанал, Томмен; Буффанаис, Роланд (2019). «Самоорганизующиеся карты для хранения и передачи знаний в обучении с подкреплением». Adaptive Behavior . 27 (2): 111–126. arXiv : 1811.08318 . doi :10.1177/1059712318818568. ISSN  1059-7123. S2CID  53774629.
  3. ^ Машинное обучение, чувствительное к стоимости. (2011). США: CRC Press, стр. 63, https://books.google.com/books?id=8TrNBQAAQBAJ&pg=PA63
  4. ^ Стево. Божиновски и Анте Фулгоши (1976). «Влияние сходства образов и переноса обучения на базовое обучение персептрона». (оригинал на хорватском языке) Труды симпозиума Informatica 3-121-5, Блед.
  5. ^ Стево Божиновски (2020) «Напоминание о первой статье о трансферном обучении в нейронных сетях, 1976». Informatica 44: 291–302.
  6. ^ S. Bozinovski (1981). «Пространство обучения: концепция представления для адаптивной классификации образов». Технический отчет COINS, Массачусетский университет в Амхерсте, № 81-28 [доступно онлайн: UM-CS-1981-028.pdf]
  7. ^ Пратт, Л. Я. (1992). «Передача между нейронными сетями на основе различимости» (PDF) . Конференция NIPS: Достижения в области нейронных систем обработки информации 5. Издательство Morgan Kaufmann. С. 204–211.
  8. ^ Каруана, Р., «Многозадачное обучение», стр. 95-134 в Thrun & Pratt 2012
  9. ^ Бакстер, Дж., «Теоретические модели обучения обучению», стр. 71-95 Трун и Пратт 2012
  10. ^ Трун и Пратт 2012.
  11. ^ Пан, Синно Джиалин; Ян, Цян (2009). «Опрос по трансферному обучению» (PDF) . ИИЭЭ .
  12. ^ Чжуан, Фучжэнь; Ци, Чжиюань; Дуань, Кейю; Си, Дунбо; Чжу, Юнчунь; Чжу, Хэншу; Сюн, Хуэй; Хэ, Цин (2019). «Комплексное исследование трансферного обучения». ИИЭЭ . arXiv : 1911.02685 .
  13. ^ Учебник NIPS 2016: «Основы создания приложений ИИ с использованием глубокого обучения» Эндрю Нг, 6 мая 2018 г., архивировано из оригинала 19.12.2021 г. , извлечено 28.12.2019 г.
  14. ^ «Основы создания приложений ИИ с использованием глубокого обучения, слайды» (PDF) .
  15. ^ Zoph, Barret (2020). «Переосмысление предварительного обучения и самообучения» (PDF) . Advances in Neural Information Processing Systems . 33 : 3833–3845. arXiv : 2006.06882 . Получено 2022-12-20 .
  16. ^ ab Lin, Yuan-Pin; Jung, Tzyy-Ping (27 июня 2017 г.). «Улучшение классификации эмоций на основе ЭЭГ с использованием условного переноса обучения». Frontiers in Human Neuroscience . 11 : 334. doi : 10.3389/fnhum.2017.00334 . PMC 5486154. PMID  28701938 .  Материал скопирован из этого источника, который доступен по лицензии Creative Commons Attribution 4.0 International.
  17. ^ Михалкова, Лилиана; Хюнх, Туйен; Муни, Рэймонд Дж. (июль 2007 г.), «Картирование и пересмотр логических сетей Маркова для передачи» (PDF) , Учебные материалы 22-й конференции AAAI по искусственному интеллекту (AAAI-2007) , Ванкувер, Британская Колумбия, стр. 608–614 , получено 5 августа 2007 г.{{citation}}: CS1 maint: отсутствует местоположение издателя ( ссылка )
  18. ^ Никулеску-Мизил, Александру; Каруана, Рич (21–24 марта 2007 г.), «Индуктивный перенос для изучения структуры байесовской сети» (PDF) , Труды Одиннадцатой международной конференции по искусственному интеллекту и статистике (AISTATS 2007) , получено 05.08.2007
  19. ^ Хаджирамезанали, Э. и Дадане, СЗ и Карбалайгаре, А. и Чжоу, З. и Цянь, Х. Байесовское многодоменное обучение для обнаружения подтипов рака на основе данных подсчета последовательностей следующего поколения. 32-я конференция по системам обработки нейронной информации (NeurIPS 2018), Монреаль, Канада. arXiv :1810.09433
  20. ^ Ариеф-Анг, И. Б.; Салим, Ф. Д.; Гамильтон, М. (2017-11-08). DA-HOC: полуконтролируемая адаптация домена для прогнозирования занятости помещения с использованием данных датчика CO2. 4-я Международная конференция ACM по системам для энергоэффективных встроенных сред (BuildSys). Делфт, Нидерланды. стр. 1–10. doi : 10.1145/3137133.3137146. ISBN 978-1-4503-5544-5.
  21. ^ Ариеф-Анг, И.Б.; Гамильтон, М.; Салим, Ф.Д. (2018-12-01). «Масштабируемое прогнозирование занятости помещения с переносимой декомпозицией временных рядов данных датчика CO2». ACM Transactions on Sensor Networks . 14 (3–4): 21:1–21:28. doi :10.1145/3217214. S2CID  54066723.
  22. ^ Баннерджи, Бикрамджит и Питер Стоун. «Общее игровое обучение с использованием передачи знаний». IJCAI. 2007.
  23. ^ Do, Chuong B.; Ng, Andrew Y. (2005). "Передача обучения для классификации текста". Neural Information Processing Systems Foundation, NIPS*2005 (PDF) . Получено 2007-08-05 .
  24. ^ Раджат, Райна; Нг, Эндрю Й.; Коллер, Дафна (2006). «Построение информативных априорных данных с использованием трансферного обучения». Двадцать третья международная конференция по машинному обучению (PDF) . Получено 05.08.2007 .
  25. ^ Maitra, DS; Bhattacharya, U.; Parui, SK (август 2015 г.). «Общий подход к распознаванию рукописных символов нескольких шрифтов на основе CNN». 2015 13-я Международная конференция по анализу и распознаванию документов (ICDAR) . стр. 1021–1025. doi :10.1109/ICDAR.2015.7333916. ISBN 978-1-4799-1805-8. S2CID  25739012.
  26. ^ Бикель, Штеффен (2006). "Обзор ECML-PKDD Discovery Challenge 2006". Семинар ECML-PKDD Discovery Challenge (PDF) . Получено 2007-08-05 .
  27. ^ Bird, Jordan J.; Kobylarz, Jhonatan; Faria, Diego R.; Ekart, Aniko; Ribeiro, Eduardo P. (2020). «Кросс-доменное обучение MLP и передаче CNN для обработки биологических сигналов: ЭЭГ и ЭМГ». IEEE Access . 8. Институт инженеров по электротехнике и электронике (IEEE): 54789–54801. Bibcode : 2020IEEEA...854789B. doi : 10.1109/access.2020.2979074 . ISSN  2169-3536.
  28. ^ Maitra, Durjoy Sen; Bhattacharya, Ujjwal; Parui, Swapan K. (август 2015 г.). «Общий подход к распознаванию рукописных символов нескольких сценариев на основе CNN». 2015 13-я Международная конференция по анализу и распознаванию документов (ICDAR) . стр. 1021–1025. doi :10.1109/ICDAR.2015.7333916. ISBN 978-1-4799-1805-8. S2CID  25739012.
  29. ^ Кабир, Его Величество Дипу; Абдар, Молуд; Джалали, Сейед Мохаммад Джафар; Хосрави, Аббас; Атия, Амир Ф.; Нахаванди, Саид; Шринивасан, Дипти (7 января 2022 г.). «SpinalNet: глубокая нейронная сеть с постепенным вводом». Транзакции IEEE по искусственному интеллекту . 4 (5): 1165–1177. arXiv : 2007.03347 . дои : 10.1109/TAI.2022.3185179. S2CID  220381239.
  30. ^ де Матлен, Антуан и Дехегер, Франсуа и Ришар, Гийом и Мужо, Матильда и Вайатис, Николя (2020) «ADAPT: Потрясающий набор инструментов Python для адаптации доменов»
  31. ^ Миншэн Лун Цзюньгуан Цзян, Бо Фу. (2020) «Библиотека трансферного обучения»
  32. ^ Кэ Янь. (2016) «Инструментарий адаптации домена»

Источники