Байесовская оптимизация

Байесовская оптимизация — это последовательная стратегия проектирования для глобальной оптимизации функций черного ящика , ^[1]^[2]^[3], которая не предполагает никаких функциональных форм. Обычно она применяется для оптимизации функций, требующих больших затрат на оценку. С ростом инноваций в области искусственного интеллекта в 21 веке байесовская оптимизация нашла широкое применение в задачах машинного обучения для оптимизации значений гиперпараметров. ^[4]^[5]

История

Термин обычно приписывается Йонасу Мокусу [lt] и введен в оборот его работами из серии публикаций по глобальной оптимизации в 1970-х и 1980-х годах. ^[6]^[7]^[1]

Стратегия

Байесовская оптимизация функции (черная) с гауссовыми процессами (фиолетовая). Три функции получения (синие) показаны внизу. ^[8]

Байесовская оптимизация обычно используется для задач вида , где — набор точек, , которые опираются на менее (или равные) 20 измерениям ( ), и чья принадлежность может быть легко оценена. Байесовская оптимизация особенно выгодна для задач, где трудно оценить из-за ее вычислительной стоимости. Целевая функция, , непрерывна и принимает форму некоторой неизвестной структуры, называемой «черным ящиком». При ее оценке наблюдается только , а ее производные не оцениваются. ^[9] ${\textstyle \max _{x\in A}f(x)}$ ${\textstyle А}$ ${\textstyle x}$ ${\textstyle \mathbb {R} ^{d},d\leq 20}$ ${\textstyle f(x)}$ ${\textstyle ф}$ ${\textstyle f(x)}$

Поскольку целевая функция неизвестна, байесовская стратегия заключается в том, чтобы рассматривать ее как случайную функцию и помещать над ней априорную функцию . Априорная функция фиксирует убеждения относительно поведения функции. После сбора оценок функции, которые рассматриваются как данные, априорная функция обновляется для формирования апостериорного распределения по целевой функции. Апостериорное распределение, в свою очередь, используется для построения функции получения (часто также называемой критериями выборки заполнения), которая определяет следующую точку запроса.

Существует несколько методов, используемых для определения априорного/апостериорного распределения по целевой функции. Наиболее распространенные два метода используют гауссовские процессы в методе, называемом кригингом . Другой менее затратный метод использует Parzen-Tree Estimator для построения двух распределений для «высоких» и «низких» точек, а затем находит местоположение, которое максимизирует ожидаемое улучшение. ^[10]

Стандартная байесовская оптимизация основана на том, что каждый из них легко оценить, и проблемы, которые отклоняются от этого предположения, известны как экзотические байесовские задачи оптимизации. Проблемы оптимизации могут стать экзотическими, если известно, что есть шум, оценки проводятся параллельно, качество оценок зависит от компромисса между сложностью и точностью, наличия случайных условий окружающей среды или если оценка включает производные. ^[9] $x\in A$

Функции приобретения

Примеры функций приобретения включают в себя:

вероятность улучшения
ожидаемое улучшение
Байесовские ожидаемые потери
верхние доверительные границы (UCB) или нижние доверительные границы
выборка Томпсона

и их гибриды. ^[11] Все они компромиссны в исследовании и эксплуатации , чтобы минимизировать количество запросов функций. Таким образом, байесовская оптимизация хорошо подходит для функций, оценка которых требует больших затрат.

Методы решения

Максимум функции приобретения обычно находится путем обращения к дискретизации или с помощью вспомогательного оптимизатора. Функции приобретения максимизируются с помощью численного метода оптимизации , такого как метод Ньютона или квазиньютоновских методов, таких как алгоритм Бройдена–Флетчера–Гольдфарба–Шенно .

Приложения

Подход был применен для решения широкого спектра задач, ^[12] включая обучение ранжированию , ^[13] компьютерную графику и визуальный дизайн, ^[14]^[15]^[16] робототехнику , ^[17]^[18]^[19]^[20] сенсорные сети , ^[21]^[22] автоматическую настройку алгоритмов, ^[23]^[24] автоматические наборы инструментов машинного обучения , ^[25]^[26]^[27] обучение с подкреплением , ^[28] планирование, визуальное внимание, настройка архитектуры в глубоком обучении , статический анализ программ, экспериментальную физику элементарных частиц , ^[29]^[30] оптимизацию качества-разнообразия, ^[31]^[32]^[33] химию, дизайн материалов и разработку лекарств. ^[9]^[34]^[35]

Байесовская оптимизация применялась в области распознавания лиц. ^[36] Производительность алгоритма гистограммы ориентированных градиентов (HOG), популярного метода извлечения признаков, в значительной степени зависит от настроек его параметров. Оптимизация этих параметров может быть сложной, но критически важной для достижения высокой точности. ^[36] Был предложен новый подход к оптимизации параметров алгоритма HOG и размера изображения для распознавания лиц с использованием древовидной парзеновской оценочной функции (TPE), основанной на байесовской оптимизации. ^[36] Этот оптимизированный подход имеет потенциал для адаптации к другим приложениям компьютерного зрения и вносит вклад в продолжающуюся разработку алгоритмов извлечения признаков на основе параметров, созданных вручную, в компьютерном зрении. ^[36]

Смотрите также

Ссылки

^ ab Močkus, J. (1989). Байесовский подход к глобальной оптимизации . Дордрехт: Kluwer Academic. ISBN 0-7923-0115-3.
^ Гарнетт, Роман (2023). Байесовская оптимизация. Cambridge University Press. ISBN 978-1-108-42578-0.
^ Хенниг, П.; Осборн, МА; Керстинг, ХП (2022). Вероятностная численность (PDF) . Cambridge University Press. стр. 243–278. ISBN 978-1107163447.
^ Snoek, Jasper (2012). «Практическая байесовская оптимизация алгоритмов машинного обучения». Достижения в области нейронных систем обработки информации 25 (NIPS 2012) .
^ Кляйн, Аарон (2017). «Быстрая байесовская оптимизация гиперпараметров машинного обучения на больших наборах данных». Труды 20-й Международной конференции по искусственному интеллекту и статистике, PMLR : 528–536.
^ Мочкус, Йонас (1975). «О байесовских методах поиска экстремума». Методы оптимизации Техническая конференция IFIP Новосибирск, 1–7 июля 1974 г. Конспект лекций по информатике. Том 27. С. 400–404. doi : 10.1007/3-540-07165-2_55 . ISBN 978-3-540-07165-5.
^ Мочкус, Йонас (1977). «О байесовских методах поиска экстремума и их применении». Конгресс IFIP : 195–200.
^ Уилсон, Сэмюэл (2019-11-22), Пакет ParBayesianOptimization R , получено 2019-12-12
^ abc Фрейзер, Питер И. (2018-07-08). «Учебник по байесовской оптимизации». arXiv : 1807.02811 [stat.ML].
^ JS Bergstra, R. Bardenet, Y. Bengio, B. Kégl: Алгоритмы для оптимизации гиперпараметров. Достижения в области нейронных систем обработки информации: 2546–2554 (2011)
^ Мэтью В. Хоффман, Эрик Брошу, Нандо де Фрейтас : Распределение портфеля для байесовской оптимизации. Неопределенность в искусственном интеллекте: 327–336 (2011)
^ Эрик Брошу, Влад М. Кора, Нандо де Фрейтас: Учебное пособие по байесовской оптимизации дорогостоящих функций стоимости с применением к моделированию активных пользователей и иерархическому обучению с подкреплением. CoRR abs/1012.2599 (2010)
^ Эрик Брошу, Нандо де Фрейтас, Абхиджит Гош: Активное обучение предпочтениям с дискретными данными выбора. Достижения в области нейронных систем обработки информации: 409-416 (2007)
^ Эрик Брошу, Тайсон Брошу, Нандо де Фрейтас: Байесовский интерактивный подход к оптимизации в разработке процедурной анимации. Симпозиум по компьютерной анимации 2010: 103–112
^ Юки Кояма, Иссей Сато, Дайсуке Сакамото, Такео Игараси: Последовательный поиск строк для эффективной оптимизации визуального дизайна с помощью толп. ACM Transactions on Graphics, том 36, выпуск 4, стр. 48:1–48:11 (2017). DOI: https://doi.org/10.1145/3072959.3073598
^ Юки Кояма, Иссей Сато, Масатака Гото: Последовательная галерея для оптимизации интерактивного визуального дизайна. ACM Transactions on Graphics, том 39, выпуск 4, стр. 88:1–88:12 (2020). DOI: https://doi.org/10.1145/3386569.3392444
^ Daniel J. Lizotte, Tao Wang, Michael H. Bowling, Dale Schuurmans: Автоматическая оптимизация походки с регрессией гауссовского процесса Архивировано 2017-08-12 в Wayback Machine . Международная объединенная конференция по искусственному интеллекту: 944–949 (2007)
^ Рубен Мартинес-Кантин, Нандо де Фрейтас, Эрик Брошу, Хосе Кастельянос и Арно Дусе. Байесовский подход к разведке и эксплуатации для оптимального онлайн-зондирования и планирования с помощью визуально управляемого мобильного робота. Автономные роботы. Том 27, выпуск 2, стр. 93–103 (2009)
^ Скотт Куиндерсма, Родерик Групен и Эндрю Барто. Управление переменным риском с помощью стохастической оптимизации. Международный журнал исследований робототехники, том 32, номер 7, стр. 806–825 (2013)
^ Роберто Каландра, Андре Сейфарт, Ян Петерс и Марк П. Дайзенрот Байесовская оптимизация для обучения походкам в условиях неопределенности. Ann. Math. Artif. Intell. Том 76, выпуск 1, стр. 5-23 (2016) DOI:10.1007/s10472-015-9463-9
^ Ниранджан Шринивас, Андреас Краузе, Шам М. Какаде, Маттиас В. Сигер: Информационно-теоретические границы сожаления для оптимизации гауссовского процесса в бандитской обстановке. Труды IEEE по теории информации 58(5):3250–3265 (2012)
^ Гарнетт, Роман; Осборн, Майкл А.; Робертс, Стивен Дж. (2010). «Байесовская оптимизация для выбора набора датчиков». В Abdelzaher, Тарек Ф.; Фойгт, Тимо; Волиш, Адам (ред.). Труды 9-й Международной конференции по обработке информации в сенсорных сетях, IPSN 2010, 12–16 апреля 2010 г., Стокгольм, Швеция . ACM. стр. 209–219. doi :10.1145/1791212.1791238.
^ Фрэнк Хаттер, Хольгер Хус и Кевин Лейтон-Браун (2011). Последовательная оптимизация на основе моделей для общей конфигурации алгоритма, Обучение и интеллектуальная оптимизация
^ J. Snoek, H. Larochelle, RP Adams Практическая байесовская оптимизация алгоритмов машинного обучения. Достижения в области нейронных систем обработки информации: 2951-2959 (2012)
^ J. Bergstra, D. Yamins, DD Cox (2013). Hyperopt: библиотека Python для оптимизации гиперпараметров алгоритмов машинного обучения. Proc. SciPy 2013.
^ Крис Торнтон, Фрэнк Хаттер, Хольгер Х. Хус, Кевин Лейтон-Браун: Auto-WEKA: комбинированный выбор и оптимизация гиперпараметров алгоритмов классификации. KDD 2013: 847–855
^ Джаспер Сноек, Хьюго Ларошель и Райан Прескотт Адамс. Практическая байесовская оптимизация алгоритмов машинного обучения. Достижения в области нейронных систем обработки информации, 2012
^ Беркенкамп, Феликс (2019). Безопасное исследование в обучении с подкреплением: теория и применение в робототехнике (докторская диссертация). ETH Zurich. doi : 10.3929/ethz-b-000370833. hdl : 20.500.11850/370833.
^ Филип Илтен, Майк Уильямс, Юньцзе Ян. Настройка генератора событий с использованием байесовской оптимизации. 2017 JINST 12 P04028. DOI: 10.1088/1748-0221/12/04/P04028
^ Эваристо Чисбани и др. Оптимизированная для ИИ конструкция детектора для будущего электронно-ионного коллайдера: случай RICH с двойным радиатором 2020 JINST 15 P05009. DOI: 10.1088/1748-0221/15/05/P05009
^ Кент, Пол; Гайер, Адам; Муре, Жан-Батист; Бранке, Юрген (19 июля 2023 г.). «BOP-Elites, байесовский подход к оптимизации качественного поиска разнообразия с функциями дескрипторов черного ящика». arXiv : 2307.09326 [math.OC].Препринт: Arxiv.
^ Кент, Пол; Бранке, Юрген (2023-07-12). «Байесовский качественный поиск разнообразия с интерактивным освещением». Труды конференции по генетическим и эволюционным вычислениям (PDF) . GECCO '23. Нью-Йорк, штат Нью-Йорк, США: Ассоциация вычислительной техники. стр. 1019–1026. doi :10.1145/3583131.3590486. ISBN 979-8-4007-0119-1. S2CID 259833672.
^ Гайер, Адам; Астерот, Александр; Муре, Жан-Батист (01.09.2018). «Исследование эффективного дизайна с помощью суррогатного освещения». Эволюционные вычисления . 26 (3): 381–410. arXiv : 1806.05865 . doi : 10.1162/evco_a_00231 . ISSN 1063-6560. PMID 29883202. S2CID 47003986.
^ Гомес-Бомбарелли и др. Автоматическое химическое проектирование с использованием непрерывного представления молекул, управляемого данными. ACS Central Science, том 4, выпуск 2, 268-276 (2018)
^ Гриффитс и др. Ограниченная байесовская оптимизация для автоматического химического проектирования с использованием вариационных автоэнкодеров Химическая наука: 11, 577-586 (2020)
^ abcd Мохаммед Мехди Бушен: Байесовская оптимизация гистограммы ориентированных градиентов (Hog) параметров для распознавания лиц. SSRN (2023)