Процесс автоматизации применения машинного обучения
Автоматизированное машинное обучение ( AutoML ) — это процесс автоматизации задач применения машинного обучения к реальным проблемам. Это комбинация автоматизации и ML. [1]
AutoML потенциально включает в себя все этапы, от начала с необработанного набора данных до построения модели машинного обучения, готовой к развертыванию. AutoML был предложен как решение на основе искусственного интеллекта для растущей проблемы применения машинного обучения. [2] [3] Высокая степень автоматизации в AutoML направлена на то, чтобы позволить неспециалистам использовать модели и методы машинного обучения, не требуя от них становиться экспертами в машинном обучении. Автоматизация процесса применения машинного обучения от начала до конца дополнительно предлагает преимущества создания более простых решений, более быстрого создания этих решений и моделей, которые часто превосходят модели, разработанные вручную. [4]
Распространенные методы, используемые в AutoML, включают оптимизацию гиперпараметров , метаобучение и поиск нейронной архитектуры .
Сравнение со стандартным подходом
В типичном приложении машинного обучения у практиков есть набор точек входных данных, которые можно использовать для обучения. Необработанные данные могут быть не в форме, к которой можно применить все алгоритмы. Чтобы сделать данные пригодными для машинного обучения, эксперту, возможно, придется применить соответствующие методы предварительной обработки данных , проектирования признаков , извлечения признаков и выбора признаков . После этих шагов практикующие должны выполнить выбор алгоритма и оптимизацию гиперпараметров, чтобы максимизировать прогностическую эффективность своей модели. Если используется глубокое обучение, архитектура нейронной сети также должна быть выбрана вручную экспертом по машинному обучению.
Каждый из этих шагов может быть сложным, что приводит к значительным препятствиям для использования машинного обучения. AutoML стремится упростить эти шаги для неспециалистов и облегчить им правильное и эффективное использование методов машинного обучения.
AutoML играет важную роль в более широком подходе автоматизации науки о данных , который также включает в себя такие сложные задачи, как инженерия данных, исследование данных, а также интерпретация и прогнозирование моделей. [5]
Цели автоматизации
Автоматизированное машинное обучение может быть нацелено на различные этапы процесса машинного обучения. [3] Шаги автоматизации:
- Подготовка и прием данных (из необработанных данных и различных форматов)
- Определение типа столбца ; например, логический, дискретный числовой, непрерывный числовой или текстовый
- Определение намерения столбца; например, цель/метка, поле стратификации , числовой признак, категориальный текстовый признак или свободный текстовый признак
- Обнаружение задач; например, бинарная классификация , регрессия , кластеризация или ранжирование
- Особенности инжиниринга
- Выбор модели — выбор алгоритма машинного обучения для использования, часто с учетом нескольких конкурирующих реализаций программного обеспечения.
- Ансамбль — форма консенсуса, при которой использование нескольких моделей часто дает лучшие результаты, чем любая одна модель [6]
- Гиперпараметрическая оптимизация алгоритма обучения и признакизации
- Выбор конвейера с учетом ограничений по времени, памяти и сложности
- Выбор показателей оценки и процедур проверки
- Проверка проблем
- Обнаружение утечек
- Обнаружение неправильной конфигурации
- Анализ полученных результатов
- Создание пользовательских интерфейсов и визуализаций
Проблемы и ограничения
Существует ряд ключевых проблем, которые решаются вокруг автоматизированного машинного обучения. Большой проблемой, связанной с этой областью, является «разработка как кустарное производство». [7] Эта фраза относится к проблеме машинного обучения, где разработка опирается на ручные решения и предубеждения экспертов. Это контрастирует с целью машинного обучения, которая заключается в создании систем, которые могут обучаться и совершенствоваться на основе собственного использования и анализа данных. По сути, это борьба между тем, насколько эксперты должны быть вовлечены в обучение систем, и тем, насколько они должны быть свободны для машин. Однако эксперты и разработчики должны помогать создавать и направлять эти машины, чтобы подготовить их к собственному обучению. Чтобы создать эту систему, требуется трудоемкая работа со знанием алгоритмов машинного обучения и проектирования систем . [8]
Кроме того, к другим проблемам относятся проблемы метаобучения [9] и распределения вычислительных ресурсов.
Смотрите также
Ссылки
- ^ Спирс, Тейлор; Бондо Хансен, Кристиан (18.12.2023), «Использование и перспективы машинного обучения на финансовых рынках», Оксфордский справочник по социологии машинного обучения , Oxford University Press, doi : 10.1093/oxfordhb/9780197653609.013.6, ISBN 978-0-19-765360-9, получено 2024-06-10
- ^ Thornton C, Hutter F, Hoos HH, Leyton-Brown K (2013). Auto-WEKA: комбинированный выбор и гиперпараметрическая оптимизация алгоритмов классификации. Труды KDD '13 19-й международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных. С. 847–855.
- ^ ab Hutter F, Caruana R, Bardenet R, Bilenko M, Guyon I, Kegl B и Larochelle H. "AutoML 2014 @ ICML". AutoML 2014 Workshop @ ICML . Получено 28.03.2018 .[ постоянная мертвая ссылка ]
- ^ Olson, RS, Urbanowicz, RJ, Andrews, PC, Lavender, NA, Kidd, LC, Moore, JH (2016). Автоматизация науки о биомедицинских данных с помощью оптимизации конвейера на основе дерева. В: Squillero, G., Burelli, P. (ред.) Applications of Evolutionary Computation. EvoApplications 2016. Lecture Notes in Computer Science(), том 9597. Springer, Cham. doi :10.1007/978-3-319-31204-0_9
- ^ Де Би, Тейл; Де Рэдт, Люк; Эрнандес-Оралло, Хосе; Хоос, Хольгер Х.; Смит, Падрайк; Уильямс, Кристофер К.И. (март 2022 г.). «Автоматизация науки о данных». Коммуникации АКМ . 65 (3): 76–87. дои : 10.1145/3495256 . hdl : 10251/199907 .
- ^ Эриксон, Ник; Мюллер, Йонас; Ширков, Александр; Чжан, Ханг; Ларрой, Педро; Ли, Му; Смола, Александр (13.03.2020). «AutoGluon-Tabular: надежный и точный AutoML для структурированных данных». arXiv : 2003.06505 [stat.ML].
- ^ Хаттер, Франк; Коттхофф, Ларс; Ваншорен, Хоакин, ред. (2019). Автоматизированное машинное обучение: методы, системы, проблемы. Серия Springer о проблемах машинного обучения. Springer Nature. doi : 10.1007/978-3-030-05318-5. hdl : 20.500.12657/23012. ISBN 978-3-030-05317-8.
- ^ Гловер, Эллен (2018). «Машинное обучение с Python: Кластеризация». Встроено в . doi :10.4135/9781526466426.
- ^ "Проблемы метаобучения". metalearning.chalearn.org . Получено 2023-12-03 .
Дальнейшее чтение
- «Инструменты AutoML с открытым исходным кодом: AutoGluon, TransmogrifAI, Auto-sklearn и NNI». Bizety . 2020-06-16.
- Феррейра, Луис и др. «Сравнение инструментов AutoML для машинного обучения, глубокого обучения и XGBoost». Международная объединенная конференция по нейронным сетям 2021 г. (IJCNN). IEEE, 2021 г. https://repositorium.sdum.uminho.pt/bitstream/1822/74125/1/automl_ijcnn.pdf
- Feurer, M., Klein, A., Eggensperger, K., Springenberg, J., Blum, M., & Hutter, F. (2015). Эффективное и надежное автоматизированное машинное обучение. Достижения в области нейронных систем обработки информации , 28. https://proceedings.neurips.cc/paper_files/paper/2015/file/11d0e6287202fced83f79975ec59a3a6-Paper.pdf