Разработка функций

Разработка функций — важнейший этап предварительной обработки в контролируемом машинном обучении и статистическом моделировании ^[1] — преобразует необработанные данные в более эффективный набор входных данных, известный как функции. Этот процесс повышает точность прогнозирования и возможности моделей по принятию решений, предоставляя им более актуальную информацию. ^[2]

Другие примеры особенностей в физике включают построение безразмерных чисел , таких как число Рейнольдса в гидродинамике , число Нуссельта в теплопередаче , число Архимеда в седиментации , а также построение первых приближений решения, таких как аналитическая прочность материалов, растворов в механика. ^[3]

Прогнозное моделирование

Разработка функций в машинном обучении и статистическом моделировании включает в себя выбор, создание, преобразование и извлечение функций данных. Ключевые компоненты включают создание признаков на основе существующих данных, преобразование и вменение отсутствующих или недействительных признаков, уменьшение размерности данных с помощью таких методов, как анализ главных компонентов (PCA), анализ независимых компонентов (ICA) и линейный дискриминантный анализ (LDA), а также выбор наиболее подходящих функции для обучения модели на основе показателей важности и корреляционных матриц . ^[4]

Характеристики различаются по значимости. ^[5] Даже относительно незначительные особенности могут способствовать созданию модели. Выбор функций может уменьшить количество функций, чтобы модель не стала слишком специфичной для набора обучающих данных (переобучение). ^[6]

Расширение функций происходит, когда количество идентифицированных функций слишком велико для эффективной оценки или оптимизации модели. Общие причины включают в себя:

Шаблоны функций: внедрение шаблонов функций вместо написания новых функций.
Комбинации признаков – комбинации, которые не могут быть представлены линейной системой.

Расширение возможностей можно ограничить с помощью таких методов, как регуляризация , методы ядра и выбор функций . ^[7]

Автоматизация

Автоматизация разработки функций — это тема исследования, которая берет свое начало еще в 1990-х годах. ^[8] Программное обеспечение для машинного обучения, включающее автоматизированное проектирование признаков, коммерчески доступно с 2016 года . ^[9] Соответствующую научную литературу можно условно разделить на два типа:

Многореляционное обучение дереву решений (MRDTL) использует контролируемый алгоритм, аналогичный дереву решений .
Глубокий синтез функций использует более простые методы. ^{[ нужна цитата ]}

Многореляционное обучение дереву решений (MRDTL)

MRDTL генерирует функции в форме запросов SQL путем последовательного добавления предложений в запросы. ^{[ нужна цитация ]} Например, алгоритм может начинаться с

ВЫБЕРИТЕ СЧЕТ ( * ) ОТ АТОМА t1 ВЛЕВО ПРИСОЕДИНЯЙТЕСЬ К МОЛЕКУЛЕ t2 НА t1 . мол_ид = t2 . mol_id ГРУППА ПО t1 . мол_ид

Затем запрос можно последовательно уточнить, добавив условия, например «WHERE t1.charge <= -0,392». ^{[ нужна цитата ]}

Однако большинство исследований MRDTL основывают реализации на реляционных базах данных, что приводит к множеству избыточных операций. Эту избыточность можно уменьшить, используя такие методы, как распространение идентификаторов кортежей. ^[10]^[11] Эффективность можно повысить за счет использования дополнительных обновлений, что исключает избыточность. ^[12]^{[ рекламный источник? ]}

Реализации с открытым исходным кодом

Существует ряд библиотек и инструментов с открытым исходным кодом, которые автоматизируют разработку функций реляционных данных и временных рядов:

Featuretools — это библиотека Python для преобразования временных рядов и реляционных данных в матрицы функций для машинного обучения. ^[13]^[14]^[15]
OneBM или One-Button Machine сочетает в себе преобразование признаков и выбор признаков реляционных данных с методами выбора признаков. ^[16]
[OneBM] помогает ученым, работающим с данными, сократить время исследования данных, позволяя им опробовать и ошибиться во многих идеях за короткое время. С другой стороны, это позволяет неспециалистам, не знакомым с наукой о данных, быстро извлекать пользу из своих данных с небольшими усилиями, временем и затратами. ^[17]
Сообщество getML — это инструмент с открытым исходным кодом для автоматического проектирования функций временных рядов и реляционных данных. ^[18]^[19] Он реализован на C / C++ с интерфейсом Python. ^[20] Было доказано, что он работает как минимум в 60 раз быстрее, чем tsflex, tsfresh, tsfel, Featuretools или Kats. ^[21]
tsfresh — это библиотека Python для извлечения признаков из данных временных рядов. ^[22] Он оценивает качество функций с помощью проверки гипотез. ^[23]
tsflex — это библиотека Python с открытым исходным кодом для извлечения функций из данных временных рядов. ^[24] Несмотря на то, что он на 100% написан на Python, он оказался быстрее и эффективнее использует память, чем tsfresh, seglearn или tsfel. ^[25]
seglearn — это расширение для многомерных последовательных данных временных рядов библиотеки Python scikit-learn . ^[26]
tsfel — это пакет Python для извлечения признаков из данных временных рядов. ^[27]
kats — это набор инструментов Python для анализа данных временных рядов. ^[28]

Глубокий синтез функций

Алгоритм глубокого синтеза признаков (DFS) победил в соревновании 615 из 906 человеческих команд. ^[29]^[30]

Магазины функций

Хранилище функций — это место, где функции хранятся и организованы с явной целью использования либо для обучения моделей (специалистами по данным), либо для прогнозирования (приложениями, имеющими обученную модель). Это центральное место, где вы можете создавать или обновлять группы объектов, созданных из нескольких разных источников данных, или создавать и обновлять новые наборы данных из этих групп объектов для обучения моделей или для использования в приложениях, которые не хотят вычислять объекты, а просто извлекать их, когда они нужны для прогнозирования. ^[31]

Хранилище функций включает в себя возможность хранить код, используемый для создания функций, применять этот код к необработанным данным и предоставлять эти функции моделям по запросу. Полезные возможности включают управление версиями функций и политики, определяющие обстоятельства, при которых функции могут использоваться. ^[32]

Хранилища функций могут быть автономными программными инструментами или встроенными в платформы машинного обучения.

Альтернативы

Разработка функций может быть трудоемким и подверженным ошибкам процессом, поскольку требует экспертных знаний в предметной области и часто включает в себя метод проб и ошибок. ^[33]^[34] Алгоритмы глубокого обучения могут использоваться для обработки большого набора необработанных данных без необходимости прибегать к разработке признаков. ^[35] Однако важно отметить, что алгоритмы глубокого обучения по-прежнему требуют тщательной предварительной обработки и очистки входных данных. ^[36] Кроме того, выбор правильной архитектуры, гиперпараметров и алгоритма оптимизации для глубокой нейронной сети может оказаться сложным и итеративным процессом. ^[37]

Смотрите также

дальнейшее чтение

Бёмке Б., Гринвелл Б. (2019). «Функциональная и целевая инженерия». Практическое машинное обучение с помощью R . Чепмен и Холл. стр. 41–75. ISBN 978-1-138-49568-5.
Чжэн А, Казари А (2018). Разработка функций для машинного обучения: принципы и методы для специалистов по данным . О'Рейли. ISBN 978-1-4919-5324-2.
Зумель Н., Маунт (2020). «Инженерия данных и формирование данных». Практическая наука о данных с R (2-е изд.). Мэннинг. стр. 113–160. ISBN 978-1-61729-587-4.