Увеличение данных — это статистический метод, позволяющий оценивать максимальное правдоподобие на основе неполных данных. [1] [2] Увеличение данных имеет важное применение в байесовском анализе , [3] и этот метод широко используется в машинном обучении для уменьшения переобучения при обучении моделей машинного обучения, [4] достигаемое путем обучения моделей на нескольких слегка измененных копиях существующих данных.
Метод синтетической перевыборки меньшинства (SMOTE) — это метод, используемый для решения проблемы несбалансированных наборов данных в машинном обучении. В таких наборах данных количество образцов в разных классах значительно различается, что приводит к смещению производительности модели. Например, в наборе данных медицинской диагностики с 90 образцами, представляющими здоровых людей, и только 10 образцами, представляющими людей с определенным заболеванием, традиционные алгоритмы могут испытывать трудности с точной классификацией класса меньшинства. SMOTE перебалансирует набор данных, генерируя синтетические образцы для класса меньшинства. Например, если в классе большинства 100 образцов и 10 образцов в классе меньшинства, SMOTE может создавать синтетические образцы, случайным образом выбирая образец класса меньшинства и его ближайших соседей, а затем генерируя новые образцы вдоль отрезков линии, соединяющих этих соседей. Этот процесс помогает увеличить представительство класса меньшинства, улучшая производительность модели. [5]
Когда в середине 1990-х годов сверточные нейронные сети стали больше, данных для использования стало не хватать, особенно учитывая, что часть общего набора данных должна была быть сохранена для последующего тестирования. Было предложено вносить в существующие данные искажения с помощью аффинных преобразований, чтобы создавать новые примеры с теми же метками, [6] которые были дополнены так называемыми эластичными искажениями в 2003 году, [7] и эта техника широко использовалась с 2010-х годов. [8] Дополнение данных может повысить производительность CNN и действует как контрмера против атак профилирования CNN. [9]
Расширение данных стало основополагающим в классификации изображений, обогащая разнообразие обучающих наборов данных для улучшения обобщения и производительности модели. Развитие этой практики ввело широкий спектр методов, включая геометрические преобразования, корректировки цветового пространства и инъекцию шума. [10]
Геометрические преобразования изменяют пространственные свойства изображений для имитации различных перспектив, ориентаций и масштабов. Распространенные методы включают:
Преобразования цветового пространства изменяют цветовые свойства изображений, обращаясь к изменениям в освещении, насыщенности цвета и контрастности. Методы включают:
Введение шума в изображения имитирует несовершенства реального мира, обучая модели игнорировать несущественные изменения. Методы включают:
Для дополнения временных рядов можно использовать остаточный или блочный бутстрап .
Синтетическое дополнение данных имеет первостепенное значение для классификации машинного обучения, особенно для биологических данных, которые, как правило, являются многомерными и редкими. Применение роботизированного управления и дополнений к инвалидам и здоровым субъектам по-прежнему в основном опирается на анализы, специфичные для субъекта. Дефицит данных заметен в проблемах обработки сигналов, таких как сигналы электромиографии болезни Паркинсона , которые трудно получить - Занини и др. отметили, что можно использовать генеративную состязательную сеть (в частности, DCGAN) для выполнения переноса стиля с целью генерации синтетических электромиографических сигналов, которые соответствуют тем, которые демонстрируют страдающие болезнью Паркинсона. [11]
Эти подходы также важны в электроэнцефалографии (мозговые волны). Ван и др. исследовали идею использования глубоких сверточных нейронных сетей для распознавания эмоций на основе ЭЭГ, результаты показывают, что распознавание эмоций улучшается при использовании дополнения данных. [12]
Распространенный подход заключается в создании синтетических сигналов путем перестановки компонентов реальных данных. Лотте [13] предложил метод «искусственной генерации проб на основе аналогии» , где три примера данных предоставляют примеры и формируется искусственный, который является тем, что является . Преобразование применяется к , чтобы сделать его более похожим на , то же самое преобразование затем применяется к , которое генерирует . Было показано, что этот подход улучшает производительность классификатора линейного дискриминантного анализа на трех различных наборах данных.
Текущие исследования показывают, что относительно простые методы могут оказать большое влияние. Например, Фрир [14] заметил, что введение шума в собранные данные для формирования дополнительных точек данных улучшило обучаемость нескольких моделей, которые в противном случае работали относительно плохо. Цинганос и др. [15] изучили подходы к искажению величин, вейвлет-разложению и моделям синтетической поверхностной ЭМГ (генеративные подходы) для распознавания жестов рук, обнаружив повышение эффективности классификации до +16%, когда во время обучения были введены дополненные данные. Совсем недавно исследования по дополнению данных начали фокусироваться на области глубокого обучения, а именно на способности генеративных моделей создавать искусственные данные, которые затем вводятся во время процесса обучения модели классификации. В 2018 году Луо и др. [16] заметили, что полезные данные сигнала ЭЭГ могут быть сгенерированы условными генеративно-состязательными сетями Вассерштейна (GAN), которые затем были введены в обучающий набор в классической структуре обучения «тренировка-тест». Авторы обнаружили, что эффективность классификации улучшилась, когда были введены такие методы.
Прогнозирование механических сигналов на основе дополнения данных открывает новое поколение технологических инноваций, таких как новая энергетическая диспетчеризация, сфера связи 5G и инженерия управления робототехникой. [17] В 2022 году Ян и др. [17] интегрируют ограничения, оптимизацию и управление в глубокую сетевую структуру на основе дополнения и обрезки данных с пространственно-временной корреляцией данных, а также улучшают интерпретируемость, безопасность и управляемость глубокого обучения в реальных промышленных проектах с помощью явных уравнений математического программирования и аналитических решений.
{{cite book}}
: |website=
проигнорировано ( помощь )