Дистилляция знаний

В машинном обучении дистилляция знаний или дистилляция модели — это процесс переноса знаний из большой модели в меньшую. Хотя большие модели (такие как очень глубокие нейронные сети или ансамбли многих моделей) обладают более высоким объемом знаний, чем маленькие модели, этот потенциал может быть использован не полностью. Оценка модели может оказаться столь же дорогостоящей в вычислительном отношении, даже если она использует мало своих знаний. Дистилляция знаний переносит знания из большой модели в меньшую без потери достоверности . Поскольку оценка меньших моделей обходится дешевле, их можно развертывать на менее мощном оборудовании (например, на мобильном устройстве ). ^[1]

Фильтрация знаний успешно используется в нескольких приложениях машинного обучения, таких как обнаружение объектов , ^[2] акустические модели , ^[3] и обработка естественного языка . ^[4] Недавно он также был введен в графические нейронные сети, применимые к несеточным данным. ^[5]

Концепция дистилляции

Перенос знаний из большой модели в маленькую должен каким-то образом научить последнюю без потери достоверности. Если обе модели обучены на одних и тех же данных, маленькая модель может иметь недостаточную мощность для изучения краткого представления знаний при тех же вычислительных ресурсах и тех же данных, что и большая модель. Однако некоторая информация о кратком представлении знаний кодируется в псевдовероятностях , присвоенных ее выходным данным: когда модель правильно предсказывает класс, она присваивает большое значение выходной переменной, соответствующей такому классу, и меньшие значения другим выходным переменным. Распределение значений между выходными данными записи предоставляет информацию о том, как большая модель представляет знания. Таким образом, цель экономичного развертывания достоверной модели может быть достигнута путем обучения только большой модели на данных, использования ее лучшей способности изучать краткие представления знаний, а затем выделения таких знаний в меньшую модель, которая не сможет изучите его самостоятельно, научив его программному выводу большой модели. ^[1]

Первый пример преобразования искусственной нейронной сети в другую сеть относится к 1992 году, когда Юрген Шмидхубер сжал или сжал иерархию рекуррентных нейронных сетей (RNN) в единую RNN, превратив сеть блоков более высокого уровня в сеть автоматизатора более низкого уровня. . ^[6]^[7] Это облегчило дальнейшее глубокое обучение.

Соответствующая методология сжатия знаний нескольких моделей в единую нейронную сеть в 2006 году называлась сжатием моделей. Сжатие достигалось путем обучения меньшей модели на больших объемах псевдоданных, помеченных более высокопроизводительным ансамблем, с оптимизацией для соответствия логиту . сжатой модели к логиту ансамбля. ^[8] Фильтрация знаний является обобщением такого подхода, предложенного Джеффри Хинтоном и др. в 2015 году ^[1] в препринте , в котором была сформулирована концепция и показаны некоторые результаты, достигнутые в задаче классификации изображений .

Дистилляция знаний также связана с концепцией поведенческого клонирования , обсуждаемой Фаразом Тораби и др. ал. ^[9]

Формулировка

Учитывая большую модель как функцию векторной переменной , обученную для конкретной задачи классификации , обычно последним слоем сети является softmax в форме $\mathbf {x}$

{\ displaystyle y_ {i} (\ mathbf {x} | t) = {\ frac {e^ {\ frac {z_ {i} (\ mathbf {x}) {t}} {\ sum _ {j }e^{\frac {z_{j}(\mathbf {x})}{t}}}}}

где параметр, называемый температурой , для стандартного softmax обычно устанавливается равным 1. Оператор softmax преобразует логит- значения в псевдовероятности, а более высокие значения температуры приводят к созданию более мягкого распределения псевдовероятностей среди выходных данных. занятия. Дистилляция знаний состоит из обучения меньшей сети, называемой дистиллированной моделью , на наборе данных , называемом набором передачи (отличном от набора данных, используемого для обучения большой модели), с использованием перекрестной энтропии в качестве функции потерь между выходными данными дистиллированной модели и полученными результатами . по большой модели в одной и той же записи (или по среднему значению отдельных выходных данных, если большая модель представляет собой ансамбль), используя высокое значение температуры softmax для обеих моделей ^[1] $т$ $z_{i}(\mathbf {x})$ $\mathbf {y} (\mathbf {x} |t)$ ${\hat {\mathbf {y}}}(\mathbf {x} |t)$ $т$

E(\mathbf {x} |t)=-\sum _{i}{\hat {y}}_{i}(\mathbf {x} |t)\log y_ {i}(\mathbf {x} |t).

В этом контексте высокая температура увеличивает энтропию выходных данных и, следовательно, предоставляет больше информации для изучения дистиллированной модели по сравнению с жесткими целями, в то же время уменьшая дисперсию градиента между различными записями и, следовательно, обеспечивая более высокую скорость обучения . ^[1]

Если для передаточного набора доступна основная истина, процесс можно усилить, добавив к потерям перекрестную энтропию между выходными данными дистиллированной модели (вычисленной с помощью ) и известной меткой. $т=1$ ${\bar {y}}$

E(\mathbf {x} |t)=-t^{2}\sum _{i}{\hat {y}}_{i}(\mathbf {x} |t)\log y_{ i}(\mathbf {x} |t)-\sum _{i}{\bar {y}}_{i}\log y_{i}(\mathbf {x} |1)

где компонент потерь по отношению к большой модели взвешивается с коэффициентом , поскольку при повышении температуры градиент потерь по отношению к весам модели увеличивается в . ^[1] $т^{2}$ ${\frac {1}{t^{2}}}$

Связь со сжатием модели

В предположении, что логиты имеют нулевое среднее значение , можно показать, что сжатие модели является особым случаем дистилляции знаний. Градиент потерь при дистилляции знаний относительно логита дистиллированной модели определяется выражением $E$ $z_{i}$

{\begin{aligned}{\frac {\partial }{\partial z_{i}}}E&=-{\frac {\partial }{\partial z_{i}}}\sum _{j}{\hat {y}}_{j}\log y_{j}\\&=-{\frac {\partial }{\partial z_{i}}}{\hat {y}}_{i}\log y_{i}+\left(-{\frac {\partial }{\partial z_{i}}}\sum _{k\neq i}{\hat {y}}_{k}\log y_{k}\right)\\&=-{\hat {y}}_{i}{\frac {1}{y_{i}}}{\frac {\partial }{\partial z_{i}}}y_{i}+\sum _{k\neq i}\left(-{\hat {y}}_{k}\cdot {\frac {1}{y_{k}}}\cdot e^{\frac {z_{k}}{t}}\cdot \left(-{\frac {1}{\left(\sum _{j}e^{\frac {z_{j}}{t}}\right)^{2}}}\right)\cdot e^{\frac {z_{i}}{t}}\cdot {\frac {1}{t}}\right)\\&=-{\hat {y}}_{i}{\frac {1}{y_{i}}}{\frac {\partial }{\partial z_{i}}}{\frac {e^{\frac {z_{i}}{t}}}{\sum _{j}e^{\frac {z_{j}}{t}}}}+\sum _{k\neq i}\left({\hat {y}}_{k}\cdot {\frac {1}{y_{k}}}\cdot y_{k}\cdot y_{i}\cdot {\frac {1}{t}}\right)\\&=-{\hat {y}}_{i}{\frac {1}{y_{i}}}\left({\frac {{\frac {1}{t}}e^{\frac {z_{i}}{t}}\sum _{j}e^{\frac {z_{j}}{t}}-{\frac {1}{t}}\left(e^{\frac {z_{i}}{t}}\right)^{2}}{\left(\sum _{j}e^{\frac {z_{j}}{t}}\right)^{2}}}\right)+{\frac {y_{i}\sum _{k\neq i}{\hat {y}}_{k}}{t}}\\&=-{\hat {y}}_{i}{\frac {1}{y_{i}}}\left({\frac {y_{i}}{t}}-{\frac {y_{i}^{2}}{t}}\right)+{\frac {y_{i}(1-{\hat {y}}_{i})}{t}}\\&={\frac {1}{t}}\left(y_{i}-{\hat {y}}_{i}\right)\\&={\frac {1}{t}}\left({\frac {e^{\frac {z_{i}}{t}}}{\sum _{j}e^{\frac {z_{j}}{t}}}}-{\frac {e^{\frac {{\hat {z}}_{i}}{t}}}{\sum _{j}e^{\frac {{\hat {z}}_{j}}{t}}}}\right)\\\end{aligned}}

где логиты большой модели. Для больших значений это можно аппроксимировать как ${\hat {z}}_{i}$ $t$

{\frac {1}{t}}\left({\frac {1+{\frac {z_{i}}{t}}}{N+\sum _{j}{\frac {z_{j}}{t}}}}-{\frac {1+{\frac {{\hat {z}}_{i}}{t}}}{N+\sum _{j}{\frac {{\hat {z}}_{j}}{t}}}}\right)

и при гипотезе нулевого среднего оно становится , что является производной от , т.е. потеря эквивалентна сопоставлению логитов двух моделей, как это делается при сжатии моделей. ^[1] $\sum _{j}z_{j}=\sum _{j}{\hat {z}}_{j}=0$ ${\frac {z_{i}-{\hat {z}}_{i}}{NT^{2}}}$ ${\frac {1}{2}}\left(z_{i}-{\hat {z}}_{i}\right)^{2}$

Внешние ссылки

Переработка знаний в нейронной сети – Google AI

Дистилляция знаний

Концепция дистилляции

Формулировка

Связь со сжатием модели

Рекомендации

Внешние ссылки