Обобщенный алгоритм Хеббиана ( GHA ), также известный в литературе как правило Сэнгера , представляет собой линейную нейронную сеть прямого распространения для обучения без учителя с приложениями, главным образом, в анализе главных компонентов . Впервые определенное в 1989 году [1] , оно похоже на правило Оджи по своей формулировке и устойчивости, за исключением того, что его можно применять к сетям с несколькими выходами. Название происходит из-за сходства алгоритма с гипотезой Дональда Хебба [2] о том, каким образом сила синапсов в мозге изменяется в ответ на опыт, т. е. что изменения пропорциональны корреляции между срабатыванием пре- и постсинаптические нейроны . [3]
ГСГ объединяет правило Оджи с процессом Грама-Шмидта , чтобы создать правило обучения вида
где w ij определяет синаптический вес или силу связи между j -м входным и i -м выходным нейронами, x и y — входной и выходной векторы соответственно, а η — параметр скорости обучения .
В матричной форме правило Оджи можно записать
и алгоритм Грама-Шмидта
где w ( t ) — любая матрица, в данном случае представляющая синаптические веса, Q = η x x T — матрица автокорреляции, просто внешний продукт входных данных, Diag — функция, которая диагонализует матрицу, а нижняя — функция, которая устанавливает все элементы матрицы на диагонали или выше равны 0. Мы можем объединить эти уравнения, чтобы получить исходное правило в матричной форме:
где функция LT устанавливает все элементы матрицы выше диагонали равными 0, и обратите внимание, что наш выход y ( t ) = w ( t ) x ( t ) является линейным нейроном. [1]
[5] [6]
ГСГ используется в приложениях, где необходима самоорганизующаяся карта или где можно использовать анализ функций или основных компонентов . Примеры таких случаев включают искусственный интеллект и обработку речи и изображений.
Его важность обусловлена тем фактом, что обучение представляет собой одноуровневый процесс, то есть синаптический вес меняется только в зависимости от реакции входов и выходов этого слоя, что позволяет избежать многоуровневой зависимости, связанной с алгоритмом обратного распространения ошибки . Он также имеет простой и предсказуемый компромисс между скоростью обучения и точностью сходимости, заданный параметром скорости обучения η . [5]