stringtranslate.com

Обучающийся автомат

Обучающийся автомат — это один из типов алгоритмов машинного обучения , изучаемых с 1970-х годов. Обучающиеся автоматы выбирают свое текущее действие на основе прошлого опыта из окружающей среды. Он попадет в диапазон обучения с подкреплением, если окружающая среда является стохастической и используется процесс принятия решений Маркова (MDP).

История

Исследования в области обучающихся автоматов можно проследить до работ Михаила Львовича Цетлина в начале 1960-х годов в Советском Союзе. Вместе с некоторыми коллегами он опубликовал сборник статей о том, как использовать матрицы для описания функций автоматов. Кроме того, Цетлин работал над разумным и коллективным поведением автоматов и над играми автоматов . Обучающиеся автоматы также изучались исследователями в Соединенных Штатах в 1960-х годах. Однако термин обучающийся автомат не использовался, пока Нарендра и Тхатхачар не ввели его в обзорной статье в 1974 году.

Определение

Обучающийся автомат — это адаптивный блок принятия решений, расположенный в случайной среде, который изучает оптимальное действие посредством повторяющихся взаимодействий со своей средой. Действия выбираются в соответствии с определенным распределением вероятностей, которое обновляется на основе реакции среды, которую автомат получает, выполняя определенное действие.

В области обучения с подкреплением обучающиеся автоматы характеризуются как итераторы политики . В отличие от других обучающихся с подкреплением итераторы политики напрямую манипулируют политикой π. Другим примером итераторов политики являются эволюционные алгоритмы .

Формально Нарендра и Татхачар определяют стохастический автомат как состоящий из:

В своей статье они исследуют только стохастические автоматы с r = s и G , являющимися биективными , что позволяет им путать действия и состояния. Состояния такого автомата соответствуют состояниям «дискретно-параметрического марковского процесса ». [1] На каждом временном шаге t = 0,1,2,3,... автомат считывает входные данные из своей среды, обновляет p ( t ) до p ( t +1) с помощью A , случайным образом выбирает последующее состояние в соответствии с вероятностями p ( t +1) и выводит соответствующее действие. Среда автомата, в свою очередь, считывает действие и отправляет следующие входные данные автомату. Часто используется набор входных данных X = { 0,1 }, где 0 и 1 соответствуют нештрафному и штрафному ответу среды соответственно; в этом случае автомат должен научиться минимизировать количество штрафных ответов, а обратная связь автомата и среды называется «P-моделью». В более общем смысле, «Q-модель» допускает произвольный конечный набор входных данных X , а «S-модель» использует интервал [0,1] действительных чисел в качестве X. [2]

Визуализированная демонстрационная версия [3] [4] / Художественное произведение одного обучающегося автомата была разработана исследовательской группой μSystems (microSystems) в Университете Ньюкасла.

Автоматы обучения с конечным набором действий

Обучающиеся автоматы с конечным набором действий (FALA) — это класс обучающихся автоматов, для которых число возможных действий конечно или, выражаясь более математическими терминами, для которых размер набора действий конечен. [5]

Смотрите также

Литература

Ссылки

  1. ^ (Нарендра, Татачар, 1974) стр.325 слева
  2. ^ (Нарендра, Татачар, 1974) стр.325 справа
  3. ^ JieGH (2019-11-11), JieGH/The-Ruler-of-Tsetlin-Automaton , получено 2020-07-22
  4. ^ "Правитель-Цетлин-Автоматона". www.youtube.com . Получено 2020-07-22 .
  5. ^ Thathachar, MAL; Sastry, PS (декабрь 2002 г.). «Разновидности обучающихся автоматов: обзор» (PDF) . IEEE Transactions on Systems, Man, and Cybernetics - Part B: Cybernetics . 32 (6): 711–722. doi :10.1109/TSMCB.2002.1049606. PMID  18244878.