stringtranslate.com

Выбор действия

Выбор действия — это способ охарактеризовать самую основную проблему интеллектуальных систем: что делать дальше. В искусственном интеллекте и вычислительной когнитивной науке «проблема выбора действия» обычно связана с интеллектуальными агентами и аниматами — искусственными системами, которые демонстрируют сложное поведение в среде агента . Этот термин также иногда используется в этологии или поведении животных.

Одной из проблем понимания выбора действия является определение уровня абстракции, используемого для указания «действия». На самом базовом уровне абстракции атомарное действие может быть чем угодно, от сокращения мышечной клетки до провоцирования войны . Обычно для любого механизма выбора действия набор возможных действий предопределен и фиксирован.

Большинство исследователей, работающих в этой области, предъявляют высокие требования к своим агентам:

По этим причинам выбор действия не является тривиальным и требует большого количества исследований.

Характеристики проблемы выбора действия

Основная проблема выбора действия — сложность . Поскольку все вычисления занимают как время, так и пространство (в памяти), агенты не могут рассматривать все доступные им варианты в каждый момент времени. Следовательно, они должны быть предвзятыми и каким-то образом ограничивать свой поиск. Для ИИ вопрос выбора действия заключается в том, какой способ ограничения этого поиска является наилучшим ? Для биологии и этологии вопрос заключается в том, как различные типы животных ограничивают свой поиск? Все ли животные используют одни и те же подходы? Почему они используют те, которые используют?

Один из фундаментальных вопросов о выборе действия заключается в том, является ли это действительно проблемой для агента или это просто описание эмерджентного свойства поведения интеллектуального агента. Однако, если мы рассмотрим, как мы собираемся построить интеллектуального агента, то станет очевидно, что должен быть какой-то механизм для выбора действия. Этот механизм может быть высоко распределенным (как в случае распределенных организмов, таких как колонии социальных насекомых или слизевики ) или это может быть модуль специального назначения.

Механизм выбора действия (ASM) определяет не только действия агента с точки зрения воздействия на мир, но также направляет его перцептивное внимание и обновляет его память . Эти эгоцентрические виды действий могут, в свою очередь, приводить к изменению базовых поведенческих способностей агента, особенно в том, что обновление памяти подразумевает возможность некоторой формы машинного обучения . В идеале сам выбор действия также должен быть способен обучаться и адаптироваться, но существует множество проблем комбинаторной сложности и вычислительной управляемости , которые могут потребовать ограничения пространства поиска для обучения.

В ИИ ASM иногда также называют архитектурой агента или считают ее существенной частью.

Механизмы ИИ

Как правило, механизмы выбора искусственных действий можно разделить на несколько категорий: системы на основе символов, иногда называемые классическим планированием, распределенные решения и реактивное или динамическое планирование . Некоторые подходы не попадают ни в одну из этих категорий. Другие на самом деле больше касаются предоставления научных моделей , чем практического управления ИИ; последние описаны далее в следующем разделе.

Символические подходы

В начале истории искусственного интеллекта предполагалось, что лучшим способом для агента выбрать, что делать дальше, будет вычисление вероятно оптимального плана, а затем выполнение этого плана. Это привело к гипотезе физической символьной системы , согласно которой физический агент, способный манипулировать символами, необходим и достаточен для интеллекта. Многие программные агенты до сих пор используют этот подход для выбора действия. Обычно он требует описания всех показаний датчиков, мира, всех действий и всех целей в некоторой форме предикатной логики . Критики этого подхода жалуются, что он слишком медленный для планирования в реальном времени и что, несмотря на доказательства, он все еще вряд ли сможет создавать оптимальные планы, поскольку сведение описаний реальности к логике — это процесс, подверженный ошибкам.

Удовлетворение — это стратегия принятия решений, которая пытается соответствовать критериям адекватности, а не находить оптимальное решение. Стратегия удовлетворения часто может быть (почти) оптимальной, если затраты на сам процесс принятия решений, такие как затраты на получение полной информации, учитываются в расчете результата.

Архитектуры, ориентированные на цели . В этих символических архитектурах поведение агента обычно описывается набором целей. Каждая цель может быть достигнута процессом или действием, которые описываются предписанным планом. Агент должен просто решить, какой процесс выполнить для достижения заданной цели. План может расширяться до подцелей, что делает процесс слегка рекурсивным. Технически, более или менее, планы используют условия-правила. Эти архитектуры являются реактивными или гибридными. Классическими примерами архитектур, ориентированных на цели, являются реализуемые усовершенствования архитектуры убеждения-желания-намерения, такие как JAM или IVE.

Распределенные подходы

В отличие от символического подхода, распределенные системы выбора действия на самом деле не имеют ни одного «ящика» в агенте, который принимает решение о следующем действии. По крайней мере, в своей идеализированной форме распределенные системы имеют много модулей, работающих параллельно и определяющих наилучшее действие на основе локального опыта. В этих идеализированных системах ожидается, что каким-то образом возникнет общая согласованность, возможно, посредством тщательного проектирования взаимодействующих компонентов. Этот подход часто вдохновляется исследованиями искусственных нейронных сетей . На практике почти всегда существует некая централизованная система, определяющая, какой модуль является «наиболее активным» или имеет наибольшую значимость. Есть доказательства того, что в реальном биологическом мозге также есть такие системы принятия исполнительных решений , которые оценивают, какая из конкурирующих систем заслуживает наибольшего внимания или, что более правильно, имеет расторможенные желаемые действия .

Динамические подходы к планированию

Поскольку чисто распределенные системы сложно построить, многие исследователи обратились к использованию явных жестко запрограммированных планов для определения приоритетов своей системы.

Динамические или реактивные методы планирования вычисляют только одно следующее действие в каждый момент времени на основе текущего контекста и заранее прописанных планов. В отличие от классических методов планирования, реактивные или динамические подходы не страдают от комбинаторного взрыва . С другой стороны, их иногда считают слишком жесткими, чтобы считаться сильным ИИ , поскольку планы кодируются заранее. В то же время естественный интеллект может быть жестким в некоторых контекстах, хотя он текуч и способен адаптироваться в других.

Примеры механизмов динамического планирования включают в себя:

Иногда, чтобы попытаться решить кажущуюся негибкость динамического планирования, используются гибридные методы. В них более традиционная система планирования ИИ ищет новые планы, когда у агента есть свободное время, и обновляет библиотеку динамических планов, когда находит хорошие решения. Важным аспектом любой такой системы является то, что когда агенту нужно выбрать действие, существует некоторое решение, которое можно использовать немедленно (см. далее алгоритм anytime ).

Другие

Теории выбора действия в природе

Многие динамические модели искусственного выбора действий изначально были вдохновлены исследованиями в этологии . В частности, Конрад Лоренц и Николаас Тинберген выдвинули идею врожденного механизма высвобождения для объяснения инстинктивного поведения ( фиксированные модели действий ). Под влиянием идей Уильяма Макдугалла Лоренц развил ее в «психогидравлическую» модель мотивации поведения . В этологии эти идеи были влиятельными в 1960-х годах, но сейчас они считаются устаревшими из-за использования метафоры потока энергии ; нервная система и контроль поведения теперь обычно рассматриваются как включающие передачу информации, а не поток энергии. Динамические планы и нейронные сети больше похожи на передачу информации, в то время как распространяющаяся активация больше похожа на диффузный контроль эмоциональных / гормональных систем.

Стэн Франклин предположил, что выбор действия — это правильная точка зрения для понимания роли и эволюции разума . См. его страницу о парадигме выбора действия. Архивировано 2006-10-09 в Wayback Machine

Модели ИИ нейронного выбора действия

Некоторые исследователи создают сложные модели нейронного выбора действия. См. например:

Катехоламинергический нейронный транспорт электронов (CNET)

Голубое пятно (LC) является одним из основных источников норадреналина в мозге и связано с выбором когнитивной обработки , такой как внимание и поведенческие задачи. [3] [4] [5] [6] Компактная часть черной субстанции ( SNc) является одним из основных источников дофамина в мозге и связана с выбором действия, в первую очередь как часть базальных ганглиев . [7] [8] [9] [10] [11]  CNET — это предполагаемый нейронный сигнальный механизм в SNc и LC (которые являются катехоламинергическими нейронами), который может помочь с выбором действия, направляя энергию между нейронами в каждой группе в рамках выбора действия, чтобы помочь одному или нескольким нейронам в каждой группе достичь потенциала действия . [12] [13] Впервые он был предложен в 2018 году и основан на ряде физических параметров этих нейронов, которые можно разбить на три основных компонента:

1) Ферритин и нейромеланин присутствуют в высоких концентрациях в этих нейронах, но в 2018 году было неизвестно, образуют ли они структуры, которые были бы способны передавать электроны на относительно большие расстояния в масштабе микрон между самыми большими из этих нейронов, что ранее не предлагалось и не наблюдалось. [14]  Эти структуры также должны были бы обеспечивать функцию маршрутизации или переключения, что ранее также не предлагалось и не наблюдалось. Впоследствии были получены доказательства присутствия структур ферритина и нейромеланина в этих нейронах и их способности как проводить электроны путем последовательного туннелирования , так и маршрутизировать/переключать путь нейронов. [15] [16] [17]

2) ) Известно, что аксоны крупных нейронов SNc имеют обширные разветвления, но было неизвестно, повысит ли постсинаптическая активность в синапсах этих аксонов мембранный потенциал этих нейронов в достаточной степени, чтобы направить электроны в нейрон или нейроны с наибольшей постсинаптической активностью с целью выбора действия. В то время преобладающими объяснениями назначения этих нейронов было то, что они не опосредуют выбор действия, а являются только модуляторными и неспецифическими. [18]  Профессор Паскаль Кэзер из Гарвардской медицинской школы впоследствии получил доказательства того, что крупные нейроны SNc могут быть временно и пространственно специфичными и опосредовать выбор действия. [19]   Другие доказательства указывают на то, что крупные аксоны LC имеют похожее поведение. [20] [21]

3) Несколько источников электронов или экситонов для обеспечения энергии для механизма были выдвинуты в 2018 году, но в то время не наблюдались. Расщепление диоксетана (которое может происходить во время соматического метаболизма дофамина путем хиноновой деградации меланина) было одновременно предложено профессором Дугом Брашем из Йельского университета для генерации электронов триплетного состояния высокой энергии, что могло бы обеспечить источник электронов для механизма CNET. [22] [23] [24]

Хотя таким образом были получены доказательства ряда физических предсказаний гипотезы CNET, доказательства того, верна ли сама гипотеза, не были найдены. Один из способов попытаться определить, присутствует ли механизм CNET в этих нейронах, — это использовать квантовые точечные флуорофоры и оптические зонды для определения того, происходит ли туннелирование электронов, связанное с ферритином в нейронах, в связи с определенными действиями. [6] [25] [26]

Смотрите также

Ссылки

  1. ^ Самсонович, А.В. «Внимание в когнитивной архитектуре ASMO». Биологически вдохновленные когнитивные архитектуры (2010): 98. Архивировано 06.11.2022 в Wayback Machine
  2. ^ Карен Л. Майерс. "PRS-CL: Система процедурного рассуждения". Центр искусственного интеллекта . SRI International . Получено 13 июня 2013 г.
  3. ^ Сара, Сьюзен Дж. (декабрь 2015 г.). «Locus Coeruleus in time with the making of memories». Current Opinion in Neurobiology . 35 : 87–94. doi :10.1016/j.conb.2015.07.004. ISSN  0959-4388. PMID  26241632. S2CID  206952441.
  4. ^ Poe, Gina R.; Foote, Stephen; Eschenko, Oxana; Johansen, Joshua P.; Bouret, Sebastien; Aston-Jones, Gary; Harley, Carolyn W.; Manahan-Vaughan, Denise; Weinshenker, David; Valentino, Rita; Berridge, Craig; Chandler, Daniel J.; Waterhouse, Barry; Sara, Susan J. (2020-09-17). "Locus coeruleus: a new look at the blue spot". Nature Reviews Neuroscience . 21 (11): 644–659. doi :10.1038/s41583-020-0360-9. ISSN  1471-003X. PMC 8991985. PMID 32943779  . 
  5. ^ МакБерни-Лин, Джим; Ян, Хонгдиан (2022-09-04). «Голубое пятно опосредует поведенческую гибкость». Cell Reports . 41 (4): 111534. bioRxiv 10.1101/2022.09.01.506286 . doi :10.1016/j.celrep.2022.111534. PMC 9662304 . PMID  36288712. S2CID  252187005 . Получено 2022-11-13 .  
  6. ^ Аб Фэн, Цзеси; Чжан, Чанмей; Лищинский, Джульетта; Цзин, Мяо; Чжоу, Цзинхэн; Ван, Хуан; Чжан, Яджун; Донг, Ао; Ву, Чжаофа (23 октября 2018 г.). «Генетически закодированный флуоресцентный датчик для быстрого и специфического обнаружения норадреналина in vivo». дои : 10.1101/449546 . {{cite journal}}: Цитировать журнал требует |journal=( помощь )
  7. ^ Varazzani, C.; San-Galli, A.; Gilardeau, S.; Bouret, S. (2015-05-20). «Нейроны норадреналина и дофамина в компромиссе между вознаграждением и усилием: прямое электрофизиологическое сравнение у обезьян». Journal of Neuroscience . 35 (20): 7866–7877. doi : 10.1523/jneurosci.0454-15.2015 . ISSN  0270-6474. PMC 6795183 . PMID  25995472. S2CID  6531661. 
  8. ^ Фань, Д.; Росси, МА; Инь, ХХ (2012-04-18). «Механизмы выбора и синхронизации действий в нейронах черной субстанции». Журнал нейронауки . 32 (16): 5534–5548. doi :10.1523/jneurosci.5924-11.2012. ISSN  0270-6474. PMC 6703499. PMID 22514315  . 
  9. ^ Партанен, Юха; Ахим, Кайя (2022-09-06). "Поведение нейронов, управляющее сигналами — особенности развития, молекулярные и функциональные особенности нейронов в сетчатой ​​части черной субстанции". Frontiers in Neuroscience . 16 : 976209. doi : 10.3389/fnins.2022.976209 . ISSN  1662-453X. PMC 9485944. PMID 36148148  . 
  10. ^ Стивенсон-Джонс, Маркус; Самуэльссон, Эбба; Эрикссон, Йеспер; Робертсон, Брита; Гриллнер, Стен (июль 2011 г.). «Эволюционная консервация базальных ганглиев как общего механизма позвоночных для выбора действия». Current Biology . 21 (13): 1081–1091. Bibcode : 2011CBio...21.1081S. doi : 10.1016/j.cub.2011.05.001 . ISSN  0960-9822. PMID  21700460. S2CID  9327412.
  11. ^ Гваттео, Эция; Куччиарони, Мария Летиция; Меркури, Никола Б. (2009), «Контроль черной субстанции над ядрами базальных ганглиев», Рождение, жизнь и смерть дофаминергических нейронов в черной субстанции , вып. 73, Вена: Springer Vienna, стр. 91–101, номер документа : 10.1007/978-3-211-92660-4_7, ISBN. 978-3-211-92659-8, PMID  20411770 , получено 2022-11-13
  12. ^ Rourk, Christopher John (сентябрь 2018 г.). «Структуры массивов «квантовых точек» ферритина и нейромеланина в дофаминовых нейронах компактной части черной субстанции и норадреналиновых нейронах голубого пятна». Biosystems . 171 : 48–58. Bibcode :2018BiSys.171...48R. doi : 10.1016/j.biosystems.2018.07.008 . ISSN  0303-2647. PMID  30048795. S2CID  51722018.
  13. ^ Rourk, Christopher J. (2020), «Функциональный нейронный транспорт электронов», Quantum Boundaries of Life , Advances in Quantum Chemistry, т. 82, Elsevier, стр. 25–111, doi : 10.1016/bs.aiq.2020.08.001, ISBN 9780128226391, S2CID  229230562 , получено 2022-11-13
  14. ^ Трибл, Флориан; Асан, Эстер; Арцбергер, Томас; Тачнер, Томас; Лангенфельд, Эльмар; Мейер, Хельмут Э.; Брингманн, Герхард; Ридерер, Питер; Герлах, Манфред; Маркус, Катрин (август 2009 г.). «Идентификация L-ферритина в гранулах нейромеланина черной субстанции человека». Молекулярная и клеточная протеомика . 8 (8): 1832–1838. дои : 10.1074/mcp.m900006-mcp200 . ISSN  1535-9476. ПМЦ 2722774 . PMID  19318681. S2CID  23650245. 
  15. ^ Rourk, Christopher J. (май 2019). «Индикация квантово-механического электронного транспорта в ткани человеческой субстанции nigra с помощью анализа кондуктивной атомно-силовой микроскопии». Biosystems . 179 : 30–38. Bibcode :2019BiSys.179...30R. doi :10.1016/j.biosystems.2019.02.003. ISSN  0303-2647. PMID  30826349. S2CID  73509918.
  16. ^ Rourk, Christopher; Huang, Yunbo; Chen, Minjing; Shen, Cai (2021-06-16). "Индикация высококоррелированного электронного транспорта в неупорядоченных многослойных структурах ферритина". doi :10.31219/osf.io/7gqmt. S2CID  241118606 . Получено 2022-11-13 . {{cite journal}}: Цитировать журнал требует |journal=( помощь )
  17. ^ Фридрих, И.; Рейманн, К.; Янкюн, С.; Кирилина, Э.; Штилер, Й.; Зоннтаг, М.; Мейер, Й.; Вайскопф, Н.; Рейнерт, Т.; Арендт, Т.; Моравски, М. (2021-03-22). "Клеточно-специфическое количественное картирование железа на срезах мозга с помощью иммуно-µPIXE у здоровых пожилых людей и при болезни Паркинсона". Acta Neuropathologica Communications . 9 (1): 47. doi : 10.1186/s40478-021-01145-2 . ISSN  2051-5960. PMC 7986300. PMID 33752749.  S2CID 232322739  . 
  18. ^ Шульц, Вольфрам (2016-02-02). «Функции вознаграждения базальных ганглиев». Журнал Neural Transmission . 123 (7): 679–693. doi : 10.1007/s00702-016-1510-0 . ISSN  0300-9564. PMC 5495848. PMID 26838982.  S2CID 3894133  . 
  19. ^ Лю, Чанлян; Гоэль, Прагья; Кэзер, Паскаль С. (2021-04-09). «Пространственные и временные шкалы передачи дофамина». Nature Reviews Neuroscience . 22 (6): 345–358. doi :10.1038/s41583-021-00455-7. ISSN  1471-003X. PMC 8220193. PMID 33837376  . 
  20. ^ Behl, Tapan; Kaur, Ishnoor; Sehgal, Aayush; Singh, Sukhbir; Makeen, Hafiz A.; Albratty, Mohammed; Alhazmi, Hassan A.; Bhatia, Saurabh; Bungau, Simona (июль 2022 г.). «Голубое пятно – система норадреналина: взгляд на терапию болезни Альцгеймера через розовые очки». Биомедицина и фармакотерапия . 151 : 113179. doi : 10.1016/j.biopha.2022.113179 . ISSN  0753-3322. PMID  35676784. S2CID  249137521.
  21. ^ Бретон-Прованшер, Винсент; Драммонд, Габриэль Т.; Сур, Мриганка (2021-06-07). "Locus Coeruleus Norepinegrine in Learned Behavior: Anatomical Modularity and Spatiomeporal Integration in Targets". Frontiers in Neural Circuits . 15 : 638007. doi : 10.3389/fncir.2021.638007 . ISSN  1662-5110. PMC 8215268. PMID 34163331  . 
  22. ^ Brash, Douglas E.; Goncalves, Leticia CP; Bechara, Etelvino JH (июнь 2018 г.). «Хемивозбуждение и его последствия для заболеваний». Trends in Molecular Medicine . 24 (6): 527–541. doi :10.1016/j.molmed.2018.04.004. ISSN  1471-4914. PMC 5975183. PMID 29751974  . 
  23. ^ Зульцер, Дэвид; Кэссиди, Клиффорд; Хорга, Гильермо; Канг, Ун Юнг; Фан, Стэнли; Казелла, Луиджи; Пеццоли, Джанни; Лэнгли, Джейсон; Ху, Сяопин П.; Зукка, Фабио А.; Исайас, Иоаннис У.; Зекка, Луиджи (10 апреля 2018 г.). «Обнаружение нейромеланина с помощью магнитно-резонансной томографии (МРТ) и его перспективность в качестве биомаркера болезни Паркинсона». npj Болезнь Паркинсона . 4 (1): 11. дои : 10.1038/s41531-018-0047-3. ISSN  2373-8057. ПМЦ 5893576 . ПМИД  29644335. 
  24. ^ Premi, S.; Wallisch, S.; Mano, CM; Weiner, AB; Bacchiocchi, A.; Wakamatsu, K.; Bechara, EJH; Halaban, R.; Douki, T.; Brash, DE (2015-02-19). «Хемическое возбуждение производных меланина индуцирует фотопродукты ДНК в течение длительного времени после воздействия УФ-излучения». Science . 347 (6224): 842–847. Bibcode :2015Sci...347..842P. doi :10.1126/science.1256022. ISSN  0036-8075. PMC 4432913 . PMID  25700512. 
  25. ^ Пизано, Филиппо; Пизанелло, Марко; Ли, Сок Джун; Ли, Джеон; Магли, Эмануэла; Балена, Антонио; Силео, Леонардо; Спаньоло, Барбара; Бьянко, Марко; Хён, Минсук; Де Витторио, Массимо; Сабатини, Бернардо Л.; Пизанелло, Ферруччо (ноябрь 2019 г.). «Волоконная фотометрия с разрешением по глубине с одним имплантатом конического оптического волокна». Природные методы . 16 (11): 1185–1192. дои : 10.1038/s41592-019-0581-x. ISSN  1548-7091. PMID  31591577. S2CID  203848191.
  26. ^ Гарг, Маянк; Вишвакарма, Нилам; Шарма, Амит Л.; Сингх, Суман (2021-07-08). «Амин-функционализированные графеновые квантовые точки для флуоресцентного иммуносенсорного анализа ферритина». ACS Applied Nano Materials . 4 (7): 7416–7425. doi :10.1021/acsanm.1c01398. ISSN  2574-0970. S2CID  237804893.

Дальнейшее чтение

Внешние ссылки