Оперантное обусловливание , также называемое инструментальным обусловливанием , представляет собой процесс обучения, в котором произвольное поведение модифицируется путем ассоциации с добавлением (или удалением) вознаграждения или аверсивных стимулов. Частота или продолжительность поведения может увеличиваться за счет подкрепления или уменьшаться за счет наказания или вымирания .
Оперантное обусловливание возникло у Эдварда Торндайка , чей закон эффекта предполагал, что поведение возникает в результате последствий, таких как удовлетворение или дискомфорт. В 20 веке оперантное обусловливание изучалось поведенческими психологами , которые считали, что большая часть разума и поведения объясняется обусловленностью окружающей средой. Подкрепления — это стимулы окружающей среды, которые усиливают поведение, тогда как наказания — это стимулы, которые ослабляют поведение. Оба вида стимулов можно далее разделить на положительные и отрицательные стимулы, которые соответственно подразумевают добавление или удаление стимулов окружающей среды.
Оперантное обусловливание отличается от классического обусловливания , которое представляет собой процесс, в котором стимулы сочетаются с биологически значимыми событиями для создания непроизвольного и рефлекторного поведения. Напротив, оперантное обусловливание является произвольным и зависит от последствий поведения.
Изучение обучения животных в 20 веке было сосредоточено на анализе этих двух видов обучения, [1] и они все еще находятся в основе анализа поведения. Они также были применены к изучению социальной психологии , помогая прояснить некоторые явления, такие как эффект ложного консенсуса . [2]
Оперантное обусловливание, иногда называемое инструментальным обучением , впервые было подробно изучено Эдвардом Л. Торндайком (1874–1949), который наблюдал за поведением кошек, пытающихся выбраться из самодельных коробок-головоломок. [3] Кошка могла выбраться из коробки с помощью простой реакции, например, потянув за шнур или толкнув столб, но когда ее сначала ограничивали, кошкам требовалось много времени, чтобы выбраться. При повторных попытках неэффективные реакции случались реже, а успешные — чаще, поэтому кошки сбегали все быстрее и быстрее. [3] Торндайк обобщил это открытие в своем законе эффекта , который гласит, что поведение, за которым следуют удовлетворяющие последствия, имеет тенденцию повторяться, а поведение, которое приводит к неприятным последствиям, с меньшей вероятностью будет повторяться. Короче говоря, некоторые последствия усиливают поведение, а некоторые — ослабляют . Построив график зависимости времени побега от количества попыток, Торндайк создал первые известные кривые обучения животных с помощью этой процедуры. [4]
Люди, по-видимому, усваивают множество простых форм поведения посредством процесса, изученного Торндайком, который теперь называется оперантным обусловливанием. То есть, реакции сохраняются, когда они приводят к успешному результату, и отбрасываются, когда они не приводят или когда они вызывают аверсивные эффекты. Обычно это происходит без планирования каким-либо «учителем», но оперантное обусловливание использовалось родителями при обучении своих детей на протяжении тысяч лет. [5]
Б. Ф. Скиннера (1904–1990) называют отцом оперантного обусловливания, и его работы часто цитируются в связи с этой темой. Его книга 1938 года «Поведение организмов: экспериментальный анализ» [6] положила начало его пожизненному изучению оперантного обусловливания и его применению к поведению человека и животных. Следуя идеям Эрнста Маха , Скиннер отверг ссылку Торндайка на ненаблюдаемые психические состояния, такие как удовлетворение, построив свой анализ на наблюдаемом поведении и его столь же наблюдаемых последствиях. [7]
Скиннер считал, что классическое обусловливание слишком упрощено, чтобы его можно было использовать для описания чего-то столь сложного, как человеческое поведение. Оперантное обусловливание, по его мнению, лучше описывало человеческое поведение, поскольку оно изучало причины и следствия преднамеренного поведения.
Для реализации своего эмпирического подхода Скиннер изобрел камеру оперантного обусловливания , или « ящик Скиннера », в которой субъекты, такие как голуби и крысы, были изолированы и могли подвергаться тщательно контролируемым стимулам. В отличие от ящика-головоломки Торндайка, эта конструкция позволяла субъекту давать один или два простых, повторяющихся ответа, и скорость таких ответов стала для Скиннера основным поведенческим показателем. [8] Другое изобретение, кумулятивный регистратор, создавало графическую запись, с помощью которой можно было оценить эти скорости ответов. Эти записи были основными данными, которые Скиннер и его коллеги использовали для изучения влияния различных схем подкрепления на скорость ответа. [9] Схема подкрепления может быть определена как «любая процедура, которая доставляет подкрепление организму в соответствии с некоторым четко определенным правилом». [10] Эффекты схем стали, в свою очередь, основными выводами, на основе которых Скиннер разработал свой отчет об оперантном обусловливании. Он также опирался на многие менее формальные наблюдения поведения человека и животных. [11]
Многие из трудов Скиннера посвящены применению оперантного обусловливания к человеческому поведению. [12] В 1948 году он опубликовал «Уолден Два» — вымышленный рассказ о мирном, счастливом, продуктивном сообществе, организованном вокруг его принципов обусловливания. [13] В 1957 году Скиннер опубликовал «Вербальное поведение » [14] , в котором принципы оперантного обусловливания были распространены на язык — форму человеческого поведения, которая ранее была проанализирована совершенно по-другому лингвистами и другими. Скиннер определил новые функциональные отношения, такие как «манд» и «такт», чтобы охватить некоторые основы языка, но он не ввел никаких новых принципов, рассматривая вербальное поведение как любое другое поведение, контролируемое его последствиями, которые включали реакции аудитории говорящего.
Оперантное поведение называется «выпускаемым»; то есть изначально оно не вызывается каким-либо конкретным стимулом. Таким образом, можно спросить, почему это происходит в первую очередь. Ответ на этот вопрос подобен ответу Дарвина на вопрос о происхождении «новой» телесной структуры, а именно, вариации и отборе. Аналогично поведение индивидуума меняется от момента к моменту в таких аспектах, как конкретные задействованные движения, величина приложенной силы или время реакции. Изменения, которые приводят к подкреплению, усиливаются, и если подкрепление последовательно, поведение имеет тенденцию оставаться стабильным. Однако сама по себе поведенческая изменчивость может быть изменена посредством манипулирования определенными переменными. [15]
Подкрепление и наказание являются основными инструментами, посредством которых изменяется оперантное поведение. Эти термины определяются по их влиянию на поведение. «Положительный» и «отрицательный» относятся к тому, был ли стимул добавлен или удален соответственно. Аналогично, «подкрепление» и «наказание» относятся к будущей частоте поведения. Подкрепление описывает последствие, которое заставляет поведение происходить чаще в будущем, тогда как наказание — это последствие, которое заставляет поведение происходить реже. [16]
Всего существует четыре последствия:
Графики подкрепления — это правила, которые контролируют доставку подкрепления. Правила определяют либо время, когда подкрепление должно быть доступно, либо количество ответов, которые должны быть сделаны, либо и то, и другое. Возможны многие правила, но следующие являются наиболее основными и часто используемыми [19] [9]
Эффективность подкрепления и наказания можно изменить.
Большинство этих факторов выполняют биологические функции. Например, процесс насыщения помогает организму поддерживать стабильную внутреннюю среду ( гомеостаз ). Когда организм лишается сахара, например, вкус сахара является эффективным подкрепителем. Когда уровень сахара в крови организма достигает или превышает оптимальный уровень, вкус сахара становится менее эффективным или даже отталкивающим.
Формирование — это метод обусловливания, часто используемый при дрессировке животных и обучении невербальных людей. Он зависит от изменчивости операнта и подкрепления, как описано выше. Тренер начинает с определения желаемого конечного (или «целевого») поведения. Затем тренер выбирает поведение, которое животное или человек уже демонстрирует с некоторой вероятностью. Затем форма этого поведения постепенно меняется в ходе последовательных испытаний путем подкрепления поведения, которое все больше и больше приближается к целевому поведению. Когда целевое поведение наконец демонстрируется, его можно усилить и поддерживать с помощью графика подкрепления.
Необусловленное подкрепление — это доставка подкрепляющих стимулов независимо от поведения организма. Необусловленное подкрепление может использоваться в попытке уменьшить нежелательное целевое поведение путем подкрепления нескольких альтернативных ответов при одновременном погашении целевого ответа. [22] Поскольку ни одно измеряемое поведение не идентифицировано как подкрепляемое, существуют разногласия относительно использования термина необусловленное «подкрепление». [23]
Хотя изначально оперантное поведение проявляется без определенной ссылки на конкретный стимул, во время оперантного обусловливания операнты попадают под контроль стимулов, которые присутствуют при подкреплении поведения. Такие стимулы называются «дискриминационными стимулами». Результатом является так называемая « трехчленная обусловленность ». То есть дискриминационные стимулы задают повод для ответов, которые производят вознаграждение или наказание. Пример: крысу можно обучить нажимать на рычаг только тогда, когда загорается свет; собака бросается на кухню, когда слышит грохот своего пакета с едой; ребенок тянется за конфетой, когда видит ее на столе.
Большая часть поведения находится под контролем стимула. Можно выделить несколько аспектов этого:
Большую часть поведения невозможно легко описать в терминах индивидуальных реакций, подкрепляемых одна за другой. Область действия оперантного анализа расширяется за счет идеи поведенческих цепочек, которые представляют собой последовательности реакций, связанных вместе трехчленными непредвиденными обстоятельствами, определенными выше. Цепочка основана на экспериментально продемонстрированном факте, что дискриминационный стимул не только задает повод для последующего поведения, но и может подкреплять поведение, которое ему предшествует. То есть дискриминационный стимул также является «условным подкрепителем». Например, свет, который задает повод для нажатия рычага, может использоваться для подкрепления «поворота» при наличии шума. Это приводит к последовательности «шум – поворот – свет – нажатие рычага – еда». Можно построить гораздо более длинные цепочки, добавляя больше стимулов и ответов.
При обучении избеганию поведение прекращает (отталкивающий) стимул. Например, прикрытие глаз от солнечного света прекращает (отталкивающую) стимуляцию яркого света в глазах. (Это пример отрицательного подкрепления, определенного выше.) Поведение, которое поддерживается путем предотвращения стимула, называется «избеганием», как, например, надевание солнцезащитных очков перед выходом на улицу. Поведение избегания поднимает так называемый «парадокс избегания», поскольку, можно спросить, как отсутствие стимула может служить подкреплением? Этот вопрос рассматривается несколькими теориями избегания (см. ниже).
Обычно используются два вида экспериментальных установок: дискриминантное и свободно-оперантное обучение избеганию.
Эксперимент по различенному избеганию включает серию испытаний, в которых нейтральный стимул, такой как свет, сопровождается аверсивным стимулом, таким как удар током. После появления нейтрального стимула оперантная реакция, такая как нажатие рычага, предотвращает или прекращает аверсивный стимул. В ранних испытаниях субъект не реагирует, пока не появится аверсивный стимул, поэтому эти ранние испытания называются испытаниями «избегания». По мере обучения субъект начинает реагировать во время нейтрального стимула и, таким образом, предотвращает возникновение аверсивного стимула. Такие испытания называются «испытаниями избегания». Говорят, что этот эксперимент включает классическое обусловливание, потому что нейтральный CS (условный стимул) сочетается с аверсивным US (безусловным стимулом); эта идея лежит в основе двухфакторной теории обучения избеганию, описанной ниже.
При свободном оперантном избегании субъект периодически получает аверсивный стимул (часто электрический шок), если только не происходит оперантная реакция; реакция задерживает начало удара током. В этой ситуации, в отличие от дифференцированного избегания, никакой предшествующий стимул не сигнализирует о ударе током. Два важных временных интервала определяют скорость обучения избеганию. Первый — интервал SS (шок-шок). Это время между последовательными ударами током при отсутствии реакции. Второй интервал — интервал RS (реакция-шок). Он определяет время, на которое оперантная реакция задерживает начало следующего удара током. Каждый раз, когда субъект выполняет оперантную реакцию, интервал RS без удара током начинается заново.
Эта теория была первоначально предложена для объяснения дискриминационного обучения избеганию, при котором организм учится избегать аверсивного стимула, избегая сигнала для этого стимула. Вовлечены два процесса: классическое обусловливание сигнала, за которым следует оперантное обусловливание реакции избегания:
a) Классическое обусловливание страха. Первоначально организм испытывает сопряжение CS с аверсивным US. Теория предполагает, что это сопряжение создает ассоциацию между CS и US посредством классического обусловливания, и из-за аверсивной природы US CS начинает вызывать условную эмоциональную реакцию (CER) – «страх». b) Подкрепление оперантного ответа путем уменьшения страха. В результате первого процесса CS теперь сигнализирует о страхе; эта неприятная эмоциональная реакция служит для мотивации оперантных ответов, а ответы, которые прекращают CS, подкрепляются прекращением страха. Теория не говорит, что организм «избегает» US в смысле его предвосхищения, а скорее, что организм «избегает» аверсивного внутреннего состояния, которое вызвано CS. Несколько экспериментальных результатов, по-видимому, противоречат двухфакторной теории. Например, поведение избегания часто очень медленно угасает, даже если первоначальное сопряжение CS-US больше никогда не происходит, поэтому можно ожидать, что реакция страха угаснет (см. Классическое обусловливание ). Кроме того, животные, научившиеся избегать, часто не проявляют признаков страха, что говорит о том, что избавление от страха не является необходимым условием для поддержания поведения избегания. [24]
Некоторые теоретики предполагают, что поведение избегания может быть просто частным случаем оперантного поведения, поддерживаемого его последствиями. С этой точки зрения идея «последствий» расширяется, чтобы включить чувствительность к шаблону событий. Таким образом, при избегании последствием реакции является снижение скорости аверсивной стимуляции. Действительно, экспериментальные данные свидетельствуют о том, что «пропущенный удар» распознается как стимул и может действовать как подкрепление. Когнитивные теории избегания продвигают эту идею на шаг дальше. Например, крыса начинает «ожидать» удара, если она не нажимает на рычаг, и «не ожидать удара», если она нажимает на него, и поведение избегания усиливается, если эти ожидания подтверждаются. [24]
Оперантное накопление относится к наблюдению, что крысы, подкрепленные определенным образом, могут позволить пищевым гранулам накапливаться в пищевом лотке вместо того, чтобы извлекать эти гранулы. В этой процедуре извлечение гранул всегда устанавливало одноминутный период угасания , в течение которого не было доступных дополнительных пищевых гранул, но те, которые были накоплены ранее, могли быть потреблены. Это открытие, по-видимому, противоречит обычному открытию, что крысы ведут себя импульсивно в ситуациях, в которых есть выбор между меньшим пищевым объектом сразу и большим пищевым объектом после некоторой задержки. См. графики подкрепления . [25]
Первые научные исследования, идентифицирующие нейроны , которые реагировали способами, предполагающими, что они кодируют условные стимулы, были проведены в работах Малона ДеЛонга [26] [27] и Р. Т. Ричардсона. [27] Они показали, что нейроны базального ядра , которые выделяют ацетилхолин по всей коре головного мозга , активируются вскоре после условного стимула или после первичного вознаграждения, если условного стимула не существует. Эти нейроны одинаково активны для положительных и отрицательных подкреплений и, как было показано, связаны с нейропластичностью во многих областях коры . [28] Также существуют доказательства того, что дофамин активируется в схожие моменты времени. Существуют весомые доказательства того, что дофамин участвует как в подкреплении, так и в отвращении к обучению. [29] Дофаминовые пути гораздо плотнее проецируются на фронтальные области коры. Холинергические проекции, напротив, плотны даже в задних областях коры, таких как первичная зрительная кора . Исследование пациентов с болезнью Паркинсона , состоянием, приписываемым недостаточному действию дофамина, дополнительно иллюстрирует роль дофамина в положительном подкреплении. [30] Оно показало, что без приема лекарств пациенты обучались более охотно с аверсивными последствиями, чем с положительным подкреплением. Пациенты, принимавшие лекарства, показали противоположный результат: положительное подкрепление оказалось более эффективной формой обучения при высокой активности дофамина.
Было высказано предположение, что в основе подкрепления лежит нейрохимический процесс с участием дофамина. Когда организм испытывает подкрепляющий стимул, в мозге активируются дофаминовые пути. Эта сеть путей «высвобождает короткий импульс дофамина на многие дендриты , таким образом передавая глобальный сигнал подкрепления постсинаптическим нейронам ». [31] Это позволяет недавно активированным синапсам повысить свою чувствительность к эфферентным (проводящим наружу) сигналам, тем самым увеличивая вероятность возникновения недавних ответов, которые предшествовали подкреплению. Эти ответы, статистически, наиболее вероятно, были поведением, ответственным за успешное достижение подкрепления. Но когда применение подкрепления либо менее немедленное, либо менее условное (менее последовательное), способность дофамина воздействовать на соответствующие синапсы снижается.
Ряд наблюдений, по-видимому, показывают, что оперантное поведение может быть установлено без подкрепления в смысле, определенном выше. Наиболее часто упоминается явление автоформирования (иногда называемое «отслеживанием знаков»), при котором стимул многократно сопровождается подкреплением, и в результате животное начинает реагировать на стимул. Например, загорается ответная клавиша, а затем предоставляется еда. Когда это повторяется несколько раз, голубь-испытуемый начинает клевать клавишу, даже если еда приходит независимо от того, клюет птица или нет. Аналогично крысы начинают обращаться с небольшими предметами, такими как рычаг, когда еда находится поблизости. [32] [33] Поразительно, что голуби и крысы сохраняют это поведение даже тогда, когда клевание клавиши или нажатие рычага приводит к меньшему количеству еды (обучение пропуску). [34] [35] Другое очевидное оперантное поведение, которое появляется без подкрепления, — это контрфрилоадинг .
Эти и другие наблюдения, по-видимому, противоречат закону эффекта , и они побудили некоторых исследователей предложить новые концептуализации оперантного подкрепления (например, [36] [37] [38] ). Более общая точка зрения заключается в том, что автоформирование является примером классического обусловливания ; процедура автоформирования, по сути, стала одним из наиболее распространенных способов измерения классического обусловливания. С этой точки зрения, многие виды поведения могут быть подвержены влиянию как классических обстоятельств (стимул-реакция), так и оперантных обстоятельств (реакция-подкрепление), и задача экспериментатора состоит в том, чтобы выяснить, как они взаимодействуют. [39]
Подкрепление и наказание повсеместно распространены в социальных взаимодействиях людей, и было предложено и реализовано множество приложений оперантных принципов. Ниже приведены некоторые примеры.
Положительное и отрицательное подкрепление играют центральную роль в развитии и поддержании зависимости от наркотиков . Наркотик, вызывающий зависимость , по своей сути является вознаграждающим ; то есть он функционирует как первичный положительный подкрепитель употребления наркотиков. Система вознаграждения мозга присваивает ему стимульную значимость (то есть, он «желаемый» или «желаемый»), [40] [41] [42] поэтому по мере развития зависимости лишение наркотика приводит к тяге. Кроме того, стимулы, связанные с употреблением наркотиков, например, вид шприца и место использования, становятся связанными с интенсивным подкреплением, вызванным наркотиком. [40] [41] [42] Эти ранее нейтральные стимулы приобретают несколько свойств: их внешний вид может вызывать тягу, и они могут стать условными положительными подкрепителями постоянного употребления. [40] [41] [42] Таким образом, если зависимый человек сталкивается с одним из этих сигналов о наркотиках, тяга к связанному с ними наркотику может возникнуть снова. Например, антинаркотические агентства ранее использовали плакаты с изображениями принадлежностей для употребления наркотиков , чтобы показать опасность употребления наркотиков. Однако такие плакаты больше не используются из-за эффектов стимульной заметности, вызывающих рецидив при виде стимулов, изображенных на плакатах.
У лиц, зависимых от наркотиков, отрицательное подкрепление происходит, когда наркотики вводятся самостоятельно с целью облегчения или «избежания» симптомов физической зависимости (например, тремора и потливости) и/или психологической зависимости (например, ангедонии , беспокойства, раздражительности и тревожности), которые возникают во время состояния отмены наркотиков . [40]
Дрессировщики и владельцы домашних животных применяли принципы и методы оперантного обусловливания задолго до того, как эти идеи были названы и изучены, и дрессировка животных по-прежнему является одним из самых ясных и убедительных примеров оперантного контроля. Из концепций и процедур, описанных в этой статье, наиболее яркими являются следующие: (a) наличие первичного подкрепления (например, пакет вкусняшек для собак); (b) использование вторичного подкрепления (например, звук кликера сразу после желаемой реакции, а затем предоставление вкусняшки); (c) обусловленность, гарантирующая, что подкрепление (например, кликер) следует за желаемым поведением, а не за чем-то другим; (d) формирование, например, постепенное принуждение собаки прыгать все выше и выше; (e) прерывистое подкрепление, например, постепенное снижение частоты подкрепления для того, чтобы вызвать устойчивое поведение без насыщения; (f) цепочка, где сложное поведение постепенно строится из более мелких единиц. [43]
Прикладной анализ поведения — дисциплина, инициированная Б. Ф. Скиннером , которая применяет принципы обусловливания к модификации социально значимого поведения человека. Она использует основные концепции теории обусловливания, включая условный стимул (S C ), дискриминационный стимул (S d ), реакцию (R) и подкрепляющий стимул (S rein или S r для подкрепителей, иногда S ave для аверсивных стимулов). [24]
Практикующие прикладной поведенческий анализ (ABA) используют эти процедуры и множество их вариаций и разработок для решения различных социально значимых форм поведения и проблем. Во многих случаях практикующие используют оперантные методы для разработки конструктивного, социально приемлемого поведения, заменяющего аберрантное поведение. Методы ABA эффективно применялись в таких областях, как раннее интенсивное поведенческое вмешательство для детей с расстройством аутистического спектра (РАС) [44], исследование принципов, влияющих на преступное поведение , профилактика ВИЧ, [45] сохранение природных ресурсов, [46] образование, [47] геронтология , [48] здоровье и физические упражнения , [49] безопасность на производстве , [50] усвоение языка , [51] мусор, [52] медицинские процедуры , [53] воспитание детей, [54] психотерапия , [ требуется ссылка ] использование ремней безопасности, [55] тяжелые психические расстройства , [56] спорт, [57] злоупотребление психоактивными веществами , фобии , расстройства питания у детей, а также управление зоопарками и уход за животными . [58] Некоторые из этих приложений описаны ниже.
Предоставление положительного подкрепления для соответствующего поведения ребенка является основным направлением обучения родительского управления. Обычно родители учатся поощрять соответствующее поведение посредством социальных вознаграждений (таких как похвала, улыбки и объятия), а также конкретных вознаграждений (таких как наклейки или баллы в сторону большего вознаграждения как часть системы стимулирования, созданной совместно с ребенком). [59] Кроме того, родители учатся выбирать простое поведение в качестве первоначального фокуса и поощрять каждый из небольших шагов, которые их ребенок совершает на пути к достижению большей цели (эта концепция называется «последовательные приближения»). [59] [60]
И психологи, и экономисты заинтересовались применением оперантных концепций и результатов к поведению людей на рынке. Примером может служить анализ потребительского спроса, индексируемого по количеству купленного товара. В экономике степень, в которой цена влияет на потребление, называется «ценовой эластичностью спроса». Некоторые товары более эластичны, чем другие; например, изменение цены на определенные продукты питания может иметь большое влияние на количество купленного товара, в то время как бензин и другие повседневные потребительские товары могут быть в меньшей степени затронуты изменениями цен. С точки зрения оперантного анализа такие эффекты могут быть интерпретированы с точки зрения мотивации потребителей и относительной ценности товаров как подкрепителей. [61]
Как уже говорилось ранее в этой статье, график переменного соотношения дает подкрепление после выдачи непредсказуемого количества ответов. Этот график обычно генерирует быстрые, устойчивые ответы. Игровые автоматы окупаются по графику переменного соотношения, и они вызывают именно такое устойчивое поведение тяги рычага у игроков. Выплата переменного соотношения от игровых автоматов и других форм азартных игр часто упоминается как фактор, лежащий в основе игровой зависимости. [62]
У людей есть врожденное сопротивление убийству, и они неохотно действуют напрямую, агрессивно по отношению к представителям своего вида, даже чтобы спасти жизнь. Это сопротивление убийству привело к тому, что пехота была удивительно неэффективна на протяжении всей истории военных действий. [63]
Этот феномен не был понят, пока бригадный генерал и военный историк С. Л. Маршалл не провел интервью с пехотой Второй мировой войны сразу после боя. Известная и противоречивая книга Маршалла «Люди против огня» показала, что только 15% солдат стреляли из винтовок с целью убить в бою. [64] После принятия исследований Маршалла армией США в 1946 году Управление исследований кадровых ресурсов армии США начало внедрять новые протоколы обучения, которые напоминают методы оперантного обусловливания. Последующее применение таких методов увеличило процент солдат, способных убивать, примерно до 50% в Корее и более чем до 90% во Вьетнаме. [63] Революции в обучении включали замену традиционных выдвижных тиров на трехмерные, в форме человека, выдвижные мишени, которые разрушались при попадании. Это обеспечивало немедленную обратную связь и действовало как положительное подкрепление для поведения солдата. [65] Другие усовершенствования методов военной подготовки включали курс стрельбы по времени; более реалистичное обучение; большое количество повторений; похвалу от начальников; награды за меткую стрельбу; и групповое признание. Отрицательное подкрепление включает в себя ответственность перед сверстниками или требование пересдавать курсы. Современная военная подготовка обуславливает реакцию среднего мозга на боевое давление путем близкого моделирования реального боя, используя в основном классическое обусловливание Павлова и оперантное обусловливание Скиннера (обе формы бихевиоризма ). [63]
Современная подготовка по меткой стрельбе является таким прекрасным примером бихевиоризма, что она использовалась в течение многих лет в вводном курсе психологии, преподаваемом всем кадетам Военной академии США в Вест-Пойнте, как классический пример оперантного обусловливания. В 1980-х годах во время визита в Вест-Пойнт Б. Ф. Скиннер определил современную военную подготовку по меткой стрельбе как почти идеальное применение оперантного обусловливания. [65]
Подполковник Дэйв Гроссман утверждает об оперантном обусловливании и подготовке военнослужащих США следующее:
Вполне возможно, что никто намеренно не садился использовать оперантное обусловливание или методы модификации поведения для обучения солдат в этой области... Но с точки зрения психолога, который также является историком и кадровым военным, для меня становится все более очевидным, что именно это и было достигнуто. [63]
Теория подталкивания (или подталкивания) — это концепция в поведенческой науке , политической теории и экономике , которая утверждает, что косвенные предложения, направленные на достижение ненасильственного подчинения, могут влиять на мотивы, стимулы и принятие решений группами и отдельными лицами, по крайней мере, так же эффективно, если не более эффективно, чем прямые инструкции, законодательство или принуждение. [ необходима ссылка ]
Концепция похвалы как средства поведенческого подкрепления коренится в модели оперантного обусловливания Б. Ф. Скиннера. С этой точки зрения похвала рассматривается как средство положительного подкрепления, при котором наблюдаемое поведение становится более вероятным путем обусловленной похвалы указанного поведения. [66] Сотни исследований продемонстрировали эффективность похвалы в поощрении положительного поведения, в частности, в исследовании использования учителями и родителями похвалы в отношении ребенка для поощрения улучшенного поведения и успеваемости, [67] [68] , а также в исследовании производительности труда. [69] Также было продемонстрировано, что похвала подкрепляет положительное поведение у непохваленных соседних лиц (например, одноклассника получателя похвалы) посредством косвенного подкрепления. [70] Похвала может быть более или менее эффективной в изменении поведения в зависимости от ее формы, содержания и подачи. Для того чтобы похвала оказала положительное влияние на изменение поведения, она должна зависеть от положительного поведения (т. е. применяться только после того, как целевое поведение было реализовано), должна указывать особенности поведения, которое должно быть подкреплено, и должна быть произнесена искренне и достоверно. [71]
Признавая эффект похвалы как стратегии положительного подкрепления, многочисленные поведенческие и когнитивно-поведенческие вмешательства включили использование похвалы в свои протоколы. [72] [73] Стратегическое использование похвалы признано как основанная на фактических данных практика как в управлении классом [72], так и в вмешательствах по обучению родителей, [68] хотя похвала часто включается в исследованиях вмешательств в более широкую категорию положительного подкрепления, которая включает такие стратегии, как стратегическое внимание и поведенческие вознаграждения.
Было проведено несколько исследований по влиянию когнитивно-поведенческой терапии и оперантно-поведенческой терапии на различные медицинские состояния. Когда пациенты развивали когнитивные и поведенческие техники, которые меняли их поведение, отношение и эмоции, их боль уменьшалась. Результаты этих исследований показали влияние познания на восприятие боли, а представленное воздействие объяснило общую эффективность когнитивно-поведенческой терапии (КПТ) и оперантно-поведенческой терапии (ОПТ). [ необходима цитата ]
Большинство [ требуется цитата ] видеоигр разработаны вокруг цикла компульсий , добавляя тип положительного подкрепления через график переменной скорости, чтобы игрок продолжал играть. Это может привести к патологии зависимости от видеоигр . [ 74]
В рамках тенденции монетизации видеоигр в 2010-х годах некоторые игры предлагали лутбоксы в качестве наград или предметов, которые можно было купить за реальные деньги. Ящики содержат случайный набор игровых предметов. Эта практика была связана с теми же методами, с помощью которых игровые автоматы и другие игровые устройства выдают награды, поскольку она следует графику переменной ставки. Хотя общее восприятие лутбоксов как формы азартных игр, эта практика классифицируется как таковая только в нескольких странах. Однако методы использования этих предметов в качестве виртуальной валюты для онлайн-гемблинга или торговли за реальные деньги создали рынок азартных игр со скинами , который находится на стадии юридической оценки. [75]
Одной из многих причин, предлагаемых для драматических расходов, связанных со здравоохранением, является практика оборонительной медицины. Прабху рассматривает статью Коула и обсуждает, как ответы двух групп нейрохирургов являются классическим оперантным поведением. Одна группа практикует в штате с ограничениями на медицинские иски, а другая группа без ограничений. Группе нейрохирургов анонимно задали вопрос об их моделях практики. Врачи изменили свою практику в ответ на негативную обратную связь (страх перед судебным иском) в группе, которая практиковала в штате без ограничений на медицинские иски. [76]
Вознаграждения в оперантном обусловливании являются положительными подкрепителями. ... Оперантное поведение дает хорошее определение вознаграждениям. Все, что заставляет человека возвращаться за большим, является положительным подкрепителем и, следовательно, вознаграждением. Хотя оно дает хорошее определение, положительное подкрепление является лишь одной из нескольких функций вознаграждения. ... Вознаграждения привлекательны. Они мотивируют и заставляют нас прилагать усилия. ... Вознаграждения вызывают поведение приближения, также называемое аппетитным или подготовительным поведением, и поведением потребления. ... Таким образом, любой стимул, объект, событие, деятельность или ситуация, которые потенциально могут заставить нас приблизиться и потребить их, по определению являются вознаграждением.
Злоупотребляемые вещества (от алкоголя до психостимуляторов) изначально употребляются регулярно в соответствии с их положительными подкрепляющими свойствами. Важно отметить, что повторное воздействие вознаграждающих веществ запускает цепь вторичных подкрепляющих событий, в результате чего сигналы и контексты, связанные с употреблением наркотиков, сами по себе могут стать подкрепляющими и тем самым способствовать дальнейшему использованию и возможному злоупотреблению выбранным веществом(ами). ...
Важным измерением подкрепления, весьма релевантным для процесса зависимости (и особенно рецидива), является вторичное подкрепление (Stewart, 1992). Вторичные подкрепления (во многих случаях также считающиеся условными подкреплениями), вероятно, управляют большинством процессов подкрепления у людей. В конкретном случае наркотической [зависимости] сигналы и контексты, которые тесно и неоднократно связаны с употреблением наркотиков, часто сами становятся подкрепляющими... Фундаментальная часть теории стимулирующей сенсибилизации наркомании Робинсона и Берриджа утверждает, что стимулирующая ценность или привлекательная природа таких вторичных процессов подкрепления, в дополнение к самим первичным подкрепителям, может сохраняться и даже становиться сенсибилизированной с течением времени в союзе с развитием наркотической зависимости (Робинсон и Берридж, 1993). ...
Отрицательное подкрепление - это особое состояние, связанное с усилением поведенческих реакций, которые прекращают некоторый текущий (предположительно аверсивный) стимул. В этом случае мы можем определить отрицательное подкрепление как мотивационный стимул, который усиливает такую реакцию "избегания". Исторически, в отношении наркотической зависимости, это явление постоянно наблюдалось у людей, когда наркотики, вызывающие злоупотребление, принимались самостоятельно, чтобы утолить мотивационную потребность в состоянии отмены (Виклер, 1952).
{{cite book}}
: |journal=
проигнорировано ( помощь )Когда павловскому CS+ приписывается заметность стимула, он не только вызывает «желание» его UCS, но часто сам сигнал становится очень привлекательным — даже до иррациональной степени. Это притяжение сигнала является еще одной характерной чертой заметности стимула. На CS становится трудно не смотреть (Wiers & Stacy, 2006; Hickey et al., 2010a; Piech et al., 2010; Anderson et al., 2011). CS даже приобретает некоторые свойства стимула, схожие с его UCS. Привлекательный CS часто вызывает поведенческий мотивированный подход, и иногда человек может даже попытаться «потребить» CS в некоторой степени как его UCS (например, есть, пить, курить, заниматься сексом, принимать в качестве наркотика). «Желание» CS может также превратить ранее нейтральный стимул в инструментальное условное подкрепление, так что человек будет работать над получением сигнала (однако существуют и альтернативные психологические механизмы для условного подкрепления).
Важной целью в будущем для нейробиологии зависимости является понимание того, как интенсивная мотивация становится узконаправленной на конкретной цели. Было высказано предположение, что зависимость частично обусловлена чрезмерной заметностью стимула, производимой сенсибилизированными или гиперреактивными дофаминовыми системами, которые производят интенсивное "желание" (Robinson and Berridge, 1993). Но почему одна цель становится более "желанной", чем все остальные, не было полностью объяснено. У наркоманов или пациентов, стимулированных агонистами, повторение стимуляции дофамином стимулирующей заметности становится приписанным конкретным индивидуальным занятиям, таким как прием наркотического препарата или определенные компульсии. В ситуациях вознаграждения по Павлову некоторые сигналы вознаграждения становятся более «желанными», чем другие, как мощные мотивационные магниты, способами, которые различаются у разных людей (Robinson et al., 2014b; Saunders and Robinson, 2013). ... Однако гедонистические эффекты могут со временем меняться. Поскольку наркотик принимался неоднократно, мезолимбическая дофаминергическая сенсибилизация может впоследствии возникнуть у восприимчивых людей, чтобы усилить «желание» (Leyton and Vezina, 2013; Lodge and Grace, 2011; Wolf and Ferrario, 2010), даже если опиоидные гедонистические механизмы подверглись понижающей регуляции из-за постоянной стимуляции наркотиками, вызывая толерантность к «симпатии». Сенсибилизация к стимулу может вызывать зависимость, избирательно усиливая вызванное стимулом «желание» снова принять наркотик, и таким образом мощно вызывать мотивацию, даже если наркотик становится менее приятным (Робинсон и Берридж, 1993).