Не усиливает ли постоянное вознаграждение оперантное обусловливание?

Когда я узнавал об оперантном обусловливании , я помню, как меня учили, что непостоянное вознаграждение за желаемое поведение может (казалось бы нелогичным) на самом деле увеличить силу обучения условному поведению. Это правильно?

Если это так, то будет ли эффективнее начинать давать вознаграждение в течение 100% времени выполнения условного поведения или около того, а затем постепенно уменьшать сумму до более низкого процента? Или эффективнее просто начать с более низкого процента?

Первая часть этого ответа также может быть полезна.

Ответы (2)

То, о чем вы думаете, называется графиком прерывистого подкрепления . Различные графики подкрепления имеют разные эффекты, в частности, переменное соотношение , по-видимому, является тем, что вы получаете:

график подкрепления, в котором количество реакций, необходимых для получения подкрепления, варьируется от испытания к испытанию.

Важно то, что поведение периодически подкрепляется, но достаточно регулярно, чтобы оно того стоило. Это производит мощный эффект; У меня сейчас нет никаких источников, но я уверен, что Б. Ф. Скиннер провел ряд таких испытаний. когда субъект будет неоднократно выполнять поведение, пытаясь получить больше вознаграждения.

Объяснение, которое я слышал, заключается в том, что с предсказуемым графиком вознаграждения (фиксированное соотношение) ваш участник знает, что может получить вознаграждение, поэтому нет причин бездумно выполнять задание снова и снова; сравните игровой автомат (переменный коэффициент) с автоматом, который выдает деньги за фиксированное количество попыток (фиксированный коэффициент). Субъект знает, что с помощью машины с фиксированным соотношением он всегда может получить свою награду в любое время. С игровым автоматом вы должны продолжать играть и играть, чтобы получить следующую большую награду.

Помните, что для правильного шейпинга вы должны начать с высокого процента (100%), чтобы обусловить ответ, иначе участник может вообще не обусловливаться . Возвращаясь к примеру с азартными играми, гораздо эффективнее, если вы дадите своему участнику почувствовать вкус выигрыша, когда он играет в слоты, иначе он быстро уйдет, поскольку кажется, что вознаграждения не будет вообще.

Формирование включает в себя немедленное вознаграждающее поведение , приближающееся к желаемому поведению, безусловно, важнее начать с высокого % вознаграждения, особенно с субъектами, не являющимися людьми, когда заставить их выполнить желаемую задачу может быть проблематично с самого начала.

В качестве прибавки, предоставление вознаграждения почти в 100% случаев может помешать оперантному обусловливанию. Классический пример — дети любят, скажем, спрашивать родителей, можно ли им съесть мороженое, не пообедав. Родитель обычно может отказаться, но если он/она уступает время от времени — или время от времени — тогда ребенок будет продолжать повторять поведение, прекрасно зная, что шанс, что его родитель(-и) уступит, ну, есть. .
psycnet.apa.org/journals/bul/47/3/193 может быть подходящей ссылкой.

«Подкрепление» — это все, что увеличивает шансы организма на повторение поведения. Когда вы обучаете какому-то поведению, поначалу для того, чтобы вызвать поведение, требуется много подкрепления. Так, например, если вы хотите научить свою собаку подходить к вам каждый раз, когда вы идете к черному ходу, вы кормите ее печеньем, когда идете к черному ходу. Через некоторое время такое поведение становится ДЕЙСТВИТЕЛЬНО сильным. Он ожидает печенье. Теперь вы можете работать над другим принципом оперантного обусловливания, который называется «угасание». Это работает так. Если вы перестанете подкреплять какое-либо поведение, собака в этом случае разочаруется и будет изо всех сил стараться, чтобы это подкрепление продолжалось. Возможны два исхода. Либо А: угасание, когда подкрепляемое поведение исчезает, либо Б: поведение обостряется до тех пор, пока вы его не подкрепите. и вы получаете новый уровень поведения. (так плохие привычки ухудшаются, а хорошие становятся лучше)

Итак, если вы хотите получить действительно сильное поведение, вам нужны оба вида графиков подкрепления. Сначала вы начинаете с фиксированного графика подкрепления, чтобы создать ожидание подкрепления, затем вы переключаетесь на график подкрепления, который вызывает некоторый уровень разочарования, вызывающий реакцию угасания, и вы намеренно «проваливаете» угасание, чтобы получить более сильное поведение.

Совершенно случайный график подкрепления далеко не так эффективен, как дрессировщик, настроенный на эмоции дрессируемого животного. По-настоящему хороший дрессировщик может вызвать у животного ровно столько разочарования, чтобы заставить его вести себя немного лучше, не вызывая при этом столько, чтобы животное просто сдалось.