«Бесмодельное» обучение у людей

В обучении с подкреплением существует резкое различие между алгоритмами обучения, основанными на моделях, и алгоритмами обучения без моделей, где методы без моделей не используют никакой явной информации о динамике окружающей среды.

Кажется, что это различие имело бы какой-то аналог в человеческом обучении, но мне очень трудно найти какое-либо упоминание об этом. Возможно, это будет кондиционирование, а не более когнитивные формы обучения? Я был бы вне себя от радости, если бы кто-нибудь смог найти статью, в которой термин «без моделей» используется для обозначения какого-либо аспекта человеческого обучения, или просто заверил меня в правильности человеческого аналога этого термина.

Существуют ли исследования человеческого обучения, в которых проводится различие между моделью и моделью?

Вы используете Google? Поиск ученых в Google по запросу «обучение с подкреплением без моделей» выдает в качестве первого результата — прежде всего — исследование когнитивной нейробиологии с более чем 103 ссылками. На самом деле существует развивающаяся литература по этой теме, и подходящим термином действительно является «свободная модель».
@CHCH имеет в виду эту статью , которая для меня также является первым результатом. Поскольку это не первый ваш вопрос, я разочарован отсутствием первоначальных исследований. Мне тоже непонятно, что вы пытаетесь здесь спросить. Хотя вы делаете несколько забавных замечаний, я не уверен, что это вопрос, и я голосую за закрытие как NARQ.
Извините за промах в Google - это был вопрос, который я заново открыл для себя несколько лет назад. Я должен был перегуглить перед публикацией, но я не понимал, что что-то изменится за пару лет. Извините за неудачу. Однако я не понимаю, как это не вопрос. В какой части можно было бы изменить формулировку?
Это вопрос, и в своей основе он очень интересный, но на данный момент он очень широк. Я не хочу говорить ни за кого, но я думаю, что другие пытаются сказать, что теперь, когда вы знаете терминологию, мы «ответили» на этот конкретный вопрос, поэтому, если вы используете эту информацию, чтобы сделать вопрос более конкретным, что вы хотите знать, это будет сильнее. FWIW, я рад видеть вас снова, так как я думаю, что вы действительно задаете отличные/интересные вопросы, этот вопрос просто нуждается в небольшой настройке и конкретизации.
Спасибо, Чак! Я согласен с тем, что ответ на вопрос в текущей форме содержится в статье CHCH. Возможные следующие шаги: 1. Удалите вопрос и подождите, чтобы опубликовать неизбежный дополнительный вопрос. 2. Я мог бы вики сообщества, а затем ответить аннотацией из статьи (если только CHCH не захочет получить кредит) 3. Я мог бы (как только правильно сформулировать) изменить вопрос на что-то более глубокое, поскольку вопрос терминологии был таким легко ответил. Я бы предпочел вариант 2, но я решил спросить, поскольку, возможно, у сообщества есть какая-то процедура, с которой люди согласились.
В идеале, ответьте на него сами и углубитесь в свой ответ, читая хиты Google, которые вы сейчас нашли. Это искренний вопрос, я предпочитаю не закрывать его. Просто убедитесь, что в следующий раз вы используете Google немного лучше. ;п
Я был бы особенно заинтересован в ответе для мирян среди нас!

Ответы (1)

Согласно комментариям к вопросу, исследования на людях, в которых наблюдается это различие, существуют. CHCH, возможно, ссылается на статью Глэшера, Доу, Даяна и О'Доэрти (2010), в которой кратко определяется разница между обучением без моделей и обучением на основе моделей:

Обучение с подкреплением (RL) использует последовательный опыт с ситуациями («состояниями») и результатами для оценки действий. В то время как RL без моделей использует этот опыт напрямую, в форме ошибки предсказания вознаграждения (RPE), RL на основе моделей использует его косвенно, создавая модель перехода состояний и структуры результатов среды и оценивая действия путем поиска в этой области. модель.

Глешер и др. (2010) сообщают о доказательствах фМРТ нейронной активности, согласующейся с обучением на основе моделей в интратеменной борозде и латеральной префронтальной коре человека, а также для обучения без использования моделей в вентральном стриатуме. Они заключают:

Это открытие подтверждает существование двух уникальных форм обучающего сигнала у людей, которые могут лечь в основу различных вычислительных стратегий управления поведением.

использованная литература

  • Глешер, Дж., Доу, Н., Даян, П., и О'Доэрти, Дж. П. (2010). Состояния против вознаграждений: диссоциирующие нейронные сигналы ошибок предсказания, лежащие в основе обучения с подкреплением на основе моделей и без моделей. Нейрон, 66(4), 585-595.