В обучении с подкреплением существует резкое различие между алгоритмами обучения, основанными на моделях, и алгоритмами обучения без моделей, где методы без моделей не используют никакой явной информации о динамике окружающей среды.
Кажется, что это различие имело бы какой-то аналог в человеческом обучении, но мне очень трудно найти какое-либо упоминание об этом. Возможно, это будет кондиционирование, а не более когнитивные формы обучения? Я был бы вне себя от радости, если бы кто-нибудь смог найти статью, в которой термин «без моделей» используется для обозначения какого-либо аспекта человеческого обучения, или просто заверил меня в правильности человеческого аналога этого термина.
Существуют ли исследования человеческого обучения, в которых проводится различие между моделью и моделью?
Согласно комментариям к вопросу, исследования на людях, в которых наблюдается это различие, существуют. CHCH, возможно, ссылается на статью Глэшера, Доу, Даяна и О'Доэрти (2010), в которой кратко определяется разница между обучением без моделей и обучением на основе моделей:
Обучение с подкреплением (RL) использует последовательный опыт с ситуациями («состояниями») и результатами для оценки действий. В то время как RL без моделей использует этот опыт напрямую, в форме ошибки предсказания вознаграждения (RPE), RL на основе моделей использует его косвенно, создавая модель перехода состояний и структуры результатов среды и оценивая действия путем поиска в этой области. модель.
Глешер и др. (2010) сообщают о доказательствах фМРТ нейронной активности, согласующейся с обучением на основе моделей в интратеменной борозде и латеральной префронтальной коре человека, а также для обучения без использования моделей в вентральном стриатуме. Они заключают:
Это открытие подтверждает существование двух уникальных форм обучающего сигнала у людей, которые могут лечь в основу различных вычислительных стратегий управления поведением.
ЧЧ
Артем Казначчеев
зергилорд
Чак Шеррингтон
зергилорд
Стивен Джерис
Шонни123