Существует ли нейросетевая модель павловского обучения?

Я пытаюсь найти компьютерную симуляцию павловского обучения. то есть действие, такое как слюноотделение в ответ на раздражитель, такой как звон колокольчика.

Большинство моделей нейронных сетей, которые я видел, похоже, больше связаны с попытками распознать такие вещи, как почерк или речь, а не с моделью «стимул-реакция». И они обычно не учитывают временной характер павловского обучения. Например, позвони в колокольчик, подожди немного, дай собачьей еды.

Существуют ли какие-либо компьютерные симуляции этого? (У них есть название?) Существует ли связанная нейронная модель этого?

Вас может заинтересовать этот вопрос об уточнении модели классической обусловленности Раскорла-Вагнера , которая, как я слышал, обеспечивается обучением с разницей во времени . TD-обучение имеет различные реализации в нейронах, и тогда это также будут реализации павловского обучения.

Ответы (3)

В общем, то, что вы ищете, — это биологически правдоподобная модель обучения с подкреплением и/или обусловливания. Я знаю две публикации, в частности, посвященные этому вопросу.

Первая — это биологически правдоподобная модель спайкового нейрона для кондиционирования страха , а вторая — это модель спайкового нейронного интегратора адаптивного контроля действия медиальной префронтальной корой . Они оба используют Neural Engineering Framework и правило обучения для изменения весовых коэффициентов связи между ансамблями биологически правдоподобных импульсных нейронов. Эти связи модифицируются, чтобы создавать и разрушать ассоциации между стимулами и действием. Однако во второй статье показано, что механизм также может изучать информацию о времени.

Я бы классифицировал павловское обучение как разновидность эббовского обучения . Когда события, которые происходят вместе, положительно усиливают друг друга (в отличие от обучения с подкреплением).

Эта идея была преобразована в сети Хопфилда, а затем в их потомков больцмана и ограниченных машин Больцмана. Они используют алгоритм, называемый контрастивной дивергенцией , который фактически представляет собой обучение по методу Хебба. Он пытается заставить события, которые происходят вместе, создавать более стабильные состояния, а события, которые не происходят вместе, становятся менее стабильными, поэтому, учитывая частичное состояние, сеть будет притягиваться к стабильному состоянию.

Таким образом, если звенит звонок и получена пища, сеть узнает, что это (более) стабильное состояние, и когда/если только звенит звонок, сеть естественным образом притягивается к состоянию, колокольчик + еда, как и все другие состояния. менее стабильны.

(К сожалению, я не очень хорошо разбираюсь в контрастной дивергенции, может быть, лучше поискать ее самостоятельно).

Эта работа приводит к неконтролируемому обучению, глубокому обучению и автокодировщикам.

Хотя, если подумать, я должен уточнить, что в настоящее время это не работает с временной разницей. Так что я не знаю, действительно ли я ответил на вопрос.

Просто для ясности: две статьи, на которые я ссылался, также используют обучение по Хеббиану, как это отражено в правиле обучения Prescribed Error Sensitivity (PES) .
Хорошо, мой плохой. Я не смотрел на бумаги. Я отредактирую свой ответ

Настоящая классика — модель Configural-Cue — использует правило Рескорла-Вагнера для изучения связей между сигналами и результатами. Ссылка1 Ссылка2 Ссылка3

На мой взгляд, это одна из самых простых (т. е. простейших) моделей обусловливания, которая, вероятно, станет для вас хорошей отправной точкой.