Используется ли в обучении TD весовая функция в качестве линейного фильтра?

В алгоритме обучения временной разнице (TD-обучение) агент стремится предсказать общую стоимость будущих вознаграждений, которые будут получены во время текущего испытания. Агент обновляет прогноз по ходу испытания на основе условных раздражителей (CS), которые уже были замечены. В частности, прогноз рассчитывается как взвешенная сумма интенсивностей прошлых проявлений CS. Вовремя т , прогноз рассчитывается как

в ( т ) знак равно г знак равно 0 т ж ( г ) ты ( т г )

куда в ( т ) это предсказание на время т , ты ( т ) - интенсивность CS в момент времени т , и ж представляет собой массив весов.

Мой вопрос: почему мы суммируем термины ж ( г ) ты ( т г ) , скорее, чем ж ( г ) ты ( г ) , т.е. почему каждый вес не связан с силой CS в определенное время?

[Благодаря ответу пользователя honi я впоследствии понял, что каждый элемент массива весов связан со временем, прошедшим с момента просмотра CS. Например, ж ( 3 ) это вес, придаваемый силе CS, испытанной три единицы времени назад.]


[Исходная формулировка вопроса: я читаю «Теоретическую нейронауку» Даяна и Эббота, и меня смущает использование ж ( т ) в уравнениях (9.6) и (9.7). В первом случае это оконная функция (линейный фильтр), а во втором — весовая функция. Является ли это (а) неудачным использованием одного и того же имени для двух разных вещей, или (б) весовая функция действительно используется в качестве линейного фильтра для вычисления в ( т ) ?]

Добро пожаловать. Поймите, что не у всех есть книга, на которую ссылаются. Упоминание номеров формул не очень полезно. Вместо этого необходимо четкое объяснение контекста, аббревиатур и символов, чтобы люди могли понять ваш вопрос. Лично я в недоумении от того, о чем вы спрашиваете.
Спасибо за совет, AliceD. - Я не питала иллюзий, что эта книга есть у всех, просто надеялась связаться с одним человеком, который это сделал и мог мне помочь - и это сработало! :-)
Поймите, что любой пост должен быть интересен сообществу в целом. Тот факт, что вам помогли, не означает, что это по теме здесь. @ Хони, может быть, ты сможешь обновить вопрос?

Ответы (1)

Они одинаковы в двух уравнениях. См. уравнение 9.3: v = w*u. w и u выделены жирным шрифтом в этом уравнении, чтобы указать, что они являются векторами. В уравнении 9.3 они являются векторами одновременно предъявляемых стимулов, но вы можете применить то же уравнение, если u — вектор одиночного стимула во времени, а w — веса каждого временного шага этого стимула. Действительно, линейный фильтр — это просто способ взвешивания различных временных шагов изменяющегося во времени входа. Обратите внимание, что v в уравнении 9.3 является единственным значением, тогда как v в уравнении 9.6 является функцией t, т. е. имеет разное значение в каждый момент времени в зависимости от того, какая часть u происходит в данный момент.

Спасибо, Хони, теперь я понял! -- В любой момент времени t при расчете предсказания v(t) используется w(z) для взвешивания вклада u(tz), значения, которое стимул имел z тиков ранее.
Ага. Вы не против принять мой ответ, если он решил вашу проблему?