В алгоритме обучения временной разнице (TD-обучение) агент стремится предсказать общую стоимость будущих вознаграждений, которые будут получены во время текущего испытания. Агент обновляет прогноз по ходу испытания на основе условных раздражителей (CS), которые уже были замечены. В частности, прогноз рассчитывается как взвешенная сумма интенсивностей прошлых проявлений CS. Вовремя , прогноз рассчитывается как
куда это предсказание на время , - интенсивность CS в момент времени , и представляет собой массив весов.
Мой вопрос: почему мы суммируем термины , скорее, чем , т.е. почему каждый вес не связан с силой CS в определенное время?
[Благодаря ответу пользователя honi я впоследствии понял, что каждый элемент массива весов связан со временем, прошедшим с момента просмотра CS. Например, это вес, придаваемый силе CS, испытанной три единицы времени назад.]
[Исходная формулировка вопроса: я читаю «Теоретическую нейронауку» Даяна и Эббота, и меня смущает использование в уравнениях (9.6) и (9.7). В первом случае это оконная функция (линейный фильтр), а во втором — весовая функция. Является ли это (а) неудачным использованием одного и того же имени для двух разных вещей, или (б) весовая функция действительно используется в качестве линейного фильтра для вычисления ?]
Они одинаковы в двух уравнениях. См. уравнение 9.3: v = w*u. w и u выделены жирным шрифтом в этом уравнении, чтобы указать, что они являются векторами. В уравнении 9.3 они являются векторами одновременно предъявляемых стимулов, но вы можете применить то же уравнение, если u — вектор одиночного стимула во времени, а w — веса каждого временного шага этого стимула. Действительно, линейный фильтр — это просто способ взвешивания различных временных шагов изменяющегося во времени входа. Обратите внимание, что v в уравнении 9.3 является единственным значением, тогда как v в уравнении 9.6 является функцией t, т. е. имеет разное значение в каждый момент времени в зависимости от того, какая часть u происходит в данный момент.
АлисаД
Насоренга
АлисаД