Используется ли в обучении TD весовая функция в качестве линейного фильтра?

Question

Используется ли в обучении TD весовая функция в качестве линейного фильтра?

Работа
неврология
вычислительное моделирование
теоретическая неврология

Насоренга

В алгоритме обучения временной разнице (TD-обучение) агент стремится предсказать общую стоимость будущих вознаграждений, которые будут получены во время текущего испытания. Агент обновляет прогноз по ходу испытания на основе условных раздражителей (CS), которые уже были замечены. В частности, прогноз рассчитывается как взвешенная сумма интенсивностей прошлых проявлений CS. Вовремя $t$ , прогноз рассчитывается как

в (т) знак равно \sum_{г знак равно 0}^{т} ж (г) ты (т - г)

$v(t) = \sum_{z=0}^t w(z)u(t-z)$

куда $v(t)$ это предсказание на время $t$ , $u(t)$ - интенсивность CS в момент времени $t$ , и $w$ представляет собой массив весов.

Мой вопрос: почему мы суммируем термины $w(z)u(t-z)$ , скорее, чем $w(z)u(z)$ , т.е. почему каждый вес не связан с силой CS в определенное время?

[Благодаря ответу пользователя honi я впоследствии понял, что каждый элемент массива весов связан со временем, прошедшим с момента просмотра CS. Например, $w(3)$ это вес, придаваемый силе CS, испытанной три единицы времени назад.]

[Исходная формулировка вопроса: я читаю «Теоретическую нейронауку» Даяна и Эббота, и меня смущает использование $w(t)$ в уравнениях (9.6) и (9.7). В первом случае это оконная функция (линейный фильтр), а во втором — весовая функция. Является ли это (а) неудачным использованием одного и того же имени для двух разных вещей, или (б) весовая функция действительно используется в качестве линейного фильтра для вычисления $v(t)$ ?]

АлисаД

Добро пожаловать. Поймите, что не у всех есть книга, на которую ссылаются. Упоминание номеров формул не очень полезно. Вместо этого необходимо четкое объяснение контекста, аббревиатур и символов, чтобы люди могли понять ваш вопрос. Лично я в недоумении от того, о чем вы спрашиваете.

Насоренга

Спасибо за совет, AliceD. - Я не питала иллюзий, что эта книга есть у всех, просто надеялась связаться с одним человеком, который это сделал и мог мне помочь - и это сработало! :-)

АлисаД

Поймите, что любой пост должен быть интересен сообществу в целом. Тот факт, что вам помогли, не означает, что это по теме здесь. @ Хони, может быть, ты сможешь обновить вопрос?

Ответы (1)

Используется ли в обучении TD весовая функция в качестве линейного фильтра?

Добро пожаловать. Поймите, что не у всех есть книга, на которую ссылаются. Упоминание номеров формул не очень полезно. Вместо этого необходимо четкое объяснение контекста, аббревиатур и символов, чтобы люди могли понять ваш вопрос. Лично я в недоумении от того, о чем вы спрашиваете.
Спасибо за совет, AliceD. - Я не питала иллюзий, что эта книга есть у всех, просто надеялась связаться с одним человеком, который это сделал и мог мне помочь - и это сработало! :-)
Поймите, что любой пост должен быть интересен сообществу в целом. Тот факт, что вам помогли, не означает, что это по теме здесь. @ Хони, может быть, ты сможешь обновить вопрос?

хони · Answer 1

Они одинаковы в двух уравнениях. См. уравнение 9.3: v = w*u. w и u выделены жирным шрифтом в этом уравнении, чтобы указать, что они являются векторами. В уравнении 9.3 они являются векторами одновременно предъявляемых стимулов, но вы можете применить то же уравнение, если u — вектор одиночного стимула во времени, а w — веса каждого временного шага этого стимула. Действительно, линейный фильтр — это просто способ взвешивания различных временных шагов изменяющегося во времени входа. Обратите внимание, что v в уравнении 9.3 является единственным значением, тогда как v в уравнении 9.6 является функцией t, т. е. имеет разное значение в каждый момент времени в зависимости от того, какая часть u происходит в данный момент.

Спасибо, Хони, теперь я понял! -- В любой момент времени t при расчете предсказания v(t) используется w(z) для взвешивания вклада u(tz), значения, которое стимул имел z тиков ранее.
Ага. Вы не против принять мой ответ, если он решил вашу проблему?

Используется ли в обучении TD весовая функция в качестве линейного фильтра?

Насоренга

АлисаД

Насоренга

АлисаД

Ответы (1)

хони

Насоренга

хони

связь между нисходящей (восходящей) обработкой и слоями коры

Реализует ли зрительная система человека (адаптивную) коррекцию гистограммы?

Определение положения иона кальция в трехмерном пространстве

Каковы ключевые примеры использования вычислительных методов при изучении биологических нейронных сетей?

Биологическое правдоподобие байесовских моделей познания

В чем разница между вычислительной нейробиологией, теоретической нейробиологией и нейроинформатикой (если она существует)?

Чем объясняется вариабельность средней частоты возбуждения биологических нейронов?

Предварительный запрос: Нейроробототехника [закрыто]

Вычислительная модель, связывающая нейронную активность с поведением

Насколько нелинейная динамика и хаос полезны для изучения работы мозга?