Каковы основные алгоритмы обучения оптимальному поведению экономических агентов?

Я играю с социальным обучением почти оптимальным правилам поведения на наборе агентов. Идея примерно состоит в том, что для данного процесса дохода (или технологического процесса, в зависимости от вопроса) существует оптимальное нелинейное межвременное правило политики. Предположим, что это правило можно точно аппроксимировать линейной функцией. Агенты хотели бы выучить это правило политики, и первый этап заключается в том, чтобы они выучили это правило просто путем экспериментов. «В условиях автаркии», т. е. без какого-либо обмена информацией с другими агентами, агент будет пробовать правило в течение некоторого времени, использовать некоторую метрику, чтобы определить, насколько хорошо оно работает против других правил, которые он/она пробовал, и, возможно, переоценить, возможно, попробовать полностью изменить правило. другое правило с помощью экспериментов. Этот агент наблюдает только свою собственную историю.

Второй проход — разрешить агенту доступ ко всем историям других агентов. Возможно, это ускорит обучение. Третий способ может состоять в том, чтобы поместить этих агентов в некую информационную сеть.

Я просматривал литературу по социальному обучению, но не совсем уверен, что фреймворки, на которые я смотрю, — это именно то, что мне нужно. Многие из них кажутся байесовскими знаниями о скрытом состоянии природы, для которого у каждого есть личный сигнал. Я сейчас активно просматриваю литературу, но так как я это делаю, у кого-нибудь есть какие-нибудь мысли/предложения?

Вы можете изучить литературу по ИИ.
Согласен с ИИ. Сюда же относятся байесовские сети и генетические алгоритмы.
Какие-то конкретные ссылки?

Ответы (4)

Взгляните на POMDP - частично наблюдаемые марковские процессы принятия решений.

Если у вас есть функция ценности (дохода), которая известна для агентов в различных штатах, и вы пытаетесь определить оптимальную политику, то уравнение Беллмана , лежащее в основе POMDP, поможет вам определить эту политику.

Эти инструменты являются частью класса алгоритмов обучения с подкреплением (на самом деле они довольно часто используются для робототехники). Таким образом, они очень четко сопоставляются с определенной вами структурой (агенты, функция вознаграждения и пространство состояния/действия).

Другой угол атаки — использование генетических алгоритмов в вашей процедуре оптимизации.

Алгоритмы обучения с подкреплением +1 - это действительно то, что следует учитывать ОП. Ключевые слова для поиска ссылок: Q-обучение, алгоритм Кернса, задача планирования, аппроксимация для марковских процессов принятия решений. Например, для начала вы можете посмотреть документы Г. Тезауро.
Спасибо, я буду изучать это дальше. После некоторого изучения литературы (в Handbook of Computational Economics, Vol. 2 есть много хороших вещей, которые я пропустил, когда впервые прочитал его давным-давно), я думаю, что остановился на подход. Спасибо всем!

Вот два вычислительных подхода, которые могут работать:

I. Искусственная нейронная сеть

Нейронная сеть состоит из взаимосвязанной группы искусственных нейронов и обрабатывает информацию, используя коннекционистский подход к вычислениям. В большинстве случаев ИНС представляет собой адаптивную систему, которая меняет свою структуру на основе внешней или внутренней информации, которая проходит через сеть на этапе обучения. Современные нейронные сети представляют собой инструменты нелинейного статистического моделирования данных. Обычно они используются для моделирования сложных взаимосвязей между входными и выходными данными или для поиска закономерностей в данных. Возможно, самым большим преимуществом ИНС является их способность использоваться в качестве механизма аппроксимации произвольной функции, который «учится» на наблюдаемых данных. Однако их использование не так просто, и необходимо относительно хорошее понимание лежащей в их основе теории.

  • Выбор модели: это будет зависеть от представления данных и приложения. Слишком сложные модели, как правило, приводят к проблемам с обучением.
  • Алгоритм обучения: существует множество компромиссов между алгоритмами обучения. Практически любой алгоритм будет хорошо работать с правильными гиперпараметрами для обучения на конкретном фиксированном наборе данных. Однако выбор и настройка алгоритма обучения на невидимых данных требует значительного количества экспериментов.
  • Надежность: если модель, функция стоимости и алгоритм обучения выбраны надлежащим образом, результирующая ИНС может быть чрезвычайно надежной.

II. Машина опорных векторов

Набор связанных контролируемых методов обучения, которые анализируют данные и распознают закономерности, используемые для классификации и регрессионного анализа. Стандартный SVM берет набор входных данных и предсказывает для каждого заданного входа, членом какого из двух возможных классов является вход, что делает SVM невероятностным бинарным линейным классификатором. Поскольку SVM является классификатором, то при наличии набора обучающих примеров, каждый из которых помечен как принадлежащий к одной из двух категорий, алгоритм обучения SVM строит модель, которая предсказывает, попадает ли новый пример в одну или другую категорию. Интуитивно модель SVM представляет собой представление примеров в виде точек в пространстве, нанесенных на карту таким образом, что примеры отдельных категорий разделены как можно более широким промежутком.

Нейронные сети использовались для создания высококонкурентных компьютерных игроков для FreeCiv с открытым исходным кодом . Там нейронные сети используются с методами Монте-Карло , которые я также использовал при моделировании экономических взаимодействий в играх.

Не уверены, что это именно то, что вы ищете, но может быть началом?

Спасибо за ответ. Это не совсем то, что я ищу — на данном этапе я больше ищу примеры более простых механизмов обучения, в идеале в некоторых опубликованных экономических работах. Однако я ценю указатели; Благодарность!
@ Натан - вы имеете в виду фактические рабочие алгоритмы с документами, подтверждающими, или просто общую экономику, использующую эти типы моделей?
в конце дня я ищу документы, в которых используются механизмы, которые я мог бы использовать; в идеале документы, которые я мог бы процитировать в обзоре литературы.
Просто хотел еще раз сказать - спасибо за приведенные выше указатели! Статья о FreeCiv особенно интересна, особенно потому, что мне было нелегко победить самую последнюю ее версию :) Еще раз спасибо за время и усилия, которые вы вложили в свой ответ! Я думаю, что я буду использовать их в будущем немного.

Многие ключевые алгоритмы обобщены на веб-сайте ACE Research Area: Learning and the Embodied Mind .

ACE = Агентная вычислительная экономика

Веб-сайт Leigh Tesfatsion — это сайт, который каждый должен время от времени просматривать — абсолютно фантастический ресурс. Я сам провел там немного времени, пока изучал это.
Да, это отличный сайт по поведенческой экономике и пониманию агентной мотивации. @Sylvain Peyronnet, на этом веб-сайте много материалов, есть ли конкретные записи, которые вы могли бы упомянуть в своем ответе, и почему?

Эта статья Глейзера и Рубинштейна, хотя и не имеет строгого отношения к вашему исследованию, использует конкретную алгоритмическую модель поведения агента и анализирует ее влияние на реализуемость различных механизмов. Сам алгоритм может вас заинтересовать - я думаю, что его варианты могут быть реалистичными и простыми в использовании в прикладных моделях.