Я играю с социальным обучением почти оптимальным правилам поведения на наборе агентов. Идея примерно состоит в том, что для данного процесса дохода (или технологического процесса, в зависимости от вопроса) существует оптимальное нелинейное межвременное правило политики. Предположим, что это правило можно точно аппроксимировать линейной функцией. Агенты хотели бы выучить это правило политики, и первый этап заключается в том, чтобы они выучили это правило просто путем экспериментов. «В условиях автаркии», т. е. без какого-либо обмена информацией с другими агентами, агент будет пробовать правило в течение некоторого времени, использовать некоторую метрику, чтобы определить, насколько хорошо оно работает против других правил, которые он/она пробовал, и, возможно, переоценить, возможно, попробовать полностью изменить правило. другое правило с помощью экспериментов. Этот агент наблюдает только свою собственную историю.
Второй проход — разрешить агенту доступ ко всем историям других агентов. Возможно, это ускорит обучение. Третий способ может состоять в том, чтобы поместить этих агентов в некую информационную сеть.
Я просматривал литературу по социальному обучению, но не совсем уверен, что фреймворки, на которые я смотрю, — это именно то, что мне нужно. Многие из них кажутся байесовскими знаниями о скрытом состоянии природы, для которого у каждого есть личный сигнал. Я сейчас активно просматриваю литературу, но так как я это делаю, у кого-нибудь есть какие-нибудь мысли/предложения?
Взгляните на POMDP - частично наблюдаемые марковские процессы принятия решений.
Если у вас есть функция ценности (дохода), которая известна для агентов в различных штатах, и вы пытаетесь определить оптимальную политику, то уравнение Беллмана , лежащее в основе POMDP, поможет вам определить эту политику.
Эти инструменты являются частью класса алгоритмов обучения с подкреплением (на самом деле они довольно часто используются для робототехники). Таким образом, они очень четко сопоставляются с определенной вами структурой (агенты, функция вознаграждения и пространство состояния/действия).
Другой угол атаки — использование генетических алгоритмов в вашей процедуре оптимизации.
Вот два вычислительных подхода, которые могут работать:
I. Искусственная нейронная сеть
Нейронная сеть состоит из взаимосвязанной группы искусственных нейронов и обрабатывает информацию, используя коннекционистский подход к вычислениям. В большинстве случаев ИНС представляет собой адаптивную систему, которая меняет свою структуру на основе внешней или внутренней информации, которая проходит через сеть на этапе обучения. Современные нейронные сети представляют собой инструменты нелинейного статистического моделирования данных. Обычно они используются для моделирования сложных взаимосвязей между входными и выходными данными или для поиска закономерностей в данных. Возможно, самым большим преимуществом ИНС является их способность использоваться в качестве механизма аппроксимации произвольной функции, который «учится» на наблюдаемых данных. Однако их использование не так просто, и необходимо относительно хорошее понимание лежащей в их основе теории.
Набор связанных контролируемых методов обучения, которые анализируют данные и распознают закономерности, используемые для классификации и регрессионного анализа. Стандартный SVM берет набор входных данных и предсказывает для каждого заданного входа, членом какого из двух возможных классов является вход, что делает SVM невероятностным бинарным линейным классификатором. Поскольку SVM является классификатором, то при наличии набора обучающих примеров, каждый из которых помечен как принадлежащий к одной из двух категорий, алгоритм обучения SVM строит модель, которая предсказывает, попадает ли новый пример в одну или другую категорию. Интуитивно модель SVM представляет собой представление примеров в виде точек в пространстве, нанесенных на карту таким образом, что примеры отдельных категорий разделены как можно более широким промежутком.
Нейронные сети использовались для создания высококонкурентных компьютерных игроков для FreeCiv с открытым исходным кодом . Там нейронные сети используются с методами Монте-Карло , которые я также использовал при моделировании экономических взаимодействий в играх.
Не уверены, что это именно то, что вы ищете, но может быть началом?
Многие ключевые алгоритмы обобщены на веб-сайте ACE Research Area: Learning and the Embodied Mind .
ACE = Агентная вычислительная экономика
Эта статья Глейзера и Рубинштейна, хотя и не имеет строгого отношения к вашему исследованию, использует конкретную алгоритмическую модель поведения агента и анализирует ее влияние на реализуемость различных механизмов. Сам алгоритм может вас заинтересовать - я думаю, что его варианты могут быть реалистичными и простыми в использовании в прикладных моделях.
Джейсон Б.
Турукава
Нейт