Почему тренироваться лучше, если следовать графику от простого к сложному?

Как указано в ответе на этот вопрос , экспериментальные результаты показывают, что тренировки наиболее эффективны, когда они следуют графику от простого к сложному.

Какие теории и, в частности, вычислительные модели объясняют это?

Насколько я знаю, в простых вычислительных моделях, обычно используемых для демонстрации классификаций обучения, такого эффекта нет:

  • Двоичный персептрон — типичные примеры (ближайшие к средним значениям кластера или далекие друг от друга вдоль оптимального разделяющего вектора) являются наиболее информативными, что позволяет предположить, что простые испытания приведут к более быстрому обучению .
    • Некоторые алгоритмы обучения обновляют сеть только при совершении ошибки, что приводит к предсказанию, что более сложные испытания приведут к более быстрому обучению .
  • Методы опорных векторов (SVM) — только несколько самых сложных примеров влияют на конечный результат, что снова приводит к предсказанию, что более сложные испытания приведут к более быстрому обучению .
  • Наивный байесовский классификатор . Типичные примеры помогают оценить параметры с меньшим количеством ошибок, что позволяет сделать вывод о том, что простые испытания приведут к более быстрому обучению .
Я не думаю, что какая-либо из этих моделей на самом деле стремится к достоверности с каким-либо биологическим или психологическим процессом обучения. Во всяком случае, мы являемся классификаторами с «малой маржей», поскольку люди могут обнаруживать нюансы между парами элементов, чего не может что-то вроде хорошо обученного SVM.

Ответы (4)

Обучение SVM обычно выполняется в пакетной обработке, поэтому порядок представления данных не имеет значения. Вам следует рассмотреть алгоритмы онлайн-обучения , например, правило обучения персептрона. Эти алгоритмы в целом представляют собой процедуры оптимизации стохастического градиентного спуска, и простые примеры на раннем этапе с большим шагом обучения будут намного эффективнее (более быстрая сходимость к правильному ответу), чем обучение сначала на сложных примерах.

То, что заставляет большинство алгоритмов градиентного спуска учиться быстрее в начале, — это просто больший параметр скорости обучения, принудительно включенный в алгоритм, а не сложность примеров.
@OfriRaviv Да, скорость обучения часто снижается со временем, но она взаимодействует с порядком представленных данных. В экстремальной ситуации вы не хотите попасть в локальные минимумы, где вы можете решить только один сложный случай.

Другой способ думать об этом состоит в том, что при переходе от простого к сложному в процессе обработки возникают различные промежуточные структуры знаний. Эти структуры знаний, построенные на основе столкновений агента с простыми проблемами, могут оказаться полезными при столкновении с последующими и более сложными проблемами.

Эта идея уже давно существует в различных когнитивных традициях. Это тесно связано с теориями развития, например, Пиаже и Мандлера (2006); и к литературе по схемам, которая обширна, но образцами которой являются Мински (1986) и Шанк и Абельсон (1977).

Хотя все это очень туманно. Лучший (или, по крайней мере, самый точный) способ думать о развитии знаний — это иерархическое обучение с подкреплением. Идея состоит в том, что большинство нетривиальных задач по своей сути иерархичны; и поэтому, чтобы научиться выполнять задачу, нужно научиться выполнять составляющие ее подзадачи. Чем больше задач вы научитесь выполнять, тем больший «инструментарий» вы сможете применить к последующим задачам.

Что касается исходного вопроса, то более простые примеры какой-либо задачи побуждают к приобретению контролеров (структур знаний), которые помогут в выполнении более поздних, более сложных задач, а также к приобретению более поздних и более сложных структур знаний. Одейер и др. (2007) и Барто (2009) подробно описывают этот процесс, причем в первом случае используется роботизированный агент, находящийся в определенном месте. (Если мы заменим «контроллеры» на «правила», то процесс станет сравнимым с процессом поиска и разделения правил, используемым в ACT-R и Soar, как упоминалось в ответе Джероми Энглима)

использованная литература

Барто, А. (2009). Характеристика навыков на основе промежуточности. Достижения в области нейронных систем обработки информации 22.

Мандлер, Дж. М. (2006). Основы разума: истоки концептуальной мысли. Издательство Оксфордского университета, США.

Минский, М. (1986). Общество разума. Нью-Йорк, штат Нью-Йорк: Саймон и Шустер.

Аудейер, П.-Ю., Каплан, Ф., и Хафнер, В.В. (2007). Системы внутренней мотивации для автономного психического развития. IEEE Transactions on Evolutionary Computing, 11(2), 265–286.

Шанк, Р., и АБЕЛЬСОН, Р. (1977). Сценарии, планы, цели и понимание: исследование структур человеческого знания.

Интересный вопрос. Я написал обсуждение литературы по обучению на основе моделей и того, как она связывает структурирование сложности задач с практикой. Тем не менее, я чувствую, что это только начало, и я прошу прощения за то, что он больше направлен на когнитивные задачи, чем на задачи восприятия.

Краткий обзор систем обучения на основе моделей

У Fu et al (2006) есть статья о системах обучения на основе моделей в реальном времени , в которой они рассматривают некоторые работы по системам обучения на основе моделей:

Существует долгая история применения когнитивной теории обучения и приобретения навыков к системам обучения на основе моделей (например, Anderson et al., 1995; Graesser et al., 2004; Hill and Johnson, 1993; Sleeman and Brown, 1982). . Ключевая идея системы обучения на основе моделей заключается в том, что инструкции должны даваться на основе когнитивной модели компетенции, которую обучаемого просят освоить. Другими словами, когнитивная модель должна включать базовые навыки, которые позволяют модели выполнять задачу, которую должен выполнять обучаемый. На основе модели система может отслеживать действия обучаемого и делать выводы о намерениях обучаемого, сопоставляя действия обучаемого с компонентами модели. Другими словами, модель компетентности обеспечивает объяснение действий обучаемых при взаимодействии с системой.

Джон Р. Андерсон и его коллеги о когнитивных репетиторах, использующих вычислительную модель ACT-R.

Андерсон и коллеги (1995) подводят итоги своей работы над когнитивными репетиторами, преподающими программирование на LISP, геометрию и алгебру. Их система включает в себя восемь учебных принципов дизайна, некоторые из которых относятся к сложности задач.

Во-первых, давайте рассмотрим принципы проектирования:

  1. представить компетентность студента в виде производственного набора
  2. сообщить структуру цели, лежащую в основе решения проблемы
  3. давать инструкции в контексте решения проблем
  4. Способствовать абстрактному пониманию знаний о решении проблем
  5. Минимизируйте нагрузку на рабочую память
  6. Немедленная обратная связь об ошибках
  7. Отрегулируйте размер зерна инструкции с обучением
  8. Способствовать последовательному приближению к целевому навыку

Я думаю, что принципы 5 и 8 напрямую связаны с структурированием сложности задач с практикой, а другие, вероятно, имеют более косвенное отношение. Минимизация рабочей памяти (т. е. принцип 5) требует обучения управляемым компонентам. Содействие последовательным приближениям (т. е. принцип 8) предполагает постепенное оказание меньшей поддержки обучению и является примером увеличения сложности задачи с практикой.

использованная литература

  • Андерсон Дж. Р., Корбетт А. Т., Кёдингер К. Р., Пеллетье Р., 1995. Когнитивные наставники: извлеченные уроки. Журнал обучающих наук 4, 167–207. PDF
  • Фу, В.-Т., Ботелл, Д., Дуглас, С., Хаймсон, К., Сон, М.-Х., и Андерсон, Дж. А. (2006), На пути к системе обучения на основе моделей в реальном времени. Взаимодействие с компьютерами, 18(6), 1216-1230. PDF
  • Graesser, AC, Lu, S., Jackson, GT, Mitchell, H., Ventura, M., Olney, A., Louwerse, MM, 2004. Авто-репетитор: репетитор с диалогом на естественном языке. Методы, инструменты и компьютеры поведенческих исследований 36, 180–193. PDF
  • Хилл-младший, Р.В., Джонсон, В.Л. (1993). Разработка интеллектуальной системы обучения на основе реактивной модели приобретения навыков. Материалы Международной конференции по искусственному интеллекту и образованию, Эдинбург, 1993 г.
  • Слиман, Д., Браун, Дж. С., 1982. Интеллектуальные системы обучения. Академик Пресс, Нью-Йорк.

Основной эффект можно объяснить коннекционистскими моделями. См., например, Suret & McLaren (2002). Цитирую аннотацию:

В этой статье подробно описывается ассоциативная модель, которая применяется к человеческому обучению в искусственном измерении. Рассмотрены различные явления, в том числе пиковый сдвиг, перенос вдоль континуума и суммирование/обобщение, и представлены результаты моделирования, которые дают близкое соответствие эмпирическим данным.

http://faime.demon.co.uk/~streetm/wcci_2002/IJCNN02/PDFFiles/Papers/1163.pdf

добро пожаловать на сайт. Есть ли шанс, что вы могли бы уточнить свой ответ и объяснить, как коннекционистские модели объясняют эффект?