Ложные аттракторы в сетях Хопфилда

Классическая «сеть Хопфилда» — это тип искусственной нейронной сети, в которой элементы бистабильны и полностью связаны между собой симметрично взвешенными связями. В 1982 году Хопфилд показал, что такие сети характеризуются «энергетической функцией», при которой сохраненные воспоминания соответствуют локальным минимумам энергии [1].

В статье 1983 г. [2] Хопфилд и др. далее показали, что «ложные воспоминания» (локальные минимумы энергии, которые создаются во время обучения, в дополнение к предполагаемым целевым паттернам) могут быть подавлены «процедурой разучивания», во время которой сеть ему неоднократно позволяют расслабиться от случайных состояний, а полученные состояния затем «разучиваются» с помощью антихеббовских корректировок веса. Процедура влияет на ложные воспоминания больше, чем на желательные «выученные воспоминания», тем самым улучшая производительность припоминания. Однако в документе нет объяснения, почему это должно быть так.

В статье 2004 года Робинса и МакКаллума [3] показано, что ложные воспоминания можно отличить от заученных, потому что их «энергетические профили» различны. В частности, отношение наименьшего вклада энергии отдельных единиц к наибольшему значительно меньше в состояниях, соответствующих ложным воспоминаниям, чем в состояниях, соответствующих заученным воспоминаниям. Опять же, эффект не учитывается (за исключением предварительного частичного объяснения).

Мои вопросы:

  1. Есть ли связь между этими двумя открытиями, т. е. объясняет ли более низкое «энергетическое отношение» ложных состояний их большую восприимчивость к разучиванию?
  2. Были ли предложены какие-либо объяснения одному или обоим из этих явлений после публикации статей?
  3. Существуют ли другие способы подавления или обнаружения ложных воспоминаний в нейронных сетях семейства Хопфилда?

[1] Хопфилд, Дж. Дж. (1982). Нейронные сети и физические системы с возникающими коллективными вычислительными способностями. Труды Национальной академии наук, 79 (8), 2554–2558.

[2] Хопфилд, Дж. Дж., Файнштейн, Д. И., и Палмер, Р. Г. (1983). «Разучивание» оказывает стабилизирующее действие на коллективную память. Природа, 304 (5922), 158–159.

[3] Робинс, А.В., и МакКаллум, С.Дж.Р. (2004). Надежный метод различения изученных и ложных аттракторов. Нейронные сети, 17(3), 313–326. doi:10.1016/j.neunet.2003.11.007

Спасибо, что задали этот вопрос! Небольшой комментарий: вопрос 3 сам по себе довольно большой и не так тесно связан с вопросами 1 и 2. Возможно, стоит задать его как отдельный вопрос, но решать вам.
Argeed, 3 может быть лучше как отдельный связанный вопрос

Ответы (1)

Я думаю, что ваша интуиция о более низком «энергетическом коэффициенте» ложных состояний, объясняющем их большую восприимчивость к разучению, может быть верна.

В сети Хопфилда ложные состояния — это паттерны активности, которые не были явно встроены в синаптическую матрицу, но, тем не менее, являются стабильными. Другими словами, это «нежелательные» состояния аттрактора, которые в силу конечного перекрытия с «желательными» состояниями аттрактора возникают как локальный минимум в функции энергии. Правило разучивания в Hopfield et al. (1983) состоит в модификации синаптической матрицы таким образом, чтобы уменьшить энергию устойчивых состояний, в которых устанавливается сетевая динамика, будь то ложные или встроенные состояния. Поскольку ложные состояния имеют более высокую энергию, чем встроенные состояния, на них сильнее влияет этап отучения.

Теперь, почему ложные состояния имеют более высокую энергию, чем встроенные состояния аттрактора? Что ж, на самом деле это не так в общем случае, но это имеет место в режиме, когда сеть Хопфилда не превышает своей пропускной способности, то есть когда количество выученных образов превышает количество единиц п / Н ниже критической емкости α с 0,138 . В этом режиме можно оценить перекрытие ложных состояний с выученными паттернами и показать, что оно в целом меньше, чем 1 (наложение выученных паттернов на себя). Из-за хеббовской конструкции синаптической матрицы в модели Хопфилда эти перекрытия являются членами, которые появляются в функции энергии. Энергия паттерна прямо пропорциональна минус квадратному корню из его перекрытия с выученными паттернами. Это означает, что ложные паттерны имеют более высокую энергию, чем заученные.

Вообще такого рода наивные рассуждения должны быть подкреплены более строгими аргументами, основанными на теории вероятностей. Они, например, указывают, что даже для режима ниже α с извлеченные шаблоны на самом деле являются ложными состояниями, как только число встроенных шаблонов п превышает выше Н 2 п Н . Однако такие ложные состояния имеют такое сильное совпадение с выученными паттернами ( 0,97 ), что они в основном совпадают с ними.

Этот результат и его обобщения для ненулевой температуры (т.е. шума в динамике) и за пределами критической емкости были разработаны в следующей очень технической статье:

и в книге:

хороший ответ и ссылки. Добро пожаловать в CogSci.SE, рады видеть вас здесь!
Добро пожаловать! Я разделяю мнение @ArtemKaznatcheev.
Спасибо за этот интересный ответ, я буду следить за этими ссылками.