Путь вентрального потока и архитектура, предложенная группой Поджо

Пожалуйста, не могли бы вы дать мне очень краткое объяснение обо всех функциях в архитектуре вентрального потока, представленных на этом рисунке:введите описание изображения здесь

Этот рисунок взят из книги Серра и др. « Количественная теория немедленного визуального распознавания » . Прог Мозг Res. 2007.

Я прочитал несколько статей об этой модели, но я до сих пор не понимаю основную цель, особенно за двумя операциями (гауссовыми и максимальными операциями). Поэтому, пожалуйста, кто-нибудь может подробно объяснить мне путь вентрального потока ( от V1-V2-V4-IT-PFC), включая две операции в этой модели.

Например: я не понимаю, как устроены ячейки в S1...

Название вводит в заблуждение. Это всего лишь ОДНА модель обработки вентрального потока среди многих возможностей. Можете ли вы быть более подробно, какие ссылки вы читаете? Похоже на сверточную архитектуру глубокого обучения, но вам нужно рассказать нам больше.
Благодарю за ваш ответ. Можете ли вы подробно рассказать мне, что происходит на этой фотографии? (в S1, C1 и т.д.). Заранее спасибо.
Картинка мало что говорит. Кажется, что он попеременно находит локальные линейные функции, а затем объединяет те же функции в пространстве. Вы должны указать нам, откуда вы взяли картинку, и не могли бы вы также записать уравнения, которые могли бы помочь. Недостаточно информации с картинки!
я отредактировал свою картинку.. мне нужен только концепт
где ты взял картинку?
в моем вопросе выше
Я думаю, @Memming просит вас указать источник изображения, откуда вы его скачали?
Я внес изменения в ваш вопрос, чтобы включить правильные ссылки. Надеюсь, вы согласны с моими изменениями.

Ответы (1)

Это типичная архитектура вычислений, предложенная в качестве модели вентрального потока обработки изображений у приматов . Он имеет долгую историю (например, Неокогниторон на Фукусиме был в 1980 году ) и до сих пор широко используется в машинном обучении (например, глубоком обучении ) и нейробиологии.

Неокогнитрон

Это мотивировано организацией простых клеток V1 и сложных клеток. Простые клетки в V1 можно приблизительно рассматривать как детекторы краев в определенном месте сетчатки. Поэтому на приведенном вами рисунке они изображены в виде круга с полосой (мультяшное рецептивное поле). Простые ячейки могут обнаруживать вещи только очень локально, то есть, если край появляется в другом месте в вашем поле зрения, он не будет реагировать.

Математически вы можете думать о пространственном фильтре, который обнаруживает край (например, ориентированный участок Габора), умножается на ваше изображение на сетчатке и суммируется. Например, приведенный ниже фильтр обнаружит соответствие 45-градусной полосе, выровненной по выделенной области, но будет иметь меньшую активность, если полоса сместится за пределы определенной позиции.

ориентированный патч Габора

С другой стороны, сложные ячейки в V1 по-прежнему являются детектором границ, но имеют некоторую инвариантность местоположения. Другими словами, при небольшом смещении края реакция сложных клеток как бы не меняется. Считается, что это происходит потому, что сложные клетки вытягиваются из нескольких простых клеток с одинаковой ориентацией. Это то, что вы видите на рисунке, где одна сложная ячейка извлекает информацию из простых ячеек той же ориентации, но в разных местах.

Математически операция soft-max или операция max над выходными данными простой ячейки может привести к хорошей модели сложной ячейки. Но, это не ограничивается такими операциями. Фактически, квадратичные или другие нелинейные модели также широко используются в вычислительной нейронауке.

Полная иерархия для вентрального потока затем просто получается путем многократного расширения с использованием аналогии простой-клеточной-сложной-клетки. Для каждого стека слой простых ячеек извлекает некоторую локальную характеристику (вычисляя выходные данные сложной ячейки предыдущего слоя), а слой сложных ячеек делает его инвариантным в пространстве. Из ребер в V1 можно получить углы на следующем слое, затем сложные контуры и вплоть до объектов. По крайней мере, так гласит история.

Я не знаю, как поблагодарить вас за этот ответ. Я действительно очень ценю это ... Но я все еще не понимаю некоторых деталей, я выскажу свое мнение во втором комментарии.
Я знаю, что в области v1 у нас есть простые и сложные ячейки. каждая простая клетка получает некоторые входные данные от латерального коленчатого ядра (LGN). Эти входные данные сочетаются с настройкой в ​​​​форме колокола (настройкой, подобной Гауссу) с предпочтительной ориентацией. И все мы знаем, что каждая простая клетка может реагировать на определенную ориентированную полосу (в случае гауссовой настройки ответ клетки должен быть оптимальным??, потому что мы делаем настройку с предпочтительной ориентацией рецептивного поля клетки). клетка ?).
Однако, если мы рассмотрим такое изображение, не могли бы вы подробно объяснить мне, что происходит, чтобы получить настроенные простые ячейки в v1? Другими словами, и в случае рассматриваемого изображения, что мы имеем в виду под входами такой простой ячейки? есть ли сегментация изображения перед операцией настройки? Я не понял этого явления... есть ли свертка изображения с определенным фильтром, чтобы получить изображение в виде полос ?? пожалуйста, мне нужна ваша ценная помощь :) и большое спасибо Дорогой.
@ Лист Не за что. Кривую настройки ориентации можно рассматривать как следствие модели LN. Если вы зададите это отдельным вопросом, я могу написать для вас уравнения.
@ Лист На самом деле кривая настройки будет иметь форму косинуса, а не совсем гауссовую или фон Мейзеса ... но они очень похожи. Это происходит из соотношения между скалярным произведением и косинусом.
для первого шага (настройка простых ячеек в v1) можете ли вы привести пример, который может подробно и шаг за шагом включать операцию этой настройки для получения простых ячеек (слой S1). Поэтому, пожалуйста, не могли бы вы дать мне этот пример в конкретном изображении, которое вы выберете ... Я буду очень признателен за ваш ответ !! :) если да, пожалуйста, поместите свой пример во второй ответ :) вам не нужно делать расчет, вы можете только дать мне краткий пример (схема из мультфильма).
@Liszt Я предлагаю вам задать совершенно отдельный вопрос. В каждом вопросе должен быть только один вопрос. Так работает СЭ. :)
ах, извините, поэтому я могу задать другой вопрос на этом сайте, и вы можете мне ответить (чтобы привести пример)? :) :)
@ Лист Да, я отвечу на твой вопрос. (если это не сделает кто-то другой) :P
Уважаемый Мемминг, не могли бы вы объяснить мне, как вычисляется евклидово расстояние в слое S2 между патчем X размером nxn (но содержит nxnx4 единиц C1) и сохраненным прототипом? каким образом в результате должно получиться изображение S2? пожалуйста, мне нужна ваша помощь :) спасибо