Как мозг структурирует трехмерные визуальные данные?

Adobe Illustrator потребовалось более пяти минут (и больше), чтобы визуализировать векторное 2D-изображение, повернутое на 18°, в 3D на моем компьютере. И тем не менее, я и почти любой другой человек могу легко визуализировать объект, вращающийся почти мгновенно, и с небольшим усилием непрерывно вращать объект в реальном времени мысленным взором.

Вращающийся фламинго

Я не спрашиваю, как мозг хранит представления об объектах, поскольку это явно подлежит обсуждению. Но как мозг структурирует свое внутреннее представление трехмерных визуальных данных?

Это почти наверняка не в каком-то пиксельном формате, что можно показать, просто визуализируя какой-то объект, а затем мысленно увеличивая некоторые детали и замечая, что изображение сохраняет свою резкость. Вероятно, это также не разбиение объектов на геометрические формы, потому что, по крайней мере, я лично не представляю своих друзей в виде фигурок из палочек. Это может быть векторный формат , но тогда должно быть легче визуализировать сложные формы, которые математически просты, как этот:

Сложная, но математически простая форма

Так что, казалось бы, мозг использует какой-то другой формат. Насколько это известно современным когнитивистам, как это работает?

Наше визуальное изображение находится в 2D, подобно обычной камере, но есть много факторов, которые позволяют нам интерпретировать мир как 3D. Это, среди прочего, размер объекта (объекты дальше, как правило, меньше), порядок объектов (некоторые объекты находятся за чем-то другим) и относительное движение (объекты ближе друг к другу перемещаются быстрее в 2D-панели, чем объекты дальше). Учитывая множество наших специализированных зрительных областей (V1-V6 и т. д.), в большинстве случаев это происходит бессознательно. Ps То, что вы сознательно не используете фигурки, не означает, что ваш мозг этого не делает.
@RobinKramer На самом деле я не спрашиваю о зрении, вопрос в том, как мозг удерживает визуальные данные. Представьте своего лучшего друга. Вы, вероятно, можете крутить его или ее, поднимать или опускать руки, ноги и голову и иным образом создавать фильмы с этим человеком в своей голове. Компьютерам трудно достичь такого понимания трехмерных объектов, и все же мы (и, вероятно, по крайней мере несколько млекопитающих) можем делать это естественно, без усилий и эффективно мгновенно. Без всякой необходимости вдаваться в электрохимический процесс, посредством которого объекты хранятся (если только вы этого очень не хотите), в каком «формате» эти данные?
То, что вы думаете, что мысленно моделируете трехмерный объект, не означает, что этот объект на самом деле является трехмерным в вашей голове. Это потребовало бы большого количества перцептивной информации. Как правило, большая часть хранимой информации основана на глобальных и локальных предписаниях, позволяющих проводить более точную идентификацию. (глобальное искажение восприятия). Итак, учитывая, что визуальная информация, которой вы манипулируете, структурно недоступна (как в рисовании), вы манипулируете предписаниями, которые вы ранее сохранили (что требуется для идентификации объекта).
@Dog представление о том, что визуальные данные мысленно двумерны, но интерпретируются с использованием правил, привычных для трехмерности, может показаться противоречащим простому опыту. Очень легко изобразить объект и описать его форму в трех измерениях, но описать его форму в двух измерениях под каким-либо конкретным углом сложно (вспомните автомобиль, который легко визуализировать в трех измерениях, но трудно обрисовать в двух). Я должен был бы сказать, что я не согласен
Окончательный ответ на это будет заключаться в том, что он хранит как (очень сложную) взвешенную сетевую структуру. Извините, если этот ответ разочаровывает, но это действительно ответ . Я могу подробнее объяснить, как мозг обрабатывает визуальные эффекты, поступающие с сетчатки, посредством обнаружения признаков и обратной связи сверху вниз, но я не уверен, что это ответит на ваш вопрос.
Хороший вопрос! Я думаю, предположения и загадки того, как мы это делаем, — хороший пример того, почему человеческое зрение/образы — такая трудная проблема для когнитивной науки. Пара моментов: (1) Самоанализ не является хорошим доказательством того, как это происходит в мозгу. Вам не кажется, что это пиксель/форма, но эти механизмы, вероятно, не открыты для сознательного самоанализа. (2) Тип «формата»/представления является ключевым вопросом в моделях распознавания объектов, поэтому вам может быть интересно взглянуть на работу Тарра и Бидермана и на дебаты между «зависимыми от представления» и «независимыми от представления» моделями.
На самом деле, вы должны спросить себя, есть ли какие-либо эмпирические доказательства того, что люди могут плавно вращать вещи, как вы предполагаете. Есть несколько классических работ по «умственному вращению», которые вы могли бы прочитать для этого. Я сомневаюсь, что мы так хороши, как вы думаете (я понятия не имею, как выглядит затылок моего друга).

Ответы (1)

На этот вопрос нельзя ответить в той форме, в которой вы его задали, из-за ограниченности современных нейробиологических теорий и методологий, когда дело доходит до определения структур сложных нейронных репрезентаций (хотя мы добились прогресса в нескольких случаях, таких как клетки места и ячейки сетки) и потому, что нейронные представления на самом деле не аналогичны нашим разговорным концепциям простых отображений чисел в изображения (например, пиксельные, векторные, вейвлетные и т. д. основы для представления цифровых изображений).

Я бы посоветовал вам мыслить не только в терминах этих репрезентативных форматов, привилегированных компьютерными архитектурами в стиле фон Неймана (т. е. нормальными компьютерами) с отдельными системами обработки и цифровой памяти, но и в терминах нейронного компьютера с распределенными вычислениями и памятью. Нейробиологи обычно думают о нейронной репрезентации в зрительном восприятии как о происходящем на ряде стадий повышенной абстракции. На сетчатке изображение примерно представлено в терминах того, что вы можете представить себе как пиксели, но на самом деле это всего лишь набор фотосенсоров и прикрепленных к ним нейронов, которые активируются из-за того, что свет попадает на сетчатку в разных местах с разной частотой и амплитудой. В V1 или первичной зрительной коре, представление представлено в терминах того, что можно рассматривать как «детекторы краев». В V2 клетки настроены на несколько более сложные свойства, такие как ориентация, пространственная частота, цвет и бинокулярное несоответствие (важная часть информации для трехмерного восприятия). По мере прохождения через V3, V4, V5 , и V6 представления становятся все более и более сложными, пока они не содержат информацию о структуре самого лежащего в основе понятия.

Трехмерность не возникает до тех пор, пока визуальная информация от обоих глаз не будет объединена с нисходящей информацией о том, как обстоят дела в мире (которая также исходит из других органов чувств и опыта), чтобы сделать вывод о вероятной форме объекта. предмет. Неясно, есть ли в мозгу какое-либо место, где изображение явно представлено в виде трехмерной модели визуального объекта. Более вероятно, что необработанные перцептивные данные, такие как цвета и узоры, представлены в одной области и связаны с более объектно-ориентированным структурным представлением в другой области, и эта ассоциация вызывает совместную активацию всех нейронов, имеющих отношение к восприятию объекта в другой области. это трехмерная форма.

Мы также можем думать об этом с точки зрения современной теории неактивного восприятия, которая утверждает, что мозг представляет информацию в терминах непредвиденных обстоятельств состояния-действия-наблюдения. В этой теории вообще не существует «образа», а есть только набор нейронных активаций, которые коррелируют с предыдущим опытом (где корреляции хранятся в терминах ассоциативных связей между нейронами, создавая причинно-следственный путь активации, по которому распространяется «информация»). ) и отношения между потенциальными действиями (двигательные действия низкого уровня сетчатки или других мышц,

Если вы хотите узнать больше, эти источники должны стать хорошим началом: распределенная нейронная память , распределенное нейронное представление процесса более высокого порядка , восприятие как ассоциации между действиями и наблюдениями .

Есть также несколько источников, которые предлагают прямые экспериментальные доказательства вашего вопроса, но не дают такого концептуального введения в нейронные вычисления и представление. Для начала см . «Нейронные вычисления, лежащие в основе восприятия глубины» , Бинокулярное восприятие глубины и кора головного мозга .

В вашем вопросе также упоминается вращение объекта «мысленным взором». Существует также очень большое количество исследований этого явления, которое называется «ментальное вращение». Статья в Википедии — хорошее место для начала, но об этом интересном явлении можно рассказать гораздо больше, поэтому не стесняйтесь задавать связанные вопросы, если вам интересно!

Это фантастический ответ, и мне особенно нравится интерпретация энактивного восприятия, которая подразумевает, например, что визуальные данные, связанные с человеком, представляют собой комбинацию 2D-данных, 3D-данных и общей информации о формах людей в общие, которые можно использовать для создания ориентировочной грубой (и все же довольно точной) ментальной модели структур, которые не хранятся полностью в трехмерных изображениях, как можно было бы наивно подумать. Ссылки тоже отличные. Не стесняйтесь добавлять больше!
Спасибо! Я ценю обратную связь и рада, что могу внести свой вклад в ваши мысли по этому поводу. Возможно, в ближайшем будущем я напишу подобный пост в блоге. Я свяжу вас, если и когда я это сделаю.
Кажется, я все еще жду, когда наука наверстает упущенное :) Вы когда-нибудь писали этот пост в блоге?