Какие технические трудности стоят за созданием датчика с большим динамическим диапазоном, таким как человеческий глаз?

Почему у нас еще нет датчиков с широким динамическим диапазоном, которые обеспечивают правильную экспозицию в каждой части изображения?

На самом деле после ответа я увидел, что это уже обсуждалось здесь . Если это не дает вам ответа на все вопросы, рассмотрите возможность расширения вашего вопроса с более подробной информацией.
Камера BlackMagic (видео Full HD) имеет EV 14, современные профессиональные видеокамеры (4K) имеют EV 18. Так у нас есть эти датчики...

Ответы (4)

Уже есть камеры с DR больше человеческого глаза, как мгновенно, так и в целом. Динамический диапазон человеческого глаза не так велик, как думает большинство людей. Насколько я помню, это где-то от 12 до 16 EV, что соответствует уровню современной зеркальной фотокамеры.

Основное отличие состоит в том, что у нас есть чрезвычайно естественное управление диафрагмой, которое будет подстраиваться под разные части изображения. По сути, наш мозг автоматически складывает изображения за нас. Когда мы смотрим на яркую часть сцены, наши зрачки сужаются, и мы видим детали яркой части. Если мы сместим фокус на более темную часть, наши зрачки быстро откроются, и мы увидим детали темной части. Наш мозг знает, как выглядела предыдущая часть, поэтому мы не замечаем изменений в нашем периферийном зрении, но на самом деле мы не видим столько деталей там, где мы больше не сосредоточены.

Точно так же, даже для общего диапазона человеческого зрения существуют специализированные камеры, которые могут быть намного темнее, чем мы, и все же видеть, особенно цвет. получить очень низкий уровень шума. Существуют также датчики, способные смотреть на очень яркие объекты, на которые людям было бы больно смотреть.

AJ, DSLR не имеют такого же динамического диапазона, как глаз. для DSLR 2 в степени 14, для человеческого глаза 10 в степени 14
@RomeoNinov - не для мгновенного DR, а только для видимого. У вас есть источник для вашего утверждения? Мой источник здесь : «Если бы мы вместо этого учитывали мгновенный динамический диапазон нашего глаза (где раскрытие зрачка не изменилось), то камеры работали бы намного лучше. никуда не глядя. В этом случае, по оценкам большинства, наши глаза могут видеть где-то от 10 до 14 ступеней диафрагмы динамического диапазона ».
@RomeoNinov - немного лучший ресурс . Так что стоит отметить, что наши глаза работают лучше там, где плохо работают камеры, но хуже там, где камеры работают лучше. В тенях у нас есть 20 EV, тогда как камеры уменьшили EV. По яркости у нас около 10EV, но у камер есть свои полные 12-14EV. 10^14 — это общий диапазон, который мы можем видеть, когда наши глаза приспосабливаются, а не то, что мы видим в любой момент времени. И в этом отношении камеры не ограничены 2^14.
да, камеры ограничены битовой глубиной вашего необработанного изображения. Вы не можете получить больше битов или больше информации от изображения. Я согласен с тем, что мозг «видит» образ не только из одного снимка глаза, более того, мы используем два глаза, которые добавляют много дополнительной информации к изображению в мозгу. А в упомянутом вами во втором комментарии ресурсе вы видите динамический диапазон глаза, отображаемый в степени 10. Что только подтверждает мои слова. Даже если DR составляет всего 12 EV, это 10 ^ 12, что составляет миллион миллионов, по сравнению с 2 ^ 14, что составляет 16384.
@AJHenderson: Если числа, записанные камерой, линейно зависят от уровня освещенности, то битовая глубина и динамический диапазон будут совпадать. Обработка изображений часто требует использования линейного числового представления; в то время как спецификация хранения изображений может использовать что-то вроде кодирования по закону u для достижения динамического диапазона примерно 4000: 1 с 8-битным форматом, я не знаю ни одного, кто бы это делал.
@AJHenderson: полезный динамический диапазон ограничен размером шага между двумя самыми низкими значениями. Если числовые значения изменяются линейно в зависимости от уровня освещенности, то размеры шага должны быть одинаковыми во всем диапазоне. С практической точки зрения, разница между, например, 0,3% и 0,4% от максимальной интенсивности, вероятно, будет гораздо более значительной, чем разница между 90% и 95%, но линейная шкала, которая могла бы различать 0,3% и 0,5%, должна была бы иметь 49 промежуточных значений между 90% и 95%. Использование нелинейной шкалы позволило бы избежать этой проблемы, но...
@AJHenderson: Использование большой битовой глубины не означает, что у вас есть большой полезный динамический диапазон, но если вы линейно сэмплируете сигнал с 8 битами для красного, зеленого и синего, наименьшая заметная разница между яркостью пикселей будет 1/ 255 от максимальной яркости. Преобразование данных в 8-битный нелинейный формат не приведет к существенной потере динамического диапазона, но работать с нелинейными данными сложнее.
@supercat - хорошо, я понимаю, что ты говоришь. Даже если бы сенсор мог считывать меньше, он не может достаточно точно описать то, что он видит. Последнее сделало то, что вы сказали, более ясным. Таким образом, осмысленный DR является следующим за самым низким показателем до следующего за самым высоким. Потенциально вы могли бы ощущать что-то большее, но у вас не было бы возможности хранить для этого значимую информацию.
@ RomeoNinov - где вы видите 10 ^ 14? Я вижу 10 ^ 9, что является общим статическим диапазоном, а не диапазоном, который можно увидеть в любой момент.
@AJHenderson: Я бы сказал, что для бесшумного датчика значимый динамический диапазон простирается от самого низкого значения, которое можно отличить от минимума датчика, до самого большого, которое можно отличить от максимума датчика. Во многих случаях эти значения будут на полединицы превышать номинальные значения для второго самого низкого и второго самого высокого показаний. Датчик с шумом правильной формы может расширить свой динамический диапазон на более низких пространственных частотах за счет уменьшения динамического диапазона на более высоких пространственных частотах.
Но даже сенсор, жестко ограниченный, скажем, шестиступенчатым динамическим диапазоном в любой момент времени , может быть использован для измерения деталей от очень темных до очень ярких значений в последовательных кадрах путем изменения Tv и Av! С точки зрения апертуры это то, что делает система глаз/мозг.

Видение – активный процесс

Большая проблема заключается в том, что смотреть своими глазами очень отличается от захвата изображения — изображение должно включать в себя всю информацию, на которую может смотреть смотрящий, но нормальное зрение — это активный процесс, который включает в себя движение глаз, перефокусировку и расширение зрачков в соответствии с происходящим. к объектам, на которые мы смотрим. Таким образом, если вы хотите зафиксировать «то, что видит глаз», вам, по сути, нужно зафиксировать точку обзора со всеми настройками, которые может использовать глаз.

Ваш вопрос касается динамического диапазона, но та же проблема возникает с визуальными деталями и фокусировкой. Для «эквивалента жизни» требуется гораздо больше пикселей, чем может уловить ваш глаз, поскольку разрешение глаз очень неравномерно, и пока вы смотрите только на одно маленькое пятно с высокой разрешающей способностью посередине сетчатки, изображение должно более подробная информация доступна, так как вы будете двигать глазами. В фильмах необходимо выбрать один фокус, в то время как человек может просматривать «одиночное изображение» с большей глубиной, быстро перефокусируя глаза и/или перемещая их для правильного бинокулярного зрения на разных предполагаемых расстояниях (например, глядя на поверхность окна или сквозь него). ), так далее.

Часть решения заключается именно в этом — использование одной камеры несколько раз быстро (или нескольких камер) для захвата множества изображений с разными настройками и последующего их объединения. в разных местах с разными «настройками», и только потом ваш мозг сливает все это в связную картинку или фильм. Реальные «изображения», сделанные нашими глазами, уже хуже хороших камер, просто их ментальное сочетание приятно.

+1 за ваше замечание о фокусе в фильмах. Это также связано с одной из основных причин, по которой у многих людей болит голова при просмотре 3D-фильмов. Глаз должен физически сфокусироваться на экране, но стереоскопическое изображение обманывает мозг, заставляя его думать, что некоторые части экрана ближе или дальше, чем они есть на самом деле, вызывая напряжение глаз, когда вы пытаетесь смотреть прямо на них. Студии пытаются свести это к минимуму, отображая фокус сцены в одном и том же месте как на левом, так и на правом изображении. Так что, если вам нравится смотреть на детали фона, не забудьте об ибупрофене!
Тот факт, что видение — это активный процесс, является одной из причин того, что действительно хорошие художники могут создавать картины, которые выглядят лучше, чем простая фотография. Простая фотография зафиксирует все в сцене с одной и той же точкой обзора, фокусом, экспозицией и характеристиками баланса белого, в то время как глаза того, кто действительно смотрел на сцену, могут постоянно приспосабливаться, когда он смотрит на разные части. Художник, в отличие от камеры, может создать изображение, в котором каждая часть сцены выглядит так, как если бы человек, который действительно находился в этом месте, смотрел на нее.

Ваш ментальный образ является продуктом не только сетчатки, но и ее взаимодействия со всеми другими компонентами, участвующими в зрении, включая зрачок и, конечно же, ваш мозг. То, что вам может показаться «одной картинкой», на самом деле является результатом высокоскоростной настройки и обработки информации, а не единичным снимком.

Дополнительную информацию по этой теме вы можете найти здесь .

Вполне возможно сделать датчик света с логарифмическими свойствами — такой датчик будет иметь невероятный динамический диапазон за счет ограниченного разрешения для конкретной экспозиции. Для получения обоих требуется АЦП с высоким разрешением. Для КТ-изображения обычно используется 24-битная линейная линейность, а затем после корректировки смещения берется логарифм для создания КТ-изображения.

Сенсор, который одновременно управляет экспозицией (время интегрирования — выдержка затвора), может работать лучше, а если вы позволяете изменять эффективность сбора света (вспомните число f), вы получаете еще большую гибкость.

Предельный динамический диапазон обычно ограничен шумом считывания — когда вы считываете накопленный заряд, будет некоторая ошибка — по сравнению с самым большим сигналом, который может поддерживать электроника. Как я уже сказал, 24 бита распространены в медицинской визуализации, и это лучше, чем 1 часть на 10 миллионов. Это гораздо более высокий динамический диапазон, чем у сетчатки для данной экспозиции. Но это обычно не используется в обычных камерах, потому что глаз не может оценить эти детали изображения, а разрешение достигается за счет скорости.