Perché le telecamere non catturano la gamma dinamica come fanno i nostri occhi?


29

Quando sono seduto in una stanza senza luci e guardo fuori dalla finestra, posso facilmente vedere l'interno della stanza anche se mi concentro su un albero all'esterno.

Perché una fotocamera non può catturare un'immagine simile a ciò che i miei occhi possono vedere? Penserei che le nuove fotocamere dovrebbero essere in grado di catturare facilmente questa vasta gamma dinamica. Non credo che la visualizzazione sia un problema se viene catturata questa vasta gamma dinamica, perché può essere normalizzata. In una fotocamera digitale devo impostare l'esposizione che catturerà correttamente solo la scena esterna o interna.

Questo è solo un problema con le fotocamere digitali o è lo stesso per le fotocamere a pellicola?

Una domanda simile è già stata discussa qui Come catturare la scena esattamente come i miei occhi possono vedere? . Non sto parlando di risoluzione, messa a fuoco o dettaglio. Sono interessato all'esposizione o alla gamma dinamica simile a quando fissiamo gli occhi su una singola scena.


2
Non vedo il motivo per cui dici "la nuova fotocamera dovrebbe essere in grado di catturare facilmente questa gamma dinamica". Sono basati su una tecnologia completamente diversa dai nostri occhi, quindi non vedo davvero perché ti aspetti che abbiano caratteristiche simili.
Philip Kendall,

Quindi è tutta la gamma dinamica che crea la maggior parte del problema?
LifeH2O

Sto pensando a un esperimento, realizzo la scena su un foglio con un obiettivo e poi catturalo con la fotocamera. Dovrebbe normalizzare la gamma dinamica.
LifeH2O

4
Visita jvsc.jst.go.jp/find/mindlab/english/index.html per vedere interattivamente come sei ingannato dal cervello;)
Stormenet

1
@Stormenet: Questo è un inferno di un link!
Chinmay Kanchi,

Risposte:


45

La ragione per cui puoi vedere una gamma dinamica così ampia non è che l'occhio, in quanto dispositivo ottico, può effettivamente catturare una tale gamma - la ragione è che il tuo cervello può combinare informazioni da molte e molte "esposizioni" dagli occhi e crea un panorama HDR della scena di fronte a te.

L'occhio è piuttosto scarso dal punto di vista della qualità dell'immagine, ma ha un "frame rate" molto elevato e può cambiare la sensibilità, la direzione e la messa a fuoco molto rapidamente.

Il cervello prende tutte quelle immagini dall'occhio e crea l'immagine che pensi di vedere - questo include dettagli da immagini a diversa sensibilità e persino dettagli che sono completamente inventati in base a ciò che ti aspettavi di vedere. (Questo è uno dei motivi per cui ci sono illusioni ottiche: il cervello può essere ingannato nel "vedere" cose che non sono realmente lì).

Quindi, puoi vedere con la tua fotocamera proprio come con gli occhi, basta prendere molte esposizioni con impostazioni diverse, quindi caricare tutto in Photoshop, creare un panorama HDR e utilizzare "riempimento consapevole del contenuto" per colmare le lacune.

A proposito, perché le telecamere "dovrebbero" essere in grado di catturare quella gamma ma i monitor non dovrebbero essere in grado di riprodurla? Se la tecnologia che non esiste dovrebbe esistere, i monitor dovrebbero essere in grado di riprodurre tutto ciò che possiamo vedere (e dovrei essere in grado di fare una vacanza in un hotel a bassa gravità sulla luna)


1
mi hai battuto di circa 4 minuti con una risposta quasi identica!
Matt Grum,

22

Potresti avere un leggero vantaggio nella gamma dinamica del sensore rispetto a una fotocamera, ma la maggior parte di ciò che fa la differenza è avere un sofisticato sistema di esposizione automatica, saccadi , elaborazione HDR e un sistema di riconoscimento delle scene che persiste su più esposizioni . Il cervello umano è almeno importante per il sistema visivo quanto l'occhio .

Presentato con una scena con una gamma dinamica molto elevata, il sistema visivo umano impiega del tempo per adattarsi. Questo non perché dobbiamo regolare un'impostazione della gamma dinamica, ma perché dobbiamo analizzare separatamente le parti molto luminose e molto scure della scena, quindi incollare insieme le parti importanti dell'immagine. Molto di ciò che "vediamo" dipende in realtà dal sapere già cosa c'è; possiamo usare pochissime indicazioni di dettagli reali per riempire gli spazi vuoti (e quando non abbiamo abbastanza informazioni reali, possiamo interpolare - ma non sempre correttamente ).

Far funzionare una telecamera, qualunque telecamera, a quel livello significa progettare un sistema che "sa" cosa sta guardando. Possiamo già fare la versione "stupida" usando varie tecniche HDR (nel tuo esempio specifico, di solito con un semplice mascheramento in cui la porta verrebbe tagliata dall'esposizione al buio e una versione dall'esposizione luminosa al suo posto). L'attuale processo automatizzato si basa interamente sulla luminosità (poiché non è in grado di analizzare significato o importanza) e tende a produrre artefatti evidenti. E se hai mai visto un'immagine combinata HDR a 32 bit grezza che non è stata ancora modificata in modalità tonem (che è essenzialmente il genere di cose che otterrai solo aumentando la gamma dinamica del sensore), probabilmente avrai notato che l'immagine è molto "piatta" e priva di contrasto sia locale che globale. È sapere qual è la scena che ci consente di fare la mappatura, per decidere dove il contrasto è localmente importante. Fino a quando la fotocamera non può prendere lo stesso tipo di decisioni, non sarà in grado di produrre un'immagine che assomigli a ciò che vede il tuo cervello.


9

Ha a che fare con il modo in cui il cervello interpreta le informazioni fornite dagli occhi (o per dirla in altro modo, è il software non l'hardware).

Vediamo solo colori e dettagli in un campo molto stretto al centro della nostra visione. Per costruire l'immagine colorata dettagliata che percepiamo, il cervello sposta questo punto centrale senza che noi lo sappiamo.

Non sono un neurobiologo, ma è ovvio che mentre il cervello sta inventando questa immagine più ampia da molte piccole istantanee, fa anche un po 'di normalizzazione sulla luminosità producendo un'immagine che appare approssimativamente la stessa luminosità ovunque, nonostante alcune aree siano molto più luminoso nella realtà. Fondamentalmente la capacità di vedere cose oscure e luminose allo stesso tempo è un'illusione.

Non vi è alcun motivo per cui questo comportamento non possa essere imitato dalle fotocamere digitali, né esiste alcun motivo per cui non possiamo rendere i sensori in grado di offrire una gamma dinamica molto maggiore in una singola esposizione. In effetti Fuji ha prodotto un sensore con fotositi a bassa sensibilità per catturare dettagli di luce extra.

Il problema è dovuto all'impossibilità di visualizzare immagini ad alta gamma dinamica. Per visualizzare tali immagini su un monitor a bassa gamma dinamica standard è necessario eseguire un'elaborazione speciale chiamata tonemapping, che presenta una serie di svantaggi. Per la maggior parte dei consumatori le telecamere ad alta gamma dinamica sarebbero semplicemente più seccanti.


3

Sommario:

  • Dio ha fatto i nostri occhi.

  • Facciamo telecamere.

  • Non abbiamo ancora raggiunto Dio.

  • MA la migliore fotocamera disponibile è all'altezza del requisito che descrivi.

  • Ci sono modi per ottenere ciò che vuoi. Hai semplicemente deciso di definirli come non quelli che desideri. Questa è la tua scelta

Il livello di luce in una stanza buia con una finestra aperta su una scena esterna può essere basso fino a circa 0,1 lux (0,1 lumen per metro quadrato). Il livello di luce della scena esterna può essere compreso tra 10 e migliaia di lux nella situazione descritta.

A 100 lux esterni e 0,1 lux interni il rapporto è 1000: 1 o poco meno di 10 bit della gamma dinamica. Molte fotocamere moderne potrebbero differenziare le differenze tonali su entrambe le estremità di questa gamma impostata correttamente. Se il livello di luce dell'albero stava solo saturando il sensore, avresti a disposizione circa 4 bit di livello all'interno della stanza = 16 livelli di illuminazione. quindi potresti vedere un certo grado di dettaglio con il livello più luminoso TRANNE CHE il livello di luce del teatro è così basso che gli occhi avrebbero problemi con esso.

Se il livello di luce dell'albero fosse di 1000 lux (= 1% della piena luce solare) avresti bisogno di circa 13 bit di gamma dinamica. Le migliori fotocamere full frame da 35 mm disponibili sarebbero in grado di gestirlo. La regolazione della telecamera dovrebbe essere precisa e si otterrebbero circa zero informazioni tonali all'interno della stanza. Questo livello di illuminazione esterna è superiore a quello che si otterrebbe se non in una situazione notturna illuminata.

Molte moderne reflex digitali di fascia medio-alta hanno un'elaborazione HDR integrata che consente di ottenere gamme dinamiche molto maggiori combinando più immagini. Anche una foto HDR a 2 immagini si adatta facilmente alla tua scena. La mia Sony A77 offre fino a +/- 6 EV 3 frame HDR. Ciò fornirà oltre 20 bit di gamma dinamica, consentendo variazioni tonali molto adeguate alle estremità superiore e inferiore del tuo esempio.


11
In alternativa, si potrebbe dire che l'evoluzione ha avuto un vantaggio di cinquecento milioni di anni sui nostri ingegneri, e sarebbe irragionevole aspettarsi che ci raggiungiamo da un po 'di tempo :)
Staale S

4
È un tocco teologico ...
Rowland Shaw,

2
Non credo che questo risponda alla domanda - dice semplicemente "perché gli occhi sono migliori". Va bene. Come ci riescono?
mattdm,

1
@ naught101 - "recuperato" è una misura piuttosto delicatamente sfumata :-). L'occhio di per sé è in qualche modo inferiore al meglio che possiamo gestire. Ma gestisce ancora alcune prodezze prodigiose. ad esempio l'occhio scuro adattato può rilevare un singolo fotone! Ma ciò che rende la vita tremendamente difficile per i pretendenti è che l'occhio non è solo una parte di un sistema multiorgano integrato - e il cervello prende un po 'di tempo, finora.
Russell McMahon,

1
@RowlandShaw - solo se desideri che sia così. Altri hanno offerto la propria visione del mondo appropriata traduzione di quello. Un'affermazione del genere può essere una metafora di qualunque cosa tu voglia che sia (Cthulu, FSM, Ever-looshin, ...) o meno.
Russell McMahon,

2

È solo il problema delle fotocamere digitali o è lo stesso per le fotocamere a pellicola?

Nessuna delle risposte ha ancora toccato questo, almeno direttamente ... sì, è anche un problema con il film. Il famoso film per trasparenze a colori Fuji Velvia, ad esempio, ha una gamma dinamica davvero marcita (comunque un ottimo colore!). In generale, la pellicola per trasparenze ne soffre. D'altra parte, i film negativi possono avere una gamma dinamica molto buona, circa quanto le migliori fotocamere digitali attuali. Tuttavia, viene gestito in modo leggermente diverso: sebbene il digitale abbia una risposta lineare alla luce, il film tende ad avere una marcata curva di contrasto "S" incorporata. I neri e i quasi neri, i bianchi e i quasi bianchi, sono raggruppati più dei toni medi.

Tieni presente che, poiché le foto delle pellicole finiscono generalmente per essere stampate con inchiostro su uno sfondo di carta bianca, c'è un limite non troppo generoso alla quantità di gamma dinamica che si vorrebbe catturare in primo luogo! Catturare, diciamo, una gamma dinamica di trenta stop e poi portarla a ... qual è comunque il ballpark DR di una stampa fotografica? Cinque fermate? Sei? ... il supporto di output sembrerebbe ... strano, per non dire altro. Ho il sospetto che sia questo fattore più di qualsiasi ostacolo insormontabile con la chimica che abbia una gamma dinamica limitata di pellicole fotografiche. Non è così tanto che non possiamo farlo, è più che non vogliamo attivamente farlo .


2

Abbastanza roba per riempire un libro - ma la sostanza è che gli occhi umani vedono la luminosità in modo logaritmico mentre le telecamere "vedono" la luminosità in modo lineare.

Quindi, se si assume una condizione in cui la luminosità va da 1 a 10000 (numero scelto casualmente), nella base di registro 10, l'occhio umano vedrebbe la luminosità da 0 a 5 mentre la fotocamera, linearmente, la vede da 1 a 10000. Costruzione un sensore in grado di coprire una gamma così ampia è difficile poiché si hanno interferenze di rumore con misurazioni basse e fuoriuscite interferiscono con misurazioni di luminosità più elevate. Detto questo, credo che ci sia una fotocamera RED in grado di registrare 18 stop di gamma dinamica - non sono sicuro che sia solo un prototipo o un modello di produzione.

A proposito, la differenza logaritmica vs lineare è anche il motivo per cui la luminosità raddoppia o dimezza per una differenza di stop.

Ma questo è sufficiente per un argomento di ricerca - quindi questo è solo un breve puntatore.


Questo effetto logaritmico nell'occhio umano appiattisce la gamma dinamica e il cervello lo affronta perché lo ha ottenuto solo in quel modo per tutta la sua vita. Se anche la videocamera appiattisse la gamma dinamica, quando si visualizza il risultato, si otterrebbe un doppio appiattimento e il cervello è abituato solo all'appiattimento singolo. Se dovessi vedere il mondo con un dispositivo che lo facesse e continuassi per giorni, ti abitueresti normalmente. Rimuovi quindi il dispositivo e il mondo sembrerebbe duro e eccessivamente contrastato.
Skaperen,

@Skaperen Non credo che definirei necessariamente un logaritmo che appiattisce la gamma dinamica. Se ridimensionate logaritmicamente e linearmente la luminosità in un confronto fianco a fianco quello logaritmico può sembrare più piatto, ma la domanda è: quanti decimali vediamo? Tecnicamente entrambe le immagini conterrebbero comunque le stesse informazioni solo su scale diverse e il ridimensionamento non modifica le informazioni contenute purché non si verifichino errori di arrotondamento.
DetlevCM,

2

L'occhio non cattura l'intervallo dinamico. Comprime la gamma dinamica e quindi la "post-elaborazione" nel cervello crea l'illusione della gamma dinamica. Una gamma dinamica compressa è il motivo per cui è possibile vedere contemporaneamente ombre e aree illuminate. Il "guadagno", per così dire, viene automaticamente attivato nelle parti della retina che percepiscono le ombre, le rendono più luminose e si riducono dove la retina sta vedendo aree illuminate. Il cervello sa ancora che sta guardando in un'ombra, quindi crea la sensazione che sia buio lì. È in atto una sorta di espansione sui dati compressi, per così dire, in modo da non essere a conoscenza del fatto che l'intervallo dinamico è stato compresso.

I sensori nelle fotocamere digitali potrebbero facilmente sovraperformare la retina nella gamma dinamica non elaborata. Il problema è che non controlli l'esposizione in base all'area. Le telecamere hanno impostazioni di guadagno (generalmente presentate nella terminologia cinematografica come impostazioni ISO) che sono globali.

Ciò che l'occhio fa, per così dire, è qualcosa come usare "ISO 100" per un'area luminosa e "ISO 800" per un'area scura allo stesso tempo.

Se la videocamera fosse in grado di regolare il guadagno per specifiche aree di pixel in base alla luminosità, ciò sarebbe indubbiamente utile, ma sappiamo dall'applicazione di tali effetti di livellamento del guadagno nella post-elaborazione che il cervello non è veramente ingannato da loro. Non sembra naturale. Sembra naturale solo quando il tuo occhio lo sta facendo in coordinazione con il tuo cervello.


2

Questa è una domanda interessante se le dai la possibilità invece di evidenziare le ovvie ragioni per cui le telecamere sono già realizzate nel modo in cui sono realizzate.

Consideriamo l'opzione più vicina. La mappatura dei toni è un metodo in cui viene applicato un filtro passa-basso sui valori esponenti dell'immagine RGBe. Ciò gioca un ruolo importante nel modo in cui gli occhi vedono qualcosa. Ma consideriamo che i nostri occhi stanno osservando lunghi flussi di immagini. Funzionano molto più come videocamere che macchine fotografiche.

La mappatura dei toni potrebbe essere notevolmente migliorata se fosse costruita come uno shader GLSL in esecuzione in tempo reale con una videocamera specializzata in grado di catturare un flusso costante di immagini HDR.

In un esempio molto più semplificato, le foto "HDR" dell'iPhone sono composte di un'immagine a bassa e alta esposizione spinta attraverso un processo di mappatura dei toni che funziona abbastanza bene se non l'hai ancora provata. Molte altre fotocamere consumer fanno cose simili.

C'è anche l'affascinante argomento di come intuizione / intenzione / libero arbitrio gioca su come i tuoi occhi vengono calibrati nel corso del tempo. Se stai guardando un muro scuro e pensi di girare la testa verso una finestra illuminata, il tuo cervello può dire ai tuoi occhi di andare avanti e iniziare a chiudere le pupille. Una fotocamera con esposizione automatica può fare la stessa cosa, ma solo dopo che arriva troppa luce. Le persone che lavorano al cinema passano molto tempo a far fluire senza problemi i tempi delle impostazioni delle telecamere per sentirsi naturali in uno scatto complicato (o illuminando una scena in modo tale che le impostazioni delle telecamere non debbano essere effettivamente regolate) Ma ancora una volta, l'unica ragione per cui funzionano in quel modo è perché il regista sa cosa accadrà alla telecamera prima che accada.


0

Il problema più grande sarebbe la riproduzione dell'immagine catturata.

Non è al di fuori del regno della tecnologia creare un sensore di immagine e una configurazione in grado di catturare una gamma estremamente ampia di livelli di luminosità in una singola immagine. Alla fine è solo una questione di conteggio dei fotoni, che è una tecnologia che si adatta ai livelli necessari. Le fotocamere attuali utilizzano principalmente le impostazioni di esposizione per modulare la quantità di luminosità che il sensore vede, sebbene una parte maggiore di questo lavoro potrebbe essere eseguita nel sensore, con conseguente conseguente maggiore rumore di errore, ma si potrebbe certamente ottenere una gamma più ampia da un sensore fotografico rispetto a ciò che è attualmente disponibile sul mercato.

Ma il problema è questo: una volta che hai quella foto, cosa ci fai ? Anche i display di fascia alta usano ancora il colore a 24 bit, il che significa che sono consentite solo 256 tonalità per canale di colore. Le stampanti attuali sono analogamente limitate, se non di più. Quindi nulla potrebbe effettivamente essere fatto con una simile immagine senza una prima elaborazione per ridurre la portata fino a ciò che producono le telecamere esistenti.

Probabilmente hai già visto questo problema in precedenza: la maggior parte dei formati RAW attuali memorizza già una gamma più ampia di quella che può essere riprodotta e la gamma di colori deve già essere compressa o ritagliata prima di poter guardare l'immagine. L'aggiunta di un intervallo ancora maggiore all'output RAW sarebbe più o meno lo stesso. La fotocamera sarebbe probabilmente molto più costosa, ma le immagini non sarebbero significativamente migliori perché devi ancora tagliare la gamma fino a un colore di 24 bit prima di poterla guardare.

Tuttavia, forse con il software giusto e il giusto tipo di utente, potresti essere in grado di ottenere qualcosa di meraviglioso da esso. Probabilmente non sarebbe molto diverso dalla fotografia HDR attuale, ma non dovresti scattare più immagini.


2
Non sono i bit per colore che sono il problema - che definisce il numero di tonalità distinte, ma non dice nulla sulla gamma complessiva.
mattdm,

@mattdm true; ma la gamma complessiva è una funzione del dispositivo di uscita indipendente dai dati dell'immagine stessa. La luminosità e il rapporto di contrasto sul mio display sono una funzione e sono noti solo al mio display e non sono influenzati dalla fotocamera che ho usato per scattare la foto. Quindi, i dispositivi di output sono il fattore limitante, non le telecamere. Tuttavia, i bit per colore fa influenzare la gamma nel senso che aumentando la vostra gamma senza aumentare il numero di livelli all'interno della gamma appena ti dà un quadro chiaro / più scuro, senza che consente di vedere qualcosa di più al suo interno.
Tylerl,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.