Miglioramento della risoluzione delle immagini CSI: quanto è reale?


30

Così ho visto il seguente video di Youtube della durata di 1 minuto da CSI New York . Nella clip, usando quella che sembra essere la registrazione da una normale telecamera da banco, ingrandiscono almeno 100 e vedono l'immagine del colpevole nel riflesso dell'occhio della ragazza.

Ora, ho pensato che fosse completamente ridicolo, tant'è che ho pensato che fosse davvero divertente.

Tuttavia, il mio amico ha sostenuto che esistono ottimi trucchi per il miglioramento dell'immagine, come la "super risoluzione", una procedura in cui più fotogrammi di un video producono un'immagine a risoluzione singola molto più elevata. Pensava che lo spettacolo piegasse un po 'la verità, ma quanto?

Onestamente, in realtà non so nulla di queste cose, quindi la mia domanda è:

Quanto è buono il miglioramento della risoluzione delle immagini moderna? Inoltre, quanto distano i programmi televisivi CSI?

Grazie,

Nota: Questo è croce pubblicato sul sito scettici. Mi è stato detto che avrei potuto ricevere risposte migliori qui.


10
Ho quasi sputato il caffè quando ha annuito così seriamente e ha detto "imaging corneale". L'intero tono di quella scena è così palesemente ridicolo - se ciò fosse possibile a questo livello, sarebbe di routine e ovvio, non un sorprendente stravolgimento della trama come sembra essere presentato come in quella clip.
mattdm,

2
LOL, reale quasi quanto le immagini satellitari su richiesta ingrandimenti nei film d'azione.
Jakub Sisak GeoGraphics

1
@Bob non al livello dei film, dove possono identificare persone specifiche in un singolo fotogramma dallo spazio (o da un aereo che vola a 10 km in alto). Da un drone che vola a poche centinaia di metri di altezza, usando una cornice fissa, con un po 'di fortuna, forse.
jwenting

1
Penso che saresti sorpreso. Non che io sia un esperto, ma presumibilmente l'SR-71 può individuare le linee di parcheggio da 25 km. Concesso che probabilmente non avrai una faccia , ma potresti identificarli usando altri bocconcini di informazioni, come il loro entourage / veicoli en.wikipedia.org/wiki/Reconnaissance_aircraft
Jane Panda,

1
6 "risoluzione da un fotogramma di un film delle dimensioni di un blocco
note

Risposte:


36

Risposta breve: puoi ottenere risultati molto buoni, ma solo a determinate condizioni e assolutamente nemmeno vicino a ciò che viene mostrato nel video clip collegato.

La mia azienda, Amped Software , sviluppa software di elaborazione di immagini e video per applicazioni forensi e di intelligence, quindi in pratica siamo la controparte reale del software CSI.

Con riferimento al problema generale del miglioramento della qualità, posso dirti che per il nostro mercato è un grosso problema essere all'altezza delle aspettative create dalle serie TV e dai film di Hollywood. Puoi vedere sulla nostra pagina di esempi che a volte i risultati che siamo in grado di ottenere sono davvero sorprendenti, ma è importante capire che possiamo ottenerli solo in alcune condizioni: se ci sono informazioni coperte da disturbi, ma è lì , siamo in grado di recuperarlo. Se non ci sono informazioni, non possiamo e non dobbiamo ricrearle. In questa particolare applicazione è essenziale non solo ottenere i risultati da un punto di vista visivo, ma anche seguire un flusso di lavoro scientifico che deve essere accettato dal tribunale .

L'anno scorso ho presentato una ricerca che descrive problemi e risultati su quasi 200 casi su cui ho lavorato e il risultato finale è stato il seguente:

  • in oltre il 50% dei casi non c'è nulla da fare (ad esempio recuperare una targa di 5x2 pixel è del tutto impossibile con qualsiasi software al mondo);
  • in circa il 30% dei casi possiamo ottenere pochi risultati (ad esempio ripristinare una lettera di una targa o migliorare l'aspetto generale di una faccia);
  • nel 10% dei casi si ottengono buoni risultati (ad esempio la maggior parte della targa).

Si noti che tutti questi casi presentavano gravi problemi di qualità. Se la loro qualità era buona, non ci era chiesto di lavorarci sopra.

Per quanto riguarda in particolare il miglioramento della risoluzione :

  • quando ingrandisci un'immagine stai interpolando i pixel mancanti: da una singola immagine puoi migliorare visivamente l'aspetto dell'immagine ma non aggiungerai alcun dettaglio reale ;
  • le tecniche di super risoluzione possono dare buoni risultati in determinate condizioni: dovresti avere abbastanza fotogrammi, spostati di una quantità non intera di pixel e preferibilmente con pochi artefatti da compressione. Nel migliore dei casi, puoi aspettarti buoni risultati con lo zoom 2x e 3x.

Ciò che viene mostrato nel video clip può essere possibile solo se il video originale è stato girato a diversi megapixel e quindi avrai la risoluzione per zoomare molto vicino (più o meno come fai su Google Maps). Certo, a quel punto ci sarebbero ancora altri problemi, come la messa a fuoco corretta, condizioni di scarsa luminosità, il fatto che la prospettiva dell'occhio sia diversa da quella dell'intero soggetto nel video, solo per citarne alcuni.


11

Non puoi creare qualcosa dal nulla, devi avere (o indovinare) alcune informazioni per poter migliorare un'immagine in alcun modo. Ad esempio, se conosci le proprietà della funzione di sfocatura (e non c'è rumore nell'immagine), puoi effettivamente sbloccare una foto. Tuttavia, raramente sai che la funzione di sfocatura e il rumore sono sempre presenti in modo da limitare fortemente ciò che puoi recuperare (Adobe ha recentemente dimostrato un filtro non sfumato ma la loro demo era con sfocatura sintetica).

In breve, CSI è quasi pura finzione: i guadagni possibili nella vita reale sono marginali, niente come l'aumento di risoluzione 5x che viene presentato in TV.

Controllo della sanità mentale: se potessero fare tutto ciò, le persone non pagherebbero decine di migliaia per le fotocamere Hasselblad da 40+ MP, sarebbe più economico semplicemente duplicare il software!

modifica: in qualche modo non ho notato la domanda originale menzionata super-risoluzione dal video. La super risoluzione di immagini multiple è possibile nella realtà, ma solo fino ai limiti del sensore. Funziona utilizzando una serie di immagini con spostamenti dei pixel secondari. Ciò fornisce informazioni sui valori tra i pixel consentendo di creare un'immagine a risoluzione più elevata. La super risoluzione dal video funziona perché un soggetto in movimento crea lo stesso tipo di spostamento, tuttavia l'aspetto degli oggetti non deve cambiare molto tra i fotogrammi. La tecnica nella migliore delle ipotesi ti sta solo dando i risultati di un sensore a risoluzione più elevata, non puoi superare i limiti della potenza di risoluzione dell'obiettivo, che sarebbe piuttosto limitata con gli obiettivi spec. CCTV.

Ecco un esempio di super-risoluzione in buone condizioni:


(fonte: wikimedia.org )

immagine da photoacute.com

un miglioramento della risoluzione, sì, ma ancora vicino alle prestazioni di livello CSI.

Per fare riferimento al mio commento sopra, gli ultimi Hasselblad implementano in realtà una super-risoluzione di spostamento del sensore, sotto il nome di "acquisizione multi-shot", quindi non puoi ancora battere i produttori di medio formato al loro stesso gioco usando un software intelligente ...


Sembra che tu abbia un paio di frasi spezzate: "... potere risolutivo dell'obiettivo, che sarebbe ??" e "?? un miglioramento nella risoluzione, sì, ..."
jrista

@jrista Grazie, ho risolto il primo, il secondo dovrebbe essere la continuazione della frase sopra l'immagine.
Matt Grum,

3

Quindi questo è quello che ho finora:

L'area dell'occhio in cui vedono la pallacanestro è di circa 1 millimetro quadrato. In base all'altezza della ragazza, possiamo stimare con certezza che dovrebbe essere al massimo 1 milionesimo del numero totale di pixel sullo schermo. (La larghezza e l'altezza dell'immagine, sebbene non ben definite per le fotografie poiché alcune cose potrebbero essere più vicine, sembrano all'incirca circa 3 x 3 metri, il che significherebbe 10 milioni di millimetri quadrati. L'occhio tuttavia potrebbe essere più vicino all'attuale lente della fotocamera, quindi Stimo approssimativamente e divido per $ 10 $.)

Se la registrazione fosse di qualità HD, sarebbero comunque solo 2 megapixel, quindi dove vediamo il basket dovrebbe avere le dimensioni di un singolo pixel.

Penso che il ragionamento indubbiamente mostri che non è vero, ma mi chiedo ancora, quali sono i limiti superiori al miglioramento dell'immagine?


1
la mia opinione è che inventare più del 50% dei pixel creerà una fantasia totale e molto prima la tua immagine diventerà così cattiva da essere inutile per identificare persone o oggetti specifici se non per forma generale.
jwenting

2

Esistono alcuni software disponibili in commercio, con Super Resolution. Non ho provato nessuno di questi, ma il materiale pubblicitario è abbastanza buono. Il software è destinato alla sorveglianza, alla sicurezza e alle forze armate, ma immagino che alcune unità forensi avranno accesso a queste cose.

Due esempi sono: Ikena di MotionDSP e TacitView da 2d3


3
Va notato che la super-risoluzione richiede più immagini di origine per alimentare l'algoritmo più dati di quanti altrimenti avrebbe. Funziona con i video, dal momento che acquisisci continuamente una sequenza di fotogrammi in corso, in cui ogni fotogramma successivo è generalmente simile al precedente. Inoltre, maggiore è la risoluzione della sorgente, maggiore è la quantità di cibo che l'algoritmo deve sgranocchiare. Un tale miglioramento dell'immagine non sarebbe davvero possibile con una singola immagine statica, o le immagini di una fotocamera a basso framerate e a bassa risoluzione come il video di YouTube sembrano indicare.
jrista

È vero, e il modulo di risposta @ Matt-Grum lo spiega in modo un po 'più dettagliato. Ci sono anche buone informazioni su Wikipedia sull'imaging di Super Resolutino e Speckle (noto anche come videoastronomia). Entrambi funzionano su una serie di immagini, ma usano tecniche diverse per creare il prodotto finito.
Håkon K. Olafsen,

Interessante, non avevo mai sentito parlare del termine imaging Speckle prima, anche se ho sentito parlare di "accatastamento", come è comunemente indicato in gruppi di astrofotografia.
jrista

1

Il miglioramento dell'immagine / video al livello suggerito nei programmi TV non è semplicemente possibile ed è in realtà limitato dal dispositivo di acquisizione delle immagini. Questa è la tecnologia che dovrebbe prima evolversi.

È impossibile ottenere informazioni da una raccolta di 10 pixel in un oggetto riconoscibile. A livello di pixel, questa è la quantità finale di informazioni fornite nell'immagine. Hai solo 100 blocchi di colore in quello zoom finito. È possibile aumentare un'area di 10x10 pixel in 100x100 pixel tramite interpolazione, ma le informazioni nei pixel 10x10 sono tutto ciò che resta da fare e l'interpolazione si basa su ipotesi ponderate basate su quei 10 x 10 pixel dal software. Il risultato sarebbe una sfocatura di 100 x 100 pixel. In alternativa, prendi un'immagine di 2000x2000 pixel e interpola fino a 4000x4000 pixel e alcune sfocature non così chiare nell'immagine originale potrebbero apparire più chiare possibili oggetti nell'immagine più grande puramente tramite pareidolia - ma anche allora è un'ipotesi o una supposizione. L'immagine interpolata darebbe l'illusione di maggiori dettagli,

Il miglioramento delle immagini si basa esclusivamente sulla massima quantità di informazioni acquisite tramite la fonte di imaging originale e lo zoom in pixel è tutto ciò che c'è. Alcune fotocamere possono acquisire immagini con una risoluzione molto buona, ma nessun software può mettere in evidenza dettagli che non sono registrati nell'immagine originale.

Ora, per tornare agli spettacoli CSI, la maggior parte di loro prende le riprese della videocamera di sorveglianza standard, che per cominciare non è particolarmente alta risoluzione nella vita reale, quindi quando vedo questo tipo di miglioramento negli spettacoli mi fa solo ridere - poiché è impossibile anche con la forma più avanzata di software di modifica delle immagini (e PhotoShop è davvero nella parte superiore della scala avanzata). Il miglioramento e lo zoom delle immagini si basano al 100% sulle informazioni acquisite dal dispositivo di imaging - quindi una telecamera di sorveglianza in grado di catturare dice un riflesso del volto di una persona sul lato della cornea dell'occhio di qualcuno, dovrebbe essere super potente e sarebbe scandalosamente costosa . Il filmato dovrebbe avere una definizione di pixel scandalosamente alta per fotogramma (diciamo 100 megapixel o circa 9,5 terabyte per memorizzare 1 secondo di filmato), che eliminerebbe la dimensione del file del filmato al punto che ogni telecamera di sorveglianza avrebbe bisogno di una piccola server farm per contenere 24 ore di metraggio. Molto costoso. La tecnologia di miglioramento risultante si affiderebbe ai dispositivi di acquisizione delle immagini in grado di eseguire prima questo livello di acquisizione dettagliata di video e immagini, di archiviare i dati in modo conveniente e di essere poco costoso da distribuire in tutte le città. La dimensione del file sarebbe così enormemente grande sul filmato (ricorda circa 9,5 terabyte al secondo) che il software in grado di farlo avrebbe bisogno di un supercomputer estremamente potente (per gli standard odierni) per funzionare. Con l'aumentare della tecnologia alla velocità che è, questo potrebbe essere possibile in un certo momento in futuro, probabilmente nella nostra vita. Solo allora potevano farlo, ma le immagini non sarebbero state migliorate, sarebbero solo zoomare su immagini super dettagliate. Lo so mentre lavoro nell'immaginario digitale per vivere a tempo pieno.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.