È possibile utilizzare un DCT per uno spettro di grandezza audio anziché DFT?


13

Da quanto ho capito, il DCT ha la metà della dimensione del contenitore come un DFT della stessa dimensione N. Il DFT include anche informazioni sulla fase, ma spesso ciò non è necessario quando si desidera solo lo spettro di grandezza.

  • Il DCT potrebbe essere utilizzato per fornire uno spettro di magnitudo con una densità doppia (metà spazio tra i binari) del DFT o le informazioni fuori fase andrebbero perse?
  • Che ne dici di una sovrapposizione del 50%?

4
Credo che anche il DCT includa informazioni sulla fase, semplicemente non usa numeri complessi. Il "vero FFT" utilizza anche metà della memoria e metà del tempo di calcolo per le stesse informazioni, eliminando le stesse frequenze negative. "la parte reale di una FFT a doppia lunghezza è la stessa del DCT tranne che per lo sfasamento di mezzo campione nelle funzioni di base sinusoidali"
endolito

In effetti, almeno il segno di un coefficiente può essere considerato come la fase di un povero
Laurent Duval,

Risposte:


3

Sì, DCT può essere utilizzato per fornire uno spettro di grandezza con una densità doppia. Non capisco bene la sovrapposizione, ma presumo che dal momento che DCT copre meno, pensavi che ci sarebbe stata una sovrapposizione. Per fornire una risposta idonea alla domanda, consentitemi di fare una rapida revisione per l'utilizzo di DCT principalmente nell'elaborazione delle immagini.

Innanzitutto, dobbiamo fare alcune ipotesi. Per usare DCT, devi avere un segnale reale. Questo è per definizione. Mentre stai dicendo, DCT ha metà della dimensione del cestino rispetto a DFT nella dimensione N, stai assumendo che il segnale sia un segnale a bassa frequenza. Altrimenti, non così tanto.

Per l'utilizzo di DCT in compressione, poiché il DFT dell'immagine sarà simmetrico, produce informazioni ridondanti (sarà sufficiente uno specchio laterale per riprodurre il segnale). Pertanto, il kernel di DCT viene utilizzato per produrre informazioni più dense rispetto a DFT. Questo vale anche per i segnali audio a bassa frequenza, può essere utilizzato allo stesso modo. Mentre lo rende più denso, i coefficienti diventano più grandi, poiché il kernel di DCT copre entrambi i lati (parti reali e immaginarie) del segnale.

Il mio principale è l'elaborazione delle immagini, quindi ho cercato di mappare concetti e spiegazioni DCT e DFT nell'elaborazione delle immagini. Una differenza tra immagine e audio potrebbe essere la dimensione. Nell'elaborazione delle immagini, conosci le dimensioni (riga e colonne per FFT e altri scopi dell'elaborazione). Immagino che sia necessario dividere in qualche modo il vettore dei dati audio per poterli elaborare ulteriormente. Senza conoscere i dati, questo potrebbe essere problematico (non ne sono sicuro).

Ecco un'immagine presa dal web, ma non l'ho annotata dove l'ho presa, potrebbe essere Wikipedia;

Elaborazione delle immagini

Come puoi vedere, l'immagine trasformata è rappresentata in DCT dallo spettro di grandezza senza alcun problema. In un modo più compatto e più denso, e guarda l'entità dei coefficienti. È più grande di due volte di DFT. DFT è simmetrico, potresti semplicemente dividerlo in due. Una parte è ridondante. E un'altra cosa, DCT è in grado di memorizzare le informazioni non è solo la metà di DFT ma quasi un quarto di DFT. Questo è generalmente il caso del DCT che supera il DFT nelle immagini.


Non è possibile dividere la FFT in quarte, perché è ridondante nelle dimensioni X e Y?
endolith,

Perché sembra che la FFT contenga più informazioni e che la DCT contenga più zero?
endolith,

Prima domanda, non capisco bene, cosa intendi per dimensioni X e Y? Per la seconda domanda, è a causa della differenza nei loro kernel. Non sembra che DCT contenga più zero, in realtà contiene più zero della normale trasformata di Fourier (DFT). Ciò è dovuto nuovamente alla loro differenza nei loro kernel.
Efesto,

Voglio dire che l'immagine è un segnale reale, quindi la FFT contiene informazioni ridondanti. La metà negativa della FFT è solo uno specchio della metà positiva, in entrambe le dimensioni.
endolith

0
  • Che ne dici di una sovrapposizione del 50%?

Da questa domanda, capisco che stai pensando di eseguire elaborazioni localizzate, a blocchi, nel modo di far scorrere Fourier o spettrogramma.

  • Il DCT potrebbe essere utilizzato per fornire uno spettro di magnitudo con una densità doppia (metà spazio tra i binari) del DFT o le informazioni fuori fase andrebbero perse?

Se parli dello spettro di magnitudo, ovviamente parte della fase (che si tratti dell'argomento di un coefficiente di Fourier complesso o del segno di un coefficiente DCT) andrà comunque persa .

Quindi, ovviamente, puoi inserire molti kernel in sostituzione della trasformata di Fourier con finestre all'interno della formulazione di Fourier a breve termine solo per analisi. Le varie razze di DCT, le loro versioni sovrapposte (LOT, MDCT), con belle proprietà ortogonali e di finestre, possono anche essere invertite (sintesi).

Nell'audio, le DCT (non complesse) o le versioni sovrapposte sono spesso utilizzate per l'analisi, il rilevamento di insorgenza e tonalità, (separazione della fonte cieca), ad esempio STFT, MDCT e invade la cassetta degli attrezzi Matlab di A. Liutkus. La casella degli strumenti per l'analisi della frequenza di grandi dimensioni (LTFAT) possiede anche:

  • Trasformazioni TF veloci con scala lineare tempo-frequenza: Gabor (STFT), Wilson e MDCT con finestre
  • Sparsa regressione nel dominio Gabor e WMDCT

Non conosco molto bene l'audio. Tuttavia, una sovrapposizione del 50% o del 75% è molto comune e pochissime persone usano altre impostazioni. Tuttavia, è molto comune utilizzare almeno due dimensioni di finestra , una lunga di parte stazionaria, una corta per transitorio, per aiutare a superare la limitazione della frequenza temporale di "una finestra".

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.