La trasformata di Fourier è comunemente usata per l'analisi di frequenza dei suoni. Tuttavia, presenta alcuni svantaggi quando si tratta di analizzare la percezione umana del suono. Ad esempio, i suoi bin di frequenza sono lineari, mentre l'orecchio umano risponde alla frequenza logaritmicamente, non linearmente .
Le trasformazioni wavelet possono modificare la risoluzione per diversi intervalli di frequenza , a differenza della trasformata di Fourier. Le proprietà della trasformata wavelet consentono ampi supporti temporali per frequenze più basse mantenendo ampiezze temporali brevi per frequenze più alte.
Il wavlet Morlet è strettamente correlato alla percezione umana dell'udito. Può essere applicato alla trascrizione musicale e produce risultati molto precisi che non sono possibili utilizzando le tecniche di trasformazione di Fourier. È in grado di catturare brevi raffiche di ripetizione e alternanza di note musicali con un chiaro inizio e fine per ogni nota.
La trasformata Q costante (strettamente correlata alla trasformata wavelet di Morlet) è adatta anche ai dati musicali . Poiché l'output della trasformata è effettivamente ampiezza / fase rispetto alla frequenza di log, sono necessari meno bin spettrali per coprire efficacemente un dato intervallo, e questo si rivela utile quando le frequenze si estendono su più ottave.
La trasformazione mostra una riduzione della risoluzione della frequenza con bin di frequenza più elevata, che è desiderabile per le applicazioni uditive. Rispecchia il sistema uditivo umano, per cui alle frequenze più basse la risoluzione spettrale è migliore, mentre la risoluzione temporale migliora alle frequenze più alte.
La mia domanda è questa: ci sono altre trasformazioni che imitano da vicino il sistema uditivo umano? Qualcuno ha tentato di progettare una trasformazione che corrisponda anatomicamente / neurologicamente al sistema uditivo umano il più vicino possibile?
Ad esempio, è noto che le orecchie umane hanno una risposta logaritmica all'intensità del suono . È anche noto che i contorni di uguaglianza variano non solo con intensità, ma con la spaziatura in frequenza dei componenti spettrali . I suoni contenenti componenti spettrali in molte bande critiche sono percepiti come più forti anche se la pressione sonora totale rimane costante.
Infine, l'orecchio umano ha una risoluzione temporale limitata dipendente dalla frequenza . Forse questo potrebbe essere preso in considerazione anche.