Quale trasformazione imita più da vicino il sistema uditivo umano?


12

La trasformata di Fourier è comunemente usata per l'analisi di frequenza dei suoni. Tuttavia, presenta alcuni svantaggi quando si tratta di analizzare la percezione umana del suono. Ad esempio, i suoi bin di frequenza sono lineari, mentre l'orecchio umano risponde alla frequenza logaritmicamente, non linearmente .

Le trasformazioni wavelet possono modificare la risoluzione per diversi intervalli di frequenza , a differenza della trasformata di Fourier. Le proprietà della trasformata wavelet consentono ampi supporti temporali per frequenze più basse mantenendo ampiezze temporali brevi per frequenze più alte.

Il wavlet Morlet è strettamente correlato alla percezione umana dell'udito. Può essere applicato alla trascrizione musicale e produce risultati molto precisi che non sono possibili utilizzando le tecniche di trasformazione di Fourier. È in grado di catturare brevi raffiche di ripetizione e alternanza di note musicali con un chiaro inizio e fine per ogni nota.

La trasformata Q costante (strettamente correlata alla trasformata wavelet di Morlet) è adatta anche ai dati musicali . Poiché l'output della trasformata è effettivamente ampiezza / fase rispetto alla frequenza di log, sono necessari meno bin spettrali per coprire efficacemente un dato intervallo, e questo si rivela utile quando le frequenze si estendono su più ottave.

La trasformazione mostra una riduzione della risoluzione della frequenza con bin di frequenza più elevata, che è desiderabile per le applicazioni uditive. Rispecchia il sistema uditivo umano, per cui alle frequenze più basse la risoluzione spettrale è migliore, mentre la risoluzione temporale migliora alle frequenze più alte.

La mia domanda è questa: ci sono altre trasformazioni che imitano da vicino il sistema uditivo umano? Qualcuno ha tentato di progettare una trasformazione che corrisponda anatomicamente / neurologicamente al sistema uditivo umano il più vicino possibile?

Ad esempio, è noto che le orecchie umane hanno una risposta logaritmica all'intensità del suono . È anche noto che i contorni di uguaglianza variano non solo con intensità, ma con la spaziatura in frequenza dei componenti spettrali . I suoni contenenti componenti spettrali in molte bande critiche sono percepiti come più forti anche se la pressione sonora totale rimane costante.

Infine, l'orecchio umano ha una risoluzione temporale limitata dipendente dalla frequenza . Forse questo potrebbe essere preso in considerazione anche.


Imponi delle restrizioni matematiche alla "trasformazione"?
Olli Niemitalo

2
Complimenti per tutti i link!
Gilles,

Nessuna singola trasformazione può imitare adeguatamente un sistema complesso come il sistema uditivo umano. I modelli HAS esistenti utilizzano architetture di elaborazione del segnale complicate e trasformazioni multiple ciascuna che modella un altro aspetto dell'udito. Forse vuoi prendere in considerazione la modellazione pezzo per pezzo.
Fat32

Risposte:


9

Nel progettare tali trasformazioni, si dovrebbe tenere conto degli interessi concorrenti:

  • fedeltà al sistema uditivo umano (che varia con le persone), compresi aspetti non lineari o persino caotici (acufene)
  • facilità di formulazione matematica per la parte di analisi
  • possibilità di discretizzarlo o consentire implementazioni rapide
  • esistenza di un inverso stabile adeguato

Due progetti recenti hanno attirato la mia attenzione di recente: Trasformazione wavelet di Gammatone motivata dall'udito , Signal Processing, 2014

La capacità della trasformata wavelet continua (CWT) di fornire una buona localizzazione di tempo e frequenza l'ha resa uno strumento popolare nell'analisi tempo-frequenza dei segnali. Le wavelet presentano proprietà Q costanti, anch'esse possedute dai filtri di membrana basilari nel sistema uditivo periferico. I filtri di membrana basilari o filtri uditivi sono spesso modellati da una funzione di Gammatone, che fornisce una buona approssimazione a risposte determinate sperimentalmente. Il banco di filtri derivato da questi filtri è indicato come banco di filtri Gammatone. In generale, l'analisi wavelet può essere paragonata all'analisi di una banca di filtri e quindi l'interessante collegamento tra analisi di onde standard e banca di filtri di Gammatone. Tuttavia, la funzione Gammatone non si qualifica esattamente come wavelet perché la sua media temporale non è zero. Mostriamo come le wavelet in buona fede possano essere costruite con le funzioni di Gammatone. Analizziamo proprietà come l'ammissibilità, il prodotto della larghezza di banda temporale, i momenti di fuga, che sono particolarmente rilevanti nel contesto delle wavelet. Mostriamo anche come vengono prodotte le wavelet uditive proposte come risposta all'impulso di un sistema lineare invariante, governato da un'equazione differenziale lineare con coefficienti costanti. Proponiamo implementazioni di circuiti analogici del proposto CWT. Mostriamo anche come utilizzare le wavelet derivate dal Gammatone per il rilevamento della singolarità e l'analisi tempo-frequenza dei segnali transitori. Mostriamo anche come vengono prodotte le wavelet uditive proposte come risposta all'impulso di un sistema lineare invariante, governato da un'equazione differenziale lineare con coefficienti costanti. Proponiamo implementazioni di circuiti analogici del proposto CWT. Mostriamo anche come utilizzare le wavelet derivate dal Gammatone per il rilevamento della singolarità e l'analisi tempo-frequenza dei segnali transitori. Mostriamo anche come vengono prodotte le wavelet uditive proposte come risposta all'impulso di un sistema lineare invariante, governato da un'equazione differenziale lineare con coefficienti costanti. Proponiamo implementazioni di circuiti analogici del proposto CWT. Mostriamo anche come utilizzare le wavelet derivate dal Gammatone per il rilevamento della singolarità e l'analisi tempo-frequenza dei segnali transitori.

La trasformazione ERBlet: una rappresentazione tempo-frequenza basata sull'audio con ricostruzione perfetta , ICASSP 2013

Questo documento descrive un metodo per ottenere una rappresentazione tempo-frequenza percettivamente motivata e perfettamente invertibile di un segnale sonoro. Sulla base della teoria dei fotogrammi e della recente trasformazione non stazionaria di Gabor, una rappresentazione lineare con risoluzione che evolve attraverso la frequenza viene formulata e implementata come una banca di filtri non uniforme. Per abbinare la risoluzione uditiva umana di tempo-frequenza, la trasformazione utilizza finestre gaussiane equidistanti sulla scala di frequenza "ERB" psicoacustica. Inoltre, la trasformazione offre risoluzione e ridondanza adattabili. Le simulazioni hanno dimostrato che è possibile ottenere una ricostruzione perfetta utilizzando metodi iterativi rapidi e precondizionamento anche utilizzando un filtro per ERB e una ridondanza molto bassa (1,08).

E menzionerò anche:

Una trasformazione uditiva per l'elaborazione del segnale audio , WASPAA 2009

Una trasformazione basata sull'audizione è presentata in questo documento. Attraverso un processo di analisi, la trasformazione copre i segnali nel dominio del tempo in un insieme di output del banco filtro. Le risposte in frequenza e le distribuzioni della banca del filtro sono simili a quelle nella membrana basilare della coclea. L'elaborazione del segnale può essere condotta nel dominio del segnale decomposto. Attraverso un processo di sintesi, i segnali decomposti possono essere sintetizzati al segnale originale attraverso un semplice calcolo. Inoltre, vengono presentati algoritmi veloci per segnali a tempo discreto sia per le trasformazioni in avanti che inverse. La trasformazione è stata approvata in teoria e validata in esperimenti. Viene presentato un esempio dell'applicazione di riduzione del rumore. La trasformazione proposta è robusta rispetto ai rumori di fondo e computazionali ed è priva di armoniche di tonalità.


1
Questo e 'esattamente quello che stavo cercando. Grazie.
user76284
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.