Sto cercando di rilevare e classificare i suoni non vocali. Attualmente sto usando una serie di spostamento di spettri di potenza sovrapposti da suoni di allenamento come le caratteristiche che sto cercando.
Quando faccio l'analisi, sto solo calcolando la stessa quantità di spettri sovrapposti in modo che il numero di funzioni sia lo stesso. In questo momento la performance non è molto buona, può solo rilevare il silenzio rispetto al non silenzio.
Quali tecniche ci sono per questo tipo di rilevamento del segnale? Una delle mie preoccupazioni è che per suoni di lunghezze diverse nel dominio del tempo si tradurrebbe in lunghezze diverse di vettori di funzioni che quindi non posso usare lo stesso classificatore, sono bloccato su questo.