Sto cercando di estrarre funzionalità da un file audio e classificare il suono come appartenente a una particolare categoria (ad esempio: corteccia di cane, motore del veicolo, ecc.). Vorrei un po 'di chiarezza sulle seguenti cose:
1) È fattibile? Esistono programmi in grado di riconoscere la parola e distinguere tra diversi tipi di corteccia di cane. Ma è possibile avere un programma in grado di ricevere un campione sonoro e dire semplicemente che tipo di suono è? (Supponiamo che ci sia un database contenente molti campioni sonori a cui fare riferimento). I campioni audio in ingresso possono essere un po 'rumorosi (ingresso microfono).
2) Presumo che il primo passo sia l'estrazione delle caratteristiche audio. Questo articolo suggerisce di estrarre gli MFCC e di alimentarli in un algoritmo di apprendimento automatico. MFCC è sufficiente? Ci sono altre funzionalità generalmente utilizzate per la classificazione del suono?
Grazie per il tuo tempo.