Estrazione delle caratteristiche per la classificazione del suono


15

Sto cercando di estrarre funzionalità da un file audio e classificare il suono come appartenente a una particolare categoria (ad esempio: corteccia di cane, motore del veicolo, ecc.). Vorrei un po 'di chiarezza sulle seguenti cose:

1) È fattibile? Esistono programmi in grado di riconoscere la parola e distinguere tra diversi tipi di corteccia di cane. Ma è possibile avere un programma in grado di ricevere un campione sonoro e dire semplicemente che tipo di suono è? (Supponiamo che ci sia un database contenente molti campioni sonori a cui fare riferimento). I campioni audio in ingresso possono essere un po 'rumorosi (ingresso microfono).

2) Presumo che il primo passo sia l'estrazione delle caratteristiche audio. Questo articolo suggerisce di estrarre gli MFCC e di alimentarli in un algoritmo di apprendimento automatico. MFCC è sufficiente? Ci sono altre funzionalità generalmente utilizzate per la classificazione del suono?

Grazie per il tuo tempo.

Risposte:


15
  1. A distanza è possibile - fino a che punto? Vedrai. Questo compito di classificazione del suono ambientale non è molto ben studiato. Anche la scelta del paradigma dell'apprendimento automatico è cruciale: approccio statistico o forse classificatore binario? Puoi iniziare con GMM, ANN e SVM - opto per GMM e ANN.
  2. Sì, la maggior parte delle persone sta usando gli MFCC perché sono ben correlati con ciò che le persone stanno effettivamente ascoltando e da allora nessuno ha trovato niente di meglio. Potresti anche voler aggiungere funzionalità extra come i descrittori MPEG-7. È necessario eseguire la corretta ottimizzazione delle funzionalità perché a volte non sono necessarie così tante funzionalità, soprattutto quando non sono separabili. Per maggiori informazioni, consultare le mie risposte precedenti:

Estrazione delle caratteristiche dallo spettro

Estrazione MFCC

Rilevazione di suoni


Espanderò la mia risposta alla sera.
jojek

sto

La sera ...
jojek

4

L'audio non verbale (per non parlare dell'ambiente) sembra essere il fratellino del flusso principale di apprendimento automatico di tipi di media come immagini, parole, testo.

Per rispondere alla tua domanda è possibile formare una rete per identificare un determinato suono? Sì! Ma è difficile per tutti gli stessi motivi per cui l'apprendimento automatico è difficile.

Tuttavia, ciò che trattiene l'Audio, e perché lo chiamo fratello minore per immagini e parole, è a causa della mancanza di un set di dati con etichetta su larga scala. Per il discorso c'è TIMIT, per le immagini ci sono diversi ImagenNet, CIFAR, Caltech, per l'elaborazione del testo e del linguaggio naturale ci sono enormi volumi di letteratura, ecc.

Per quanto ne so, i due più grandi set di dati audio con etichetta umana * non verbali sono i set di dati UrbanSounds e ESC-100, che sono proibitivamente piccoli per approcci di apprendimento veramente profondo. Ci sono alcuni risultati misti pubblicati su questi set di dati usando ConvNet a 2 livelli.

Le funzioni MFCC sono una rappresentazione di funzionalità di base ben consolidata nel riconoscimento vocale e nell'analisi audio in generale. Ma ci sono tonnellate di altre rappresentazioni di funzionalità audio! Questo documento offre una buona tassonomia dei tipi di funzionalità audio.

Il lavoro più eccitante per la classificazione del suono che ho visto di recente è stato svolto da alcune persone di DeepMind, chiamato WaveNet .


3

Ecco una soluzione per la classificazione del suono per 10 classi: abbaiare cane, clacson, bambini che giocano ecc. Si basa sulla biblioteca tensorflow usando reti neurali. Le funzioni vengono estratte convertendo le clip audio in spettrogramma


3
semplicemente il collegamento non è abbastanza buono come una risposta.
Gilles,

Sì, ti preghiamo di espandere ciò che dice il link.
Peter K.

2
Ma grazie comunque per il link.
Kevin Martin Jose,

In realtà sto anche cercando di capire di più sulle tecniche utilizzate nel tutorial fornito nel link. La mia conoscenza dei segnali sonori è molto limitata in quanto sono un ragazzo di visione artificiale e di elaborazione delle immagini. Cercherò di approfondire la risposta quando avrò una migliore comprensione.
abggcv,

1

Sì, è estremamente fattibile. Sebbene le NN siano eccellenti in questo tipo di addestramento alla classificazione, potrebbero non essere nemmeno necessarie - con un set ben scelto di funzionalità, probabilmente lo farebbero anche i classici algoritmi di clustering come un modello di miscela gaussiana o l'analisi dei componenti principali . Le biblioteche moderne possono ottenere queste cose nel modo giusto circa il 95% delle volte o più.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.