Gli MFCC sono il metodo ottimale per rappresentare la musica in un sistema di recupero?


10

Una tecnica di elaborazione del segnale, il Cepstrum di frequenza Mel , viene spesso utilizzata per estrarre informazioni da un brano musicale da utilizzare in un'attività di apprendimento automatico. Questo metodo fornisce uno spettro di potenza a breve termine e i coefficienti vengono utilizzati come input.

Nel progettare i sistemi di recupero della musica, tali coefficienti sono considerati caratteristici di un brano (ovviamente non necessariamente unico, ma distintivo). Ci sono delle caratteristiche che meglio si adattano all'apprendimento con una rete? Le caratteristiche variabili nel tempo come la progressione dei bassi del pezzo usato in qualcosa come una rete Elman funzionerebbero in modo più efficace?

Quali caratteristiche formerebbero un insieme sufficientemente ampio su quale classificazione potrebbe aver luogo?


Stai lavorando al recupero, dove stai cercando qualità uniche di una clip audio specifica? o vuoi identificare musica simile?
Andrew Rosenberg,

@AndrewRosenberg Più sulla falsariga di identificare musica simile.
jonsca,

(Anni dopo), ci sono molti modi per armeggiare con MFCC; Kinunnen et al., Frequenza di deformazione e verifica dei diffusori robusti: un confronto di rappresentazioni alternative in scala Mel 2013, 5p, utilizza 60 coefficienti. E ottimizzare cosa? Su quale database non aperto? Quindi direi (non esperto) che la domanda è troppo ampia per rispondere.
denis,

@denis Grazie per l'informazione. Questo è venuto dalla sfortunata Machine Learning Beta (la prima volta). Apprezzo che sia un po 'vago.
jonsca,

Risposte:


8

Abbiamo lavorato un po 'su questo a un certo punto. Il set di funzionalità che abbiamo estratto è riportato in questo documento dell'officina NIPS . Devo ammettere che non siamo riusciti a replicare i risultati di alcuni altri autori sul campo, anche se c'erano alcuni dubbi sui set di dati utilizzati in questi (si noti che i set di dati utilizzati dagli autori in questo campo tendono a essere scelti a mano e non rilasciati al pubblico, per motivi di copyright, anche se non è sempre così). Essenzialmente erano tutte caratteristiche spettrali a breve terminecon anche i coefficienti di autoregressione. Stavamo esaminando la classificazione del genere, che sappiamo può essere fatta dagli umani (anche se non con una precisione eccezionale e non con un accordo coerente ....) in periodi di tempo molto brevi (<1s), che convalida l'uso di funzionalità a breve termine . Se sei interessato a fare cose più complicate rispetto alla tipica classificazione genere / artista / album / produttore, potresti aver bisogno di più funzioni a lungo raggio, altrimenti queste caratteristiche spettrali a breve termine tendono a dare le migliori prestazioni.


Qual era lo scopo di lanciare i coefficienti AR?
jonsca,

1
@jonsca Dato che utilizzavamo metodi di potenziamento, che funzionano combinando molti studenti "deboli", abbiamo deciso di utilizzare qualsiasi funzione che potesse essere facilmente calcolata e che potesse offrire qualche vantaggio. Tutto ciò che è richiesto a uno studente debole per essere utile è che possa classificarsi a livelli superiori a quelli casuali. I coefficienti AR sono equivalenti a una compressione dell'inviluppo spettrale, che dà un'idea della complessità delle informazioni a breve termine della musica all'interno di quella finestra, anche se solo in modo approssimativo.
TCD,

@tdc, "i set di dati tendono a non essere rilasciati al pubblico ...": conosceresti qualsiasi set di dati di sintesi online gratuito, con i fonemi etichettati?
denis,

@denis l'unico che conosco è questo: orange.biolab.si/datasets/phoneme.htm
tdc

@tdc, grazie, ma sono solo 11 vocali da Elements of stat learning, ~ 1000 x 11 caratteristiche (antico LPC).
denis,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.