Sto cercando di cercare e capire come affrontare al meglio questo problema. Si trova a cavallo tra l'elaborazione della musica, l'elaborazione delle immagini e l'elaborazione del segnale, e quindi ci sono una miriade di modi per guardarla. Volevo informarmi sui modi migliori per affrontarlo poiché ciò che potrebbe sembrare complesso nel dominio sig-proc puro potrebbe essere semplice (e già risolto) da persone che eseguono l'elaborazione di immagini o musica. Ad ogni modo, il problema è il seguente:
Se perdoni il mio disegno a mano del problema, possiamo vedere quanto segue:
Dalla figura sopra, ho 3 diversi "tipi" di segnali. Il primo è un impulso che "aumenta" in frequenza da a , quindi si ripete. Ha una durata dell'impulso specifica e un tempo di ripetizione dell'impulso specifico.f 4
Il secondo esiste solo in , ma ha una durata dell'impulso più breve e una frequenza di ripetizione dell'impulso più rapida.
Infine, il terzo è semplicemente un tono in .
Il problema è, in che modo posso affrontare questo problema, in modo tale da poter scrivere un classificatore in grado di discriminare tra segnale-1, segnale-2 e segnale-3. Cioè, se gli dai uno dei segnali, dovrebbe essere in grado di dirti che questo segnale è così e così. Quale miglior classificatore mi darebbe una matrice di confusione diagonale?
Qualche ulteriore contesto e ciò a cui ho pensato finora:
Come ho già detto, questo è a cavallo di numerosi campi. Volevo informarmi su quali metodologie potrebbero già esistere prima di sedermi e andare in guerra con questo. Non voglio reinventare inavvertitamente la ruota. Ecco alcuni pensieri che ho avuto guardando da diversi punti di vista.
Punto di vista dell'elaborazione del segnale: una cosa che ho visto era fare un'analisi cefalica , e quindi probabilmente usare la larghezza di banda di Gabor del ceppo nel discriminare il segnale-3 dall'altro 2, e quindi misurare il picco più alto del ceppo nel segnale discriminante- 1 dal segnale-2. Questa è la mia attuale soluzione di lavoro per l'elaborazione del segnale.
Punto di vista dell'elaborazione delle immagini: qui sto pensando poiché POSSO effettivamente creare immagini di fronte agli spettrogrammi, forse posso sfruttare qualcosa da quel campo? Non ho familiarità con questa parte, ma che ne dici di fare un rilevamento di "linea" usando la Trasformazione di Hough , e poi in qualche modo "contare" le linee (e se invece non fossero linee e macchie?) E andare da lì? Ovviamente in qualsiasi momento nel momento in cui prendo uno spettrogramma tutti gli impulsi che vedi potrebbero essere spostati lungo l'asse del tempo, quindi sarebbe importante? Non sono sicuro...
Punto di vista dell'elaborazione della musica: un sottoinsieme dell'elaborazione del segnale per essere sicuri, ma mi viene in mente che il segnale-1 ha una certa qualità, forse ripetitiva (musicale?) Che le persone nel processo musicale vedono continuamente e hanno già risolto forse strumenti discriminanti? Non sono sicuro, ma il pensiero mi è venuto in mente. Forse questo punto di vista è il modo migliore per osservarlo, prendendo un pezzo del dominio del tempo e prendendo in giro quei tassi di gradimento? Ancora una volta, questo non è il mio campo, ma sospetto fortemente che sia qualcosa che è stato visto prima ... possiamo considerare tutti e 3 i segnali come diversi tipi di strumenti musicali?
Dovrei anche aggiungere che ho una discreta quantità di dati di allenamento, quindi forse usare alcuni di questi metodi potrebbe permettermi di fare qualche estrazione di funzionalità che posso quindi utilizzare con K-Il prossimo vicino , ma questo è solo un pensiero.
Comunque è qui che mi trovo adesso, ogni aiuto è apprezzato.
Grazie!
MODIFICHE BASATE SUI COMMENTI:
Sì, , , , sono tutti noti in anticipo. (Qualche varianza, ma molto piccola. Ad esempio, supponiamo di sapere che = 400 Khz, ma potrebbe arrivare a 401.32 Khz. Comunque la distanza da è alta, quindi potrebbe essere a 500 Khz in confronto.) Signal-1 avanzerà SEMPRE su quelle 4 frequenze conosciute. Signal-2 avrà SEMPRE 1 frequenza.f 2 f 3 f 4 f 1 f 2 f 2
Anche le frequenze di ripetizione degli impulsi e le lunghezze degli impulsi di tutte e tre le classi di segnali sono note in anticipo. (Ancora qualche varianza ma pochissimo). Alcuni avvertimenti, tuttavia, sono sempre noti i tassi di ripetizione degli impulsi e le lunghezze degli impulsi dei segnali 1 e 2, ma sono un intervallo. Fortunatamente, tuttavia, queste gamme non si sovrappongono affatto.
L'ingresso è una serie temporale continua che arriva in tempo reale, ma possiamo supporre che i segnali 1, 2 e 3 si escludano a vicenda, in quanto ne esiste solo una in qualsiasi momento. Abbiamo anche molta flessibilità su quanto tempo impieghi a elaborare in qualsiasi momento.
I dati possono essere sì rumorosi, e non ci potrebbe essere toni spuri, ecc, al bande non nella nostra nota , , , . Questo è del tutto possibile. Possiamo ipotizzare un SNR medio solo per "iniziare" sul problema.f 2 f 3 f 4