Stavo esaminando la possibilità di classificare il suono (ad esempio i suoni degli animali) usando gli spettrogrammi. L'idea è quella di utilizzare una profonda rete neurale convoluzionale per riconoscere segmenti nello spettrogramma e produrre una (o molte) etichette di classe. Questa non è una nuova idea (vedi ad esempio la classificazione del suono delle balene o il riconoscimento dello stile musicale ).
Il problema che sto affrontando è che ho file audio di diversa lunghezza e quindi spettrogrammi di dimensioni diverse. Finora, ogni approccio che ho visto utilizza un campione audio di dimensioni fisse, ma non posso farlo perché il mio file audio potrebbe essere lungo 10 secondi o 2 minuti.
Con, ad esempio, un suono di uccello all'inizio e un suono di rana alla fine (l'output dovrebbe essere "Bird, Frog"). La mia attuale soluzione sarebbe quella di aggiungere un componente temporale alla rete neurale (creando più di una rete neurale ricorrente) ma per il momento vorrei mantenerlo semplice. Qualche idea, link, tutorial, ...?