Modello ricorrente (CNN) su dati EEG


10

Mi chiedo come interpretare un'architettura ricorrente in un contesto EEG. In particolare, sto pensando a questa come una CNN ricorrente (al contrario di architetture come LSTM), ma forse si applica anche ad altri tipi di reti ricorrenti

Quando leggo degli R-CNN, di solito sono spiegati in contesti di classificazione delle immagini. Sono in genere descritti come "apprendimento nel tempo" o "incluso l'effetto del tempo-1 sull'input corrente"

Questa interpretazione / spiegazione diventa davvero confusa quando si lavora con i dati EEG. Un esempio di R-CNN utilizzato su dati EEG può essere trovato qui

Immagina di avere esempi di allenamento composti ciascuno da un array 1x512. Questo array rileva una lettura di tensione per 1 elettrodo in 512 punti temporali consecutivi. Se lo uso come input per una CNN ricorrente (usando le convoluzioni 1D), la parte ricorrente del modello non sta effettivamente catturando il "tempo", giusto? (come sarebbe implicito dalle descrizioni / spiegazioni discusse in precedenza) Perché in questo contesto il tempo è già catturato dalla seconda dimensione dell'array

Quindi, con una configurazione come questa, cosa ci consente effettivamente la parte ricorrente della rete di modellare che una normale CNN non può (se non il tempo)?

Mi sembra che ricorrere significhi semplicemente fare una convoluzione, aggiungere il risultato all'input originale e contorcersi di nuovo. Questo viene ripetuto per il numero x di passaggi ricorrenti. Quale vantaggio offre questo processo?


Penso che mantenere l'input originale in ogni fase sia utile perché apprendere l'identità può essere difficile, ecco perché può essere utile semplicemente la rete residua o semplicemente copiare l'input per bypassare la maggior parte dei layer nascosti. Per il caso speciale di RCNN applicato a eeg, puoi immaginare che la convoluzione tagga il tempo t = 50ms perché alcune funzionalità appaiono in quel momento. Quindi la tua rete può guardare l'input originale in quel particolare momento per ulteriori analisi.
agemO

Risposte:


1

La parte ricorrente di una rete consente, in generale, di modellare dipendenze a lungo e breve termine. Quindi il tuo modello può avere un certo senso dello stato.

Questo è generalmente vantaggioso se si utilizza la serie temporale. Ad esempio, se si dispone di dati provenienti da un cardiofrequenzimetro e si desidera classificare tra riposo, stress e recupero. Se il tuo datapoint dice che la tua frequenza cardiaca è a 130, dipende dal fatto che ti stai riprendendo da carichi elevati o qualcos'altro.

Modifica: ho dimenticato la tua seconda domanda.

Mi sembra che ricorrere significhi semplicemente fare una convoluzione, aggiungere il risultato all'input originale e contorcersi di nuovo. Questo viene ripetuto per il numero x di passaggi ricorrenti. Quale vantaggio offre questo processo?

Potrei pensare ad alcune possibili risposte. Convolvendo la parte ricorrente in qualche modo la filtrate. Quindi ricevi un segnale più pulito e gli errori non si accumulano tanto. La vaniglia soffre dell'esplosione dei gradienti di fuga, quindi questo potrebbe essere il suo approccio per superarlo. Inoltre, stai incorporando le tue funzionalità all'interno di rcnn, il che può condurre, come ha affermato, a più percorsi da sfruttare. Il che rende meno incline al sovradimensionamento, quindi più generalizzabile.


0
  • La matrice di input 1x512 significa: la rete ricorrente elabora la tensione dell'elettrodo 512 volte, in altre parole è necessario elaborare un'unica funzione.
  • La CNN con una funzione è inutile.

-1

Ricorda che le CNN sono rilevatori di funzionalità. L'output di uno strato convoluzionale è una matrice che segnala dove è stata rilevata una determinata funzione.

Pertanto, le CNN ricorrenti sono reti neurali ricorrenti che apprendono sequenze di funzionalità, in cui tali funzionalità vengono apprese anche durante l'addestramento.


2
Questa è una risposta fuorviante, le CNN non sono rilevatori di caratteristiche, sono una trasformazione di uno spazio di caratteristiche e quindi uno stimatore di funzioni che associa le caratteristiche trasformate a un output. Inoltre, non è affatto quello che l'OP ha richiesto. Si prega di utilizzare i commenti invece per i commenti. In questo modo la domanda sembra rispondere e impedisce agli altri di fare clic.
JahKnows,

@JahKnows Dipende dall'interpretazione, sono entrambi no? dai un'occhiata a (yosinski.com/deepvis). Potrebbe esserti d'aiuto.
Media

@ncasas potresti fornire un link per il tuo paragrafo?
Media
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.