Regressione logistica per serie storiche


21

Vorrei utilizzare un modello di regressione logistica binaria nel contesto dei dati di streaming (serie temporali multidimensionali) al fine di prevedere il valore della variabile dipendente dei dati (ovvero riga) appena arrivati, date le osservazioni passate. Per quanto ne so, la regressione logistica viene tradizionalmente utilizzata per l'analisi post mortem, in cui ogni variabile dipendente è già stata impostata (mediante ispezione o per natura dello studio).

Cosa succede nel caso delle serie temporali, tuttavia, dove vogliamo fare una previsione (al volo) sulla variabile dipendente in termini di dati storici (ad esempio in una finestra temporale degli ultimi secondi) e, naturalmente, la precedente stime della variabile dipendente?t

E se vedi il sistema di cui sopra nel tempo, come dovrebbe essere costruito affinché la regressione funzioni? Dobbiamo prima addestrarlo etichettando, diciamo, le prime 50 righe dei nostri dati (ovvero impostando la variabile dipendente su 0 o 1) e quindi utilizzare la stima corrente del vettore per stimare la nuova probabilità del la variabile dipendente è 0 o 1 per i dati appena arrivati ​​(ovvero la nuova riga che è stata appena aggiunta al sistema)?β

Per rendere più chiaro il mio problema, sto cercando di costruire un sistema che analizza un set di dati riga per riga e prova a fare una previsione di un risultato binario (variabile dipendente), data la conoscenza (osservazione o stima) di tutti i precedenti dipendenti o esplicativi variabili che sono arrivate in una finestra temporale fissa. Il mio sistema è in Rerl e usa R per l'inferenza.


5
puoi assumere una struttura di correlazione sui tuoi dati? Il tuo caso è un caso speciale di GLMM con collegamento logit, ma la struttura di correlazione nei dati delle serie temporali deve essere modellata correttamente per ottenere una risposta ragionevole.
suncoolsu,

1
quando dici serie , y t avrebbe qualche tipo di relazione con y t - 1 . O si può presumere che sia indipendente? ytyt-1
suncoolsu,

2
potresti per favore fornire una descrizione sintetica dei tuoi dati affinché possa fornire una soluzione concreta? il tuo problema può essere risolto qualcosa del genere stat.ethz.ch/pipermail/r-sig-mixed-models/2010q4/004530.html
suncoolsu

2
Ho una serie temporale del traffico di rete del seguente modulo: Protocollo, SrcIP SrcPort, DestIP, DestPort, TimeSec, Timeusec, PackLength TCP, 200.80.199.105,3523.207.216.233.144.9658,11223344,941818,62 UDP, 142.144.155.120 , 1751.244.72.151.2,1935, 11223344,941843,60 Voglio stimare se un pacchetto (o un gruppo di pacchetti) è dannoso utilizzando la conoscenza dei set di dati etichettati per costruire un modello autodidatta. La media di cui stavo parlando viene applicata alle metriche sopra per fornire un livello di aggregazione e rendere il sistema più pratico per il traffico ad alto volume.
Regressor,

2
Sembra davvero un lavoro per una macchina vettoriale di supporto. Mi sto perdendo qualcosa? Se sei davvero preoccupato per l'autocorrelazione o la struttura delle serie temporali dei tuoi dati, potresti provare ARIMA e / o un modello longitudinale multilivello. Sui modelli longitudinali, raccomando l' analisi dei dati longitudinali applicati di Willet e Singer , per i quali il sito UCLA ATS ha esempi di codice R.
cenere il

Risposte:


6

Esistono due metodi da considerare:

  1. Utilizzare solo gli ultimi N campioni di input. Supponendo che il tuo segnale di ingresso sia di dimensione D, quindi hai campioni N * D per etichetta di verità del terreno. In questo modo è possibile allenarsi utilizzando qualsiasi classificatore desiderato, inclusa la regressione logistica. In questo modo, ogni uscita è considerata indipendente da tutte le altre uscite.

  2. Usa gli ultimi N input sample e gli ultimi N output che hai generato. Il problema è quindi simile alla decodifica del viterbi . È possibile generare un punteggio non binario in base ai campioni di input e combinare il punteggio di più campioni utilizzando un decodificatore viterbi. Questo è meglio del metodo 1. se ora qualcosa sulla relazione temporale tra le uscite.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.