Vorrei utilizzare un modello di regressione logistica binaria nel contesto dei dati di streaming (serie temporali multidimensionali) al fine di prevedere il valore della variabile dipendente dei dati (ovvero riga) appena arrivati, date le osservazioni passate. Per quanto ne so, la regressione logistica viene tradizionalmente utilizzata per l'analisi post mortem, in cui ogni variabile dipendente è già stata impostata (mediante ispezione o per natura dello studio).
Cosa succede nel caso delle serie temporali, tuttavia, dove vogliamo fare una previsione (al volo) sulla variabile dipendente in termini di dati storici (ad esempio in una finestra temporale degli ultimi secondi) e, naturalmente, la precedente stime della variabile dipendente?
E se vedi il sistema di cui sopra nel tempo, come dovrebbe essere costruito affinché la regressione funzioni? Dobbiamo prima addestrarlo etichettando, diciamo, le prime 50 righe dei nostri dati (ovvero impostando la variabile dipendente su 0 o 1) e quindi utilizzare la stima corrente del vettore per stimare la nuova probabilità del la variabile dipendente è 0 o 1 per i dati appena arrivati (ovvero la nuova riga che è stata appena aggiunta al sistema)?
Per rendere più chiaro il mio problema, sto cercando di costruire un sistema che analizza un set di dati riga per riga e prova a fare una previsione di un risultato binario (variabile dipendente), data la conoscenza (osservazione o stima) di tutti i precedenti dipendenti o esplicativi variabili che sono arrivate in una finestra temporale fissa. Il mio sistema è in Rerl e usa R per l'inferenza.