Sto costruendo un modello predittivo che prevede la probabilità di successo di uno studente alla fine di un periodo. Sono particolarmente interessato a sapere se lo studente ha successo o meno, dove il successo è generalmente definito come il completamento del corso e il raggiungimento del 70% o più punti sul totale dei punti possibili.
Quando distribuisco il modello, la stima della probabilità di successo deve essere aggiornata nel tempo man mano che diventano disponibili ulteriori informazioni, idealmente immediatamente dopo che si verifica qualcosa, come quando uno studente presenta un compito o ottiene un voto su uno. Questo aggiornamento mi sembra un po 'bayesiano, ma dato il mio addestramento in statistiche educative, è un po' fuori dalla mia zona di comfort.
Finora ho usato la regressione logistica (in realtà lazo) con un set di dati storici contenente snapshot settimanali. Questo set di dati ha osservazioni correlate, poiché ogni studente ha osservazioni ; le osservazioni per uno studente sono correlate. Non sto modellando specificamente la correlazione all'interno delle osservazioni settimanali di uno studente particolare. Credo che dovrei solo considerarlo in un contesto inferenziale poiché gli errori standard sarebbero troppo piccoli. Penso - ma non sono sicuro su questo - che l'unico problema derivante dalle osservazioni correlate sia che devo fare attenzione quando eseguo la convalida incrociata per mantenere le osservazioni raggruppate in un sottoinsieme dei dati, in modo da non ottenere tassi di errore out-of-sample artificialmente bassi basati sulla previsione di una persona che il modello ha già visto.
Sto usando il pacchetto glmnet di R per fare un lazo con un modello logistico per generare una probabilità di successo / fallimento e per scegliere automaticamente i predittori per un determinato corso. Ho usato la variabile settimana come fattore, interagendo con tutti gli altri predittori. Non penso che questo differisca in generale dalla semplice stima dei singoli modelli basati su settimana, tranne per il fatto che dà un'idea di come potrebbe esserci qualche modello comune che si mantiene durante il periodo che viene corretto tramite vari fattori di aggiustamento del rischio in diverse settimane.
La mia domanda principale è questa: esiste un modo migliore per aggiornare le probabilità di classificazione nel tempo piuttosto che dividere il set di dati in istantanee settimanali (o altri intervalli basati su intervalli), introducendo una variabile del fattore periodo di tempo interagita con ogni altra caratteristica, e utilizzando le funzioni cumulative (punti cumulativi guadagnati, giorni cumulativi in classe, ecc.)?
La mia seconda domanda è: mi sto perdendo qualcosa di critico qui sulla modellazione predittiva con osservazioni correlate?
La mia terza domanda è: come posso generalizzare questo ad un aggiornamento in tempo reale, dato che sto facendo istantanee settimanali? Sto programmando di collegare solo variabili per l'attuale intervallo settimanale, ma questo mi sembra complicato.
Cordiali saluti, sono addestrato in statistiche educative applicate ma ho un background in statistiche matematiche da molto tempo fa. Posso fare qualcosa di più sofisticato se ha senso, ma ho bisogno che sia spiegato in termini relativamente accessibili.