Metrica di valutazione delle previsioni per dati pannello / longitudinali


11

Vorrei valutare diversi modelli diversi che forniscono previsioni di comportamento a livello mensile. I dati sono bilanciati e 100.000 e 12. Il risultato è assistere a un concerto in un determinato mese, quindi è zero per circa l'80% delle persone in ogni mese, ma c'è una lunga coda destra di utenti pesanti. Le previsioni che ho non sembrano rispettare la natura dei risultati del risultato: i concerti frazionari sono prevalenti.n=T=

Non so nulla dei modelli. solo 6 diverse previsioni in black box per ogni persona al mese. Ho un anno in più di dati che i modellisti non hanno avuto per la stima (anche se i partecipanti al concerto rimangono gli stessi) e vorrei valutare dove ciascuno si esibisce bene (in termini di accuratezza e precisione). Ad esempio, alcuni modelli prevedono bene per frequentatori di concerti frequenti, ma non riescono per le patate da divano? La previsione per gennaio è migliore della previsione per dicembre? In alternativa, sarebbe bello sapere che le previsioni mi consentono di classificare correttamente le persone in termini di effettivi, anche se non si può fidare dell'esatta grandezza.y^1,...,y^6

Il mio primo pensiero è stato quello di eseguire una regressione di effetti fissi su manichini previsti e temporali e guardare RMSEs o per ciascun modello. Ma questo non risponde alla domanda su dove ogni modello funziona bene o se le differenze sono significative (a meno che non avvii il bootstrap di RMSE). La distribuzione del risultato mi preoccupa anche con questo approccio.R2

La mia seconda idea era di raggruppare il risultato in 0, 1-3 e 3+ e calcolare la matrice di confusione, ma questo ignora la dimensione temporale, a meno che non ne realizzi 12. È anche piuttosto grossolano.

Sono a conoscenza dei comandi Stata concorddi TJ Steichen e NJ Cox - che ha l' by()opzione, ma che richiederebbe il collasso dei dati a totali annuali. Questo calcola l' indice di correlazione della concordanza di Lin con intervalli di confidenza, tra le altre utili statistiche. Il CCC varia da -1 a 1, con un accordo perfetto a 1.

C'è anche la di Harrell (calcolata da R. Newson), che ha l' opzione, ma non sono sicuro che mi permetterebbe di gestire i dati del panel. Questo ti dà intervalli di confidenza. La c di Harrell è la generalizzazione dell'area sotto una curva ROC (AUC) per un risultato continuo. È la proporzione di tutte le coppie che può essere ordinata in modo tale che il soggetto con la previsione più alta abbia effettivamente il risultato più alto. Quindi per previsioni casuali per un modello perfettamente discriminante. Vedi il libro di Harrell , p.493csomersdclusterc=0.5c=1

Come affronteresti questo problema? Consiglieresti di calcolare statistiche come MAPE che sono comuni nelle previsioni?


Cose utili trovate finora:

  • Diapositive su una versione a misura ripetuta del coefficiente di correlazione Concordanza di Lin

Avremo bisogno di sapere di più sul comportamento, è ordinale / binario / continuo valutato? Poiché questo esperimento è longitudinale, il tuo interesse risiede nella previsione o nella previsione dei risultati in un individuo? I modelli di effetti misti sono usati per deduzione, non per previsione. Non funzionano perché, per prevedere , è necessaria una stima dell'effetto casuale.
AdamO,

Il comportamento reale è conteggi o continuo. Le previsioni sono tutte continue. Vorrei vedere quanto sono buone le previsioni mensili a livello individuale.
Dimitriy V. Masterov,

"Previsioni mensili a livello individuale" in persone che hai osservato dati precedenti o persone alla valutazione iniziale? IE stai ottenendo o o o ... si prega di chiarire in quanto la previsione longitudinale non è una questione ondulata dalla mano.Yi=12^=f(Xi=12,11,,1,Yi=11,10,,1Yi=I^=f(Xi=I,I1,,1,Yi=I1,I2,,1Yi^=f(Xi)
AdamO

Questo è un campione di persone che sono state utilizzate per la stima, ma la previsione è per l'anno successivo alla finestra di stima. La previsione per il primo mese è una funzione del comportamento osservato e ritardato e delle covariate osservate per la persona :Mi aspetto che il primo mese sia abbastanza vicino. Per il secondo mese (e in seguito), è una funzione della previsione del mese scorso e delle covariate osservate di quel mese: . Mi aspetto che questa previsione diverga sempre più dai reali. Voglio confrontare e . iY^i,1=f(Yi,t1,Xi,t).Y^i,2=f(Y^i,1,Xi,2)Yi,tY^i,t
Dimitriy V. Masterov

la stima implica la stima dei parametri che può far parte dell '"addestramento" per un modello predittivo, ma penso che tu intenda dire che il tuo campione viene utilizzato per allenare un modello predittivo. Quello che stai affermando qui è un processo semi-markov condizionale e ha applicazioni uniche nella previsione.
AdamO

Risposte:


1

Per valutare la capacità predittiva di una previsione semi-Markov, ci sono una serie di metodi disponibili a seconda della dimensione del campione e di altre informazioni disponibili.

Per la valutazione di qualsiasi modello predittivo / di previsione, è possibile scegliere la convalida incrociata (in particolare la convalida incrociata del campione diviso in modalità one-out o iterativa), in cui un modello viene stimato in un campione di "addestramento" e l'incertezza del modello valutata in una "convalida" campione. A seconda della distribuzione del risultato, sono disponibili diverse misure con le quali è possibile selezionare un modello tra un pannello di modelli idonei. Per le misure generali non parametriche per la selezione del modello, alle persone piacciono molto AIC e BIC, specialmente quest'ultima.

CCC e c-statistics vengono utilizzate per valutare predizioni binarie di sezioni trasversali come da test / analisi, quindi è necessario escluderle se si prevede, ad esempio, BMI o IQ. Misurano la calibrazione (come il test di Hosmer Lemeshow) e la cosiddetta capacità di stratificazione del rischio. Nessuna connessione intuitiva ai risultati continui lì, almeno non per quanto posso dire.

RMSE invece è usato per valutare predizioni continue (salvo il caso della previsione del rischio in cui RMSE è indicato come punteggio Brier, uno strumento di valutazione del modello piuttosto arcaico e deprecato). Questo è uno strumento eccellente e probabilmente viene utilizzato per calibrare verso l'alto dell'80% dei modelli predittivi che incontriamo quotidianamente (previsioni meteorologiche, rating energetici, MPG sui veicoli, ecc.).

Un avvertimento nella convalida del campione diviso o nel ricampionamento per la valutazione dei modelli previsionali è che potresti essere interessato ai risultati futuri solo quando il campione ti lascia prevedere i risultati passati. Non farlo! Non riflette l'applicazione dei modelli e può influenzare notevolmente la selezione in modo negativo. Porta avanti tutte le informazioni disponibili e prevedi i risultati futuri non osservati in tutti i casi disponibili.

Praticamente qualsiasi libro sui modelli lineari applicati coprirà la previsione, l'RMSE e le sfumature della formazione e dei modelli di validazione. Un buon inizio sarebbe Kutner, Nachtsheim, Neter, Li, anche prendere in considerazione "Time Series Analysis" di Diggle, Diggle Heagerty Zeger Li, "Longitudinal Data Analysis" e potenzialmente "Regressione Modeling Strategies" di Harrell.


CCC e Harrell's c possono essere utilizzati con esiti continui. CCC ha anche implementato misure ripetute. Vedi i riferimenti / collegamenti che ho aggiunto alla domanda.
Dimitriy V. Masterov,

Non importa Non stai classificando.
AdamO,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.