Vorrei valutare diversi modelli diversi che forniscono previsioni di comportamento a livello mensile. I dati sono bilanciati e 100.000 e 12. Il risultato è assistere a un concerto in un determinato mese, quindi è zero per circa l'80% delle persone in ogni mese, ma c'è una lunga coda destra di utenti pesanti. Le previsioni che ho non sembrano rispettare la natura dei risultati del risultato: i concerti frazionari sono prevalenti.
Non so nulla dei modelli. solo 6 diverse previsioni in black box per ogni persona al mese. Ho un anno in più di dati che i modellisti non hanno avuto per la stima (anche se i partecipanti al concerto rimangono gli stessi) e vorrei valutare dove ciascuno si esibisce bene (in termini di accuratezza e precisione). Ad esempio, alcuni modelli prevedono bene per frequentatori di concerti frequenti, ma non riescono per le patate da divano? La previsione per gennaio è migliore della previsione per dicembre? In alternativa, sarebbe bello sapere che le previsioni mi consentono di classificare correttamente le persone in termini di effettivi, anche se non si può fidare dell'esatta grandezza.
Il mio primo pensiero è stato quello di eseguire una regressione di effetti fissi su manichini previsti e temporali e guardare RMSEs o per ciascun modello. Ma questo non risponde alla domanda su dove ogni modello funziona bene o se le differenze sono significative (a meno che non avvii il bootstrap di RMSE). La distribuzione del risultato mi preoccupa anche con questo approccio.
La mia seconda idea era di raggruppare il risultato in 0, 1-3 e 3+ e calcolare la matrice di confusione, ma questo ignora la dimensione temporale, a meno che non ne realizzi 12. È anche piuttosto grossolano.
Sono a conoscenza dei comandi Stata concord
di TJ Steichen e NJ Cox - che ha l' by()
opzione, ma che richiederebbe il collasso dei dati a totali annuali. Questo calcola l' indice di correlazione della concordanza di Lin con intervalli di confidenza, tra le altre utili statistiche. Il CCC varia da -1 a 1, con un accordo perfetto a 1.
C'è anche la di Harrell (calcolata
da R. Newson), che ha l' opzione, ma non sono sicuro che mi permetterebbe di gestire i dati del panel. Questo ti dà intervalli di confidenza. La c di Harrell è la generalizzazione dell'area sotto una curva ROC (AUC) per un risultato continuo. È la proporzione di tutte le coppie che può essere ordinata in modo tale che il soggetto con la previsione più alta abbia effettivamente il risultato più alto. Quindi per previsioni casuali per un modello perfettamente discriminante. Vedi il libro di Harrell , p.493somersd
cluster
Come affronteresti questo problema? Consiglieresti di calcolare statistiche come MAPE che sono comuni nelle previsioni?
Cose utili trovate finora:
- Diapositive su una versione a misura ripetuta del coefficiente di correlazione Concordanza di Lin