Come confrontare l'accuratezza di due diversi modelli usando un significato statistico

10

Sto lavorando alla previsione di serie storiche. Ho due insiemi di dati $D1=\{x_1, x_2,....x_n\}$ e $D2=\{x_n+1, x_n+2, x_n+3,...., x_n+k\}$ . Ho tre modelli di previsione: $M1, M2, M3$ . Tutti questi modelli sono addestrati usando campioni nel set di dati $D1$ e le loro prestazioni sono misurate usando i campioni nel set di dati $D2$ . Supponiamo che la metrica delle prestazioni sia MSE (o qualsiasi altra cosa). MSE di quei modelli quando misurata per il set di dati $D2$ sono $MSE_1, MSE_2,$ e $MSE_3$ . Come posso testare che il miglioramento di un modello rispetto a un altro è statisticamente significativo.

Ad esempio, supponiamo che $MSE_1=200$ , $MSE_2=205$ , $MSE_3=210$ e il numero totale di campioni nel set di dati $D2$ base al quale vengono calcolati tali MSE sia 2000. Come posso testare che $MSE_1$ , $MSE_2$ e $MSE_3$ sono significativamente diversi. Gradirei molto se qualcuno potesse aiutarmi in questo problema.

— Mashud
fonte

1

Uno dei post collegati sopra allude all'utilizzo di un test del rapporto di verosimiglianza, anche se i tuoi modelli devono essere nidificati l'uno nell'altro affinché funzioni (cioè tutti i parametri in uno dei modelli devono essere presenti nel modello su cui lo stai testando) .

RMSE è chiaramente una misura di come il modello si adatta ai dati. Tuttavia, così è il rapporto di verosimiglianza. La probabilità per una determinata persona, ad esempio la signora Chen, è la probabilità che una persona con tutti i suoi parametri abbia avuto il risultato che aveva. La probabilità congiunta del set di dati è la probabilità della signora Chen * La probabilità della signora Gundersen * La probabilità della signora Johnson * ... ecc.

L'aggiunta di una covariata, o un numero qualsiasi di covariate, non può davvero peggiorare il rapporto di probabilità, non credo. Ma può migliorare il rapporto di verosimiglianza di un importo non significativo. I modelli che si adattano meglio avranno una maggiore probabilità. È possibile verificare formalmente se il modello A si adatta meglio al modello B. Dovresti avere una sorta di funzione di test LR disponibile in qualsiasi software tu usi, ma fondamentalmente, la statistica del test LR è -2 * la differenza dei registri delle probabilità, ed è distribuito chi-quadrato con df = la differenza nel numero di parametri.

Inoltre, è accettabile il confronto tra AIC o BIC dei due modelli e trovare quello più basso. AIC e BIC sono fondamentalmente le probabilità di log penalizzate per il numero di parametri.

Non sono sicuro di usare un test t per gli RMSE, e in realtà mi appoggerei a esso a meno che tu non riesca a trovare qualche lavoro teorico che è stato fatto nell'area. Fondamentalmente, sai come vengono distribuiti asintoticamente i valori di RMSE? Non ne sono sicuro. Qualche ulteriore discussione qui:

http://www.stata.com/statalist/archive/2012-11/index.html#01017

— Weiwen Ng
fonte

0

Questa risposta non tiene conto del fatto che i tuoi dati formano una serie temporale, ma non credo che questo sarebbe un problema.

Quando si utilizza RMSE, questo post suggerisce di utilizzare un t-test: test del significato di RMSE dei modelli

Puoi anche usare la correlazione di Pearson per valutare la tua forma. Secondo questo post, è possibile utilizzare il t-test di Wolfe per questo: significato statistico dell'aumento della correlazione

Attualmente sto cercando di conoscere lo stesso problema. Apprezzerei personalmente risposte più dettagliate.

— Buechel
fonte

0

Ci sono due modi principali per farlo, ma prima sfiderò l'idea che tu voglia sceglierne solo uno. Molto probabilmente, un modello di ensemble dei tre modelli separati otterrà le migliori prestazioni di tutti.

Il modo principale, forse migliore, per farlo è utilizzare il modello per ottenere intervalli di confidenza attorno alla metrica di valutazione. Questo è comunemente fatto tramite bootstrap ( o bootstrap di Poisson ).

L'altro modo è usare un test statistico. Ogni test fa ipotesi diverse e queste sono spesso utilizzate per confrontare un valore o un campione prelevato da una distribuzione piuttosto che una valutazione a singolo punto. Molti di questi test statistici richiedono formalmente l'indipendenza, che di solito non si ha quando si confrontano più risultati dello stesso modello o più modelli su dati di serie temporali.

Con la previsione delle serie temporali in particolare, è necessario eseguire test retrospettivi con convalida incrociata e valutare errori treno e test in ogni momento ( esempio ). Quando lo fai, dubito che i tuoi modelli funzioneranno tutti in modo così simile che hai bisogno di un test statistico per differenziare; molto probabilmente, vedrai grandi differenze.

Si noti inoltre che le metriche di valutazione storiche (confrontando gli effettivi con le previsioni) da sole non sono sufficienti per la valutazione delle previsioni. Dati due pronostici che si adattano perfettamente ai dati storici conosciuti ma uno corrisponde anche alle credenze precedenti sul futuro e l'altro viola chiaramente (ad esempio, se uno svanisce a zero ma hai motivo di credere che non possa accadere), preferirai la previsione che meglio corrisponde al tuo precedente.

— Michael Brundage
fonte