Dopo aver letto "To Explain or to Predict" (2010) di Galit Shmueli, sono perplesso da un'apparente contraddizione. Ci sono tre premesse,
- Scelta del modello basata su AIC rispetto a BIC (fine di p. 300 - inizio di p. 301): in poche parole, AIC dovrebbe essere usato per selezionare un modello destinato alla previsione mentre BIC dovrebbe essere usato per selezionare un modello per la spiegazione . Inoltre (non nel documento sopra), sappiamo che in alcune condizioni BIC seleziona il modello vero tra l'insieme dei modelli candidati; il vero modello è ciò che cerchiamo nella modellazione esplicativa (fine di p. 293).
- Aritmetica semplice: AIC selezionerà un modello più grande di BIC per campioni di dimensione 8 o superiore (soddisfacendo causa delle diverse penalità di complessità in AIC rispetto a BIC).
- Il modello "vero" (ovvero il modello con i regressori corretti e la forma funzionale corretta ma coefficienti stimati in modo imperfetto) potrebbe non essere il modello migliore per la previsione (p. 307): un modello di regressione con un predittore mancante può essere un modello di previsione migliore - l'introduzione della distorsione dovuta al predittore mancante può essere compensata dalla riduzione della varianza dovuta all'imprecisione della stima.
I punti 1. e 2. suggeriscono che i modelli più grandi potrebbero essere migliori per la previsione rispetto ai modelli più parsimoniosi. Nel frattempo, il punto 3. fornisce un esempio opposto in cui un modello più parsimonioso è migliore per la previsione rispetto a un modello più grande. Lo trovo sconcertante.
Domande:
- Come può l'apparente contraddizione tra i punti {1. e 2.} e 3. essere spiegati / risolti?
- Alla luce del punto 3., potresti fornire una spiegazione intuitiva del perché e come un modello più grande selezionato da AIC sia effettivamente migliore per la previsione rispetto a un modello più parsimonioso selezionato da BIC?