La maggior parte delle risposte ha contribuito a chiarire quali sono i modelli per la spiegazione e i modelli per la previsione e perché differiscono. Ciò che non è chiaro, finora, è come differiscono. Quindi, ho pensato di offrire un esempio che potrebbe essere utile.
Supponiamo che siamo intervenuti nella modellistica del GPA del college in funzione della preparazione accademica. Come misure di preparazione accademica, abbiamo:
- Punteggi di prova attitudinali;
- HS GPA; e
- Numero di test AP superati.
Strategia per la previsione
Se l'obiettivo è la previsione, potrei usare tutte queste variabili contemporaneamente in un modello lineare e la mia preoccupazione principale sarebbe l'accuratezza predittiva. Qualunque delle variabili risultasse più utile per prevedere l'APG del College sarebbe inclusa nel modello finale.
Strategia per la spiegazione
Se l'obiettivo è la spiegazione, potrei essere più preoccupato per la riduzione dei dati e riflettere attentamente sulle correlazioni tra le variabili indipendenti. La mia preoccupazione principale sarebbe interpretare i coefficienti.
Esempio
In un tipico problema multivariato con predittori correlati, non sarebbe raro osservare coefficienti di regressione "inattesi". Date le interrelazioni tra le variabili indipendenti, non sarebbe sorprendente vedere coefficienti parziali per alcune di queste variabili che non sono nella stessa direzione delle loro relazioni di ordine zero e che possono sembrare contro intuitive e difficili da spiegare.
Ad esempio, supponiamo che il modello suggerisca che (tenendo conto dei punteggi dei test attitudinali e del numero di test AP completati con successo) i GPA delle scuole superiori superiori sono associati ai GPA del college inferiori . Questo non è un problema per la previsione, ma pone problemi per un modello esplicativo in cui tale relazione è difficile da interpretare . Questo modello potrebbe fornire le migliori previsioni fuori campione, ma fa ben poco per aiutarci a capire la relazione tra preparazione accademica e APG del college.
Invece, una strategia esplicativa potrebbe cercare una qualche forma di riduzione variabile, come componenti principali, analisi dei fattori o SEM per:
- concentrarsi sulla variabile che rappresenta la migliore misura del "rendimento accademico" e modellare il GPA del College su quella variabile; o
- utilizzare i punteggi dei fattori / variabili latenti derivati dalla combinazione delle tre misure di preparazione accademica anziché delle variabili originali.
Strategie come queste potrebbero ridurre il potere predittivo del modello, ma potrebbero comprendere meglio come la preparazione accademica è collegata al GPA del college.