Penso che questo approccio sia sbagliato, ma forse sarà più utile se spiego il perché. Volere conoscere il modello migliore dati alcune informazioni su un gran numero di variabili è abbastanza comprensibile. Inoltre, è una situazione in cui le persone sembrano ritrovarsi regolarmente. Inoltre, molti libri di testo (e corsi) sulla regressione trattano metodi di selezione graduale, il che implica che devono essere legittimi. Sfortunatamente, tuttavia, non lo sono e l'associazione di questa situazione e obiettivo è abbastanza difficile da navigare con successo. Di seguito è riportato un elenco di problemi con le procedure automatiche di selezione del modello graduale (attribuite a Frank Harrell e copiate da qui ):
- Produce valori R-quadrati che sono fortemente distorti per essere alti.
- I test F e chi-quadrato citati accanto a ciascuna variabile sulla stampa non hanno la distribuzione richiesta.
- Il metodo fornisce intervalli di confidenza per effetti e valori previsti falsamente restrittivi; vedi Altman e Andersen (1989).
- Fornisce valori p che non hanno il significato corretto e la correzione corretta per loro è un problema difficile.
- Fornisce coefficienti di regressione distorti che necessitano di contrazione (i coefficienti per le variabili rimanenti sono troppo grandi; vedi Tibshirani [1996]).
- Ha gravi problemi in presenza di collinearità.
- Si basa su metodi (ad es. Test F per modelli nidificati) che erano destinati a testare ipotesi prespecificate.
- L'aumento della dimensione del campione non aiuta molto; vedi Derksen e Keselman (1992).
- Ci permette di non pensare al problema.
- Usa molta carta.
La domanda è: cosa c'è di male in queste procedure / perché si verificano questi problemi? La maggior parte delle persone che hanno seguito un corso di regressione di base hanno familiarità con il concetto di regressione alla media , quindi questo è ciò che uso per spiegare questi problemi. (Anche se all'inizio può sembrare fuori tema, abbiate pazienza, prometto che è pertinente.)
Immagina un allenatore di pista del liceo nel primo giorno di prove. Trenta bambini si presentano. Questi bambini hanno un livello sottostante di abilità intrinseca a cui né l'allenatore, né nessun altro, ha accesso diretto. Di conseguenza, l'allenatore fa l'unica cosa che può fare, ovvero far correre tutti un trattino di 100m. I tempi sono presumibilmente una misura della loro capacità intrinseca e sono presi come tali. Tuttavia, sono probabilistici; una parte di quanto bene qualcuno si basa sulla sua capacità effettiva e una parte è casuale. Immagina che la vera situazione sia la seguente:
set.seed(59)
intrinsic_ability = runif(30, min=9, max=10)
time = 31 - 2*intrinsic_ability + rnorm(30, mean=0, sd=.5)
I risultati della prima gara sono mostrati nella figura seguente insieme ai commenti dell'allenatore per i bambini.
Nota che il partizionamento dei bambini per i loro tempi di gara lascia sovrapposizioni alla loro abilità intrinseca - questo fatto è cruciale. Dopo aver elogiato alcuni e aver urlato contro altri (come gli allenatori tendono a fare), li fa correre di nuovo. Ecco i risultati della seconda gara con le reazioni dell'allenatore (simulate dallo stesso modello sopra):
Notare che la loro abilità intrinseca è identica, ma i tempi sono rimbalzati rispetto alla prima razza. Dal punto di vista dell'allenatore, quelli a cui urlava tendevano a migliorare e quelli che lodava tendevano a fare di peggio (ho adattato questo esempio concreto dalla citazione di Kahneman elencata nella pagina wiki), anche se in realtà la regressione alla media è un semplice matematico conseguenza del fatto che l'allenatore sta selezionando gli atleti per la squadra sulla base di una misurazione che è in parte casuale.
Ora, cosa c'entra questo con le tecniche di selezione dei modelli automatizzate (ad esempio, a step)? Lo sviluppo e la conferma di un modello basato sullo stesso set di dati viene talvolta chiamato dragaggio dei dati. Sebbene vi sia una relazione di base tra le variabili e si prevede che relazioni più forti producano punteggi più forti (ad es. Statistiche T più alte), si tratta di variabili casuali e i valori realizzati contengono errori. Pertanto, quando si selezionano variabili basate su valori realizzati più alti (o più bassi), possono essere tali a causa del valore reale, dell'errore o di entrambi sottostanti. Se procedi in questo modo, rimarrai sorpreso come lo era l'allenatore dopo la seconda gara. Questo è vero sia che selezioni le variabili in base a statistiche t elevate o intercorrelazioni basse. È vero, usare l'AIC è meglio che usare i valori p, perché penalizza la complessità del modello, ma l'AIC è di per sé una variabile casuale (se si esegue uno studio più volte e si adatta allo stesso modello, l'AIC rimbalzerà esattamente come tutto il resto). Purtroppo,
Spero che questo sia utile.