dopo aver eseguito una selezione graduale basata sul criterio AIC, è fuorviante osservare i valori p per verificare l'ipotesi nulla che ogni coefficiente di regressione reale sia zero.
In effetti, i valori p rappresentano la probabilità di vedere una statistica test almeno estrema quanto quella che hai, quando l'ipotesi nulla è vera. Se H0 è vero, il valore p dovrebbe avere una distribuzione uniforme.
Ma dopo la selezione graduale (o in effetti, dopo una varietà di altri approcci alla selezione del modello), i valori p di quei termini che rimangono nel modello non hanno quella proprietà, anche quando sappiamo che l'ipotesi nulla è vera.
Ciò accade perché scegliamo le variabili che hanno o tendono ad avere piccoli valori p (a seconda dei criteri precisi che abbiamo usato). Ciò significa che i valori p delle variabili lasciate nel modello sono in genere molto più piccoli di quanto sarebbero se si inserisse un singolo modello. Si noti che la selezione sceglierà in media modelli che sembrano adattarsi anche meglio del modello reale, se la classe di modelli include il modello reale o se la classe di modelli è abbastanza flessibile da approssimare da vicino il modello reale.
[Inoltre, e sostanzialmente per lo stesso motivo, i coefficienti rimanenti sono distorti da zero e i loro errori standard sono distorti; questo a sua volta influisce anche sugli intervalli di confidenza e sulle previsioni, ad esempio le nostre previsioni saranno troppo strette.]
Per vedere questi effetti, possiamo prendere una regressione multipla in cui alcuni coefficienti sono 0 e altri no, eseguire una procedura graduale e quindi per quei modelli che contengono variabili con coefficienti zero, osservare i valori p che ne risultano.
(Nella stessa simulazione, puoi guardare le stime e le deviazioni standard per i coefficienti e scoprire anche quelli che corrispondono a coefficienti diversi da zero sono interessati.)
In breve, non è appropriato considerare significativi i normali valori p.
Ho sentito che si dovrebbero considerare significative tutte le variabili rimaste nel modello.
Quanto al fatto che tutti i valori nel modello dopo stepwise debbano essere "considerati significativi", non sono sicuro di quale sia un modo utile per esaminarlo. Qual è il significato di "significato" allora?
Ecco il risultato dell'esecuzione di R stepAIC
con impostazioni predefinite su 1000 campioni simulati con n = 100 e dieci variabili candidate (nessuna delle quali è correlata alla risposta). In ogni caso è stato contato il numero di termini rimasti nel modello:
Solo il 15,5% delle volte è stato scelto il modello corretto; per il resto del tempo il modello includeva termini che non erano diversi da zero. Se in realtà è possibile che ci siano variabili a coefficiente zero nel set di variabili candidate, è probabile che abbiamo diversi termini in cui il coefficiente reale è zero nel nostro modello. Di conseguenza, non è chiaro che sia una buona idea considerarli tutti diversi da zero.