Risposte:
Innanzitutto, siate espliciti e mettiamo la domanda nel contesto della regressione lineare multipla in cui regrediamo una variabile di risposta, , su diverse variabili x 1 , ... , x p (correlate o no), con il vettore di parametri β = ( β 0 , β 1 , … , β p ) e funzione di regressione f ( x 1 , … , x p ) = β 0 + β 1 x 1 +
che potrebbe essere un modello della media della variabile di risposta per una data osservazione di x 1 , ... , x p .
La domanda è come selezionare un sottoinsieme di come diverso da zero e, in particolare, un confronto tra test di significatività e validazione incrociata .
Per essere chiari sulla terminologia, il test di significatività è un concetto generale, che viene eseguito in modo diverso in contesti diversi. Dipende, ad esempio, dalla scelta di una statistica di prova. La validazione incrociata è in realtà un algoritmo per la stima dell'errore di generalizzazione atteso , che è il concetto generale importante e che dipende dalla scelta di una funzione di perdita.
L' errore di generalizzazione previsto è un po 'tecnico da definire formalmente, ma in parole è la perdita attesa di un modello adattato quando utilizzato per la previsione su un set di dati indipendente , in cui l'aspettativa è oltre i dati utilizzati per la stima, nonché i dati indipendenti set utilizzato per la previsione.
Il semplice utilizzo di test di significatività e una procedura graduale per eseguire la selezione del modello può farti credere di avere un modello molto forte con predittori significativi quando, in realtà, non lo fai; potresti avere forti correlazioni per caso e queste correlazioni possono apparentemente essere migliorate quando rimuovi altri predittori non necessari.
La procedura di selezione, ovviamente, mantiene solo quelle variabili con le più forti correlazioni con il risultato e, man mano che la procedura graduale avanza, la probabilità di commettere un errore di tipo I diventa maggiore di quanto si possa immaginare. Questo perché gli errori standard (e quindi i valori p) non sono adeguati per tenere conto del fatto che le variabili non sono state selezionate per l'inclusione nel modello in modo casuale e sono stati condotti test di ipotesi multiple per scegliere quell'insieme.
David Freedman ha una carta carina in cui dimostra questi punti chiamati " Una nota sulle equazioni di regressione di screening ". L'abstract:
Una potenziale soluzione a questo problema, come hai detto, è l'utilizzo di una variante di convalida incrociata. Quando non ho una buona ragione economica (la mia area di ricerca) o statistica per credere al mio modello, questo è il mio approccio preferito per selezionare un modello appropriato e fare inferenza.
Altri intervistati potrebbero menzionare che le procedure graduali che utilizzano AIC o BIC sono asintoticamente equivalenti alla convalida incrociata. Questo funziona solo quando il numero di osservazioni relative al numero di predittori aumenta, tuttavia. Nel contesto di avere molte variabili relative al numero di osservazioni (Freedman dice 1 variabile per 10 o meno osservazioni), la selezione in questo modo può mostrare le proprietà scadenti discusse sopra.
In un'epoca di potenti computer, non vedo alcun motivo per non utilizzare la convalida incrociata come procedura di selezione del modello rispetto alla selezione graduale.