Nel suo articolo Linear Model Selection by Cross-Validation , Jun Shao mostra che per il problema della selezione variabile nella regressione lineare multivariata, il metodo di validazione incrociata unilaterale (LOOCV) è "asintoticamente incoerente". In parole povere, tende a selezionare modelli con troppe variabili. In uno studio di simulazione, Shao mostra che anche per un minimo di 40 osservazioni, LOOCV può sottoperformare altre tecniche di validazione incrociata.
Questo documento è alquanto controverso e in qualche modo ignorato (10 anni dopo la sua pubblicazione, i miei colleghi chemiometrici non ne avevano mai sentito parlare e stavano usando felicemente LOOCV per la selezione delle variabili ...). C'è anche una convinzione (ne sono colpevole), che i suoi risultati si estendono in qualche modo al di là dell'ambito limitato originale.
La domanda, quindi: fino a che punto si estendono questi risultati? Sono applicabili ai seguenti problemi?
- Selezione variabile per regressione logistica / GLM?
- Selezione variabile per la classificazione LDA Fisher?
- Selezione variabile usando SVM con spazio del kernel finito (o infinito)?
- Confronto di modelli in classificazione, diciamo SVM usando kernel diversi?
- Confronto di modelli in regressione lineare, diciamo paragonare MLR a regressione di cresta?
- eccetera.