Quando sono applicabili i risultati di Shao sulla validazione incrociata con esclusione per singolo?


22

Nel suo articolo Linear Model Selection by Cross-Validation , Jun Shao mostra che per il problema della selezione variabile nella regressione lineare multivariata, il metodo di validazione incrociata unilaterale (LOOCV) è "asintoticamente incoerente". In parole povere, tende a selezionare modelli con troppe variabili. In uno studio di simulazione, Shao mostra che anche per un minimo di 40 osservazioni, LOOCV può sottoperformare altre tecniche di validazione incrociata.

Questo documento è alquanto controverso e in qualche modo ignorato (10 anni dopo la sua pubblicazione, i miei colleghi chemiometrici non ne avevano mai sentito parlare e stavano usando felicemente LOOCV per la selezione delle variabili ...). C'è anche una convinzione (ne sono colpevole), che i suoi risultati si estendono in qualche modo al di là dell'ambito limitato originale.

La domanda, quindi: fino a che punto si estendono questi risultati? Sono applicabili ai seguenti problemi?

  1. Selezione variabile per regressione logistica / GLM?
  2. Selezione variabile per la classificazione LDA Fisher?
  3. Selezione variabile usando SVM con spazio del kernel finito (o infinito)?
  4. Confronto di modelli in classificazione, diciamo SVM usando kernel diversi?
  5. Confronto di modelli in regressione lineare, diciamo paragonare MLR a regressione di cresta?
  6. eccetera.

Ci deve essere qualcosa nei libri di chemiometria; anche l'unico uomo che conosco che usa LOO lo sta facendo.

Risposte:


14

Devi specificare lo scopo del modello prima di poter dire se i risultati di Shao sono applicabili. Ad esempio, se lo scopo è la previsione, LOOCV ha un buon senso e l'incoerenza della selezione delle variabili non è un problema. D'altra parte, se lo scopo è identificare le variabili importanti e spiegare come influenzano la variabile di risposta, i risultati di Shao sono ovviamente importanti e LOOCV non è appropriato.

L'AIC è asintoticamente LOOCV e BIC è asintoticamente equivalente a un lasciare- -out CV dove v = n [ 1 - 1 / ( log ( n ) - 1 ) ] --- il risultato BIC solo per i modelli lineari. Quindi il BIC offre una selezione coerente del modello. Pertanto un breve riassunto del risultato di Shao è che l'AIC è utile per la previsione, ma BIC è utile per la spiegazione.vv=n[11/(log(n)1)]


1
Credo che Shao abbia dimostrato che il CV di k-fold non è coerente se viene risolto mentre n cresce. kn
Shabbychef,

1
Il BIC ha k in crescita con n.
Rob Hyndman,

1
Ricorderò solo in silenzio che la corrispondenza * IC <--> * CV dalla carta Shao funziona solo per i modelli lineari, e BIC è equivalente solo al CV k-fold con un certo k.

In realtà, credo che Shao mostri che CV è incoerente a meno che come n inf , dove n v è il numero di campioni nel set di test. Pertanto k -fold CV è sempre incoerente per la selezione delle variabili. Ho frainteso? Per k -fold CV intendo dividere il campione in k gruppi e allenarmi su k - 1 di essi, e testare su 1 di essi, quindi ripetere k volte. Quindi n v / n = 1 / k per knv/n1ninfnvkkkk1knv/n=1/kk-piegato CV, che non si avvicina mai
all'1.

3
@mbq: No - la prova AIC / LOO di Stone 1977 non assume modelli lineari. Per questo motivo, a differenza del risultato di Shao, è ampiamente citato; vedere ad esempio i capitoli di selezione dei modelli in EOSL o nel Manuale di statistica computazionale, o in realtà qualsiasi buon capitolo / documento sulla selezione dei modelli. È solo un po 'più di una pagina lunga e vale la pena leggere perché è in qualche modo pulito per il modo in cui evita di dover calcolare le informazioni / il punteggio di Fisher per ricavare il risultato.
Ars,

7

Questo documento è alquanto controverso e in qualche modo ignorato

Non proprio, è ben considerato per quanto riguarda la teoria della selezione dei modelli, sebbene sia certamente male interpretata. Il vero problema è quanto sia rilevante per la pratica della modellazione in natura. Supponiamo di eseguire le simulazioni per i casi che proponi di indagare e determinare che LOOCV è effettivamente incoerente. L'unico motivo che potresti ottenere è perché conoscevi già il modello "vero" e quindi potresti determinare che la probabilità di recuperare il modello "vero" non converge a 1. Per la modellazione in natura, quanto spesso è vero ( che i fenomeni sono descritti da modelli lineari e che il modello "vero" è un sottoinsieme di quelli considerati)?

L'articolo di Shao è certamente interessante per far avanzare il quadro teorico. Fornisce anche un po 'di chiarezza: se il modello "vero" è davvero preso in considerazione, allora abbiamo i risultati di coerenza su cui appendere i nostri cappelli. Ma non sono sicuro di quanto possano essere interessanti le simulazioni effettive per i casi che descrivi. Questo è in gran parte il motivo per cui la maggior parte dei libri come EOSL non si concentrano tanto sul risultato di Shao, ma piuttosto sull'errore di predizione / generalizzazione come criterio per la selezione del modello.

EDIT: la risposta molto breve alla tua domanda è: i risultati di Shao sono applicabili quando stai eseguendo la stima dei minimi quadrati, la funzione di perdita quadratica. Non più ampio. (Penso che ci sia stato un interessante documento di Yang (2005?) Che ha studiato se si potesse avere coerenza ed efficienza, con una risposta negativa.)


Non credo sia rilevante sapere il vero modello in natura. Se esiste un modello "vero", preferirei un metodo che è più probabile trovarlo.
shabbychef,

2
@shabbychef: non sono d'accordo. Ma nota: "Se esiste un modello" vero " ed è in esame .. come lo sapresti a priori?
Ars,

1
Nota anche che il mio secondo paragrafo in realtà sottolinea il punto nel tuo commento. Questa è una bella proprietà, ma non è tutto chiaro quanto sia applicabile allo stato brado; anche se è confortante in un certo senso, può essere fuorviato.
Ars,

2
@ars - nota che la "linearità" del modello "vero" non è l'unico modo per recuperare il modello "vero" da un modello lineare. Se la componente non lineare del modello "vero" può essere ben modellata dal termine rumore (ad esempio, gli effetti non lineari tendono ad annullarsi a vicenda), potremmo ragionevolmente chiamare il modello lineare "vero", credo. Ciò è simile al presupposto che il resto di una serie lineare di Taylor sia trascurabile.
Probislogic,

1
v

6



10/101


Al di là delle prove, mi chiedo se ci sono stati studi di simulazione su uno dei cinque casi che ho elencato, per esempio.
Shabbychef,

Ne vuoi fare un po '?

2
Lo voglio; Dovrò imparare molto di più R, però, per condividere qui i risultati.
Shabbychef,

1
@shabbychef: hai mai dovuto farlo? E a proposito, se stai ancora contando i chemometrici che usano o non usano il CV per la selezione delle variabili, puoi contare sul lato di coloro che si rifiutano di farlo, perché a) non ho ancora avuto dati reali impostato con un numero sufficiente di casi (campioni) per consentire anche un singolo confronto tra modelli eb) per i miei dati spettroscopici, le informazioni pertinenti vengono generalmente "spalmate" su ampie parti dello spettro, quindi preferisco la regolarizzazione che non esegue una selezione di variabili rigide.
cbeleites supporta Monica il

1

1) La risposta di @ars menziona Yang (2005), "Possono essere condivisi i punti di forza di AIC e BIC?" . A grandi linee, sembra che non si possa avere un criterio di selezione del modello per raggiungere sia la coerenza (tende a scegliere il modello corretto, se esiste davvero un modello corretto ed è tra i modelli considerati) sia l'efficienza (raggiungere la media più bassa errore quadrato in media tra i modelli che hai scelto). Se tendi a scegliere il modello giusto in media, a volte otterrai modelli leggermente troppo piccoli ... ma spesso perdendo un vero predittore, fai peggio in termini di MSE di qualcuno che include sempre alcuni predittori spuri.

Quindi, come detto prima, se ti preoccupi di fare delle buone previsioni più che di ottenere esattamente le variabili giuste, va bene continuare a usare LOOCV o AIC.

2) Ma volevo anche sottolineare altri due dei suoi articoli: Yang (2006) "Confronto dei metodi di apprendimento per la classificazione" e Yang (2007) "Coerenza della convalida incrociata per il confronto delle procedure di regressione" . Questi documenti mostrano che non è necessario che il rapporto tra i dati di addestramento e quelli di prova si riduca a 0 se si confrontano modelli che convergono a velocità inferiori rispetto a quelli lineari.

Quindi, per rispondere alle domande originali 1-6 più direttamente: i risultati di Shao si applicano quando si confrontano modelli lineari tra loro. Che si tratti di regressione o classificazione, se si stanno confrontando modelli non parametrici che convergono a un ritmo più lento (o anche confrontando un modello lineare con un modello non parametrico), è possibile utilizzare la maggior parte dei dati per l'addestramento e avere ancora CV coerenti con la selezione del modello. .. ma comunque, Yang suggerisce che LOOCV è troppo estremo.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.