Giustificazione empirica dell'unica regola di errore standard quando si utilizza la convalida incrociata


39

Esistono studi empirici che giustificano l'uso dell'unica regola di errore standard a favore della parsimonia? Ovviamente dipende dal processo di generazione dei dati, ma tutto ciò che analizza un ampio corpus di set di dati sarebbe una lettura molto interessante.


La "regola dell'errore standard" viene applicata quando si selezionano i modelli mediante convalida incrociata (o più in generale mediante qualsiasi procedura basata sulla randomizzazione).

Supponiamo di considerare i modelli indicizzati da un parametro di complessità τ R , in modo tale che M τ sia "più complesso" di M τ esattamente quando τ > τ . Supponiamo inoltre che valutiamo la qualità di un modello M mediante un processo di randomizzazione, ad esempio la convalida incrociata. Lasciate che q ( M ) denoti la qualità "media" di M , ad es. L'errore di previsione out-of-bag medio in molte serie di convalide incrociate. Desideriamo ridurre al minimo questa quantità.MττRMτMτ'τ>τ'Mq(M)M

Tuttavia, poiché la nostra misura di qualità deriva da una procedura di randomizzazione, viene fornita con la variabilità. Let indicano l'errore standard della qualità della M attraverso le piste di randomizzazione, ad esempio, la deviazione standard dell'errore di predizione out-of-bag di M su piste di cross-validazione.S(M)MM

Quindi scegliamo il modello , dove τ è il più piccolo τ tale cheMτττ

q(Mτ)q(Mτ)+s(Mτ),

dove indicizza il modello (in media) migliore, q ( M τ ) = min τ q ( M τ ) .τq(Mτ)=minτq(Mτ)

Cioè, scegliamo il modello più semplice (il più piccolo ) che non è più di un errore standard peggiore del miglior modello M τ nella procedura di randomizzazione.τMτ

Ho trovato questa "una regola di errore standard" a cui si fa riferimento nei seguenti luoghi, ma mai con alcuna giustificazione esplicita:


7
Anche se so a cosa ti riferisci con "Una regola di errore standard", sospetto fortemente che molte persone non lo faranno, ma se lo facessero sarebbero interessati a questa domanda. Forse potresti modificare per aggiungere un paio di frasi esplicative? (Solo un suggerimento ...)
jbowman il

2
@jbowman: ho appena modificato la domanda per spiegare l'unica regola di errore standard, scontrandomi dal momento che sono anche piuttosto interessato a questo ... e la risposta di seguito non risponde davvero alle mie domande. Chiunque, non esitate a migliorare.
S. Kolassa - Ripristina Monica il


2
Sarebbe un bel argomento per un articolo. Sembra una ragionevole euristica ingegneristica, ma non tutti i SEH funzionano nella pratica, quindi uno studio su un gran numero di set di dati sarebbe interessante. Mi chiedo se sia coinvolto un problema di verifica delle ipotesi multiple che potrebbe significare che non è molto ben calibrato, ma avrei pensato che sarebbe meglio che non fare nulla sui set di dati in cui questo tipo di over-tuning è probabilmente un problema. La domanda è: peggiora le prestazioni dei set di dati in cui non è un problema?
Dikran Marsupial,

Risposte:


12

Quello che segue non è uno studio empirico , motivo per cui inizialmente volevo pubblicarlo come un commento, non come una risposta - ma in realtà risulta essere troppo lungo per un commento.

Cawley & Talbot ( J of Machine Learning Research , 2010) attirano l'attenzione sulla differenza tra il sovradimensionamento durante la fase di selezione del modello e il sovradimensionamento durante la fase di adattamento del modello.

Il secondo tipo di overfitting è quello a cui la maggior parte delle persone ha familiarità: dato un modello particolare, non vogliamo usarlo eccessivamente, cioè adattarlo troppo da vicino alle particolari idiosincrasie del singolo set di dati che di solito abbiamo. ( È qui che il restringimento / la regolarizzazione può aiutare, scambiando un piccolo aumento di bias contro una grande diminuzione della varianza. )

Tuttavia, Cawley e Talbot sostengono che possiamo adattarci allo stesso modo anche durante la fase di selezione del modello. Dopotutto, in genere abbiamo ancora un solo set di dati e stiamo decidendo tra diversi modelli di varia complessità. La valutazione di ciascun modello candidato al fine di selezionarne uno di solito comporta l' adattamento di quel modello, che può essere fatto utilizzando la regolarizzazione o meno. Ma questa valutazione in sé è di nuovo una variabile casuale, perché dipende dal set di dati specifico che abbiamo. Quindi la nostra scelta di un modello "ottimale" può di per sé mostrare una propensione e mostrerà una varianza, in quanto dipende dal set di dati specifici da tutti i set di dati che avremmo potuto attingere dalla popolazione.

Cawley & Talbot sostengono quindi che la semplice scelta del modello che si comporta meglio in questa valutazione potrebbe essere una regola di selezione con un piccolo pregiudizio, ma può presentare una grande varianza. Cioè, dati diversi set di dati di training dallo stesso processo di generazione dei dati (DGP), questa regola può selezionare modelli molto diversi, che verrebbero quindi adattati e utilizzati per prevedere in nuovi set di dati che seguono di nuovo lo stesso DGP. Alla luce di ciò, limitare la varianza della procedura di selezione del modello ma incorrere in una leggera propensione verso modelli più semplici può produrre piccoli errori fuori campione.

Cawley e Talbot non lo collegano esplicitamente all'unica regola di errore standard e la loro sezione sulla "regolarizzazione della selezione del modello" è molto breve. Tuttavia, l'unica regola di errore standard eseguirà esattamente questa regolarizzazione e prenderebbe in considerazione la relazione tra la varianza nella selezione del modello e la varianza dell'errore di convalida incrociata out-of-bag.

Ad esempio, di seguito è riportata la Figura 2.3 di Statistical Learning with Sparsity di Hastie, Tibshirani & Wainwright (2015) . La varianza nella selezione del modello è data dalla convessità della linea nera al minimo. Qui, il minimo non è molto pronunciato e la linea è piuttosto leggermente convessa, quindi la selezione del modello è probabilmente piuttosto incerta con una varianza elevata. E la varianza della stima dell'errore CV OOB è ovviamente data dalle molteplici linee blu che indicano errori standard.

una regola di errore standard


1
Haha, prova questa ricerca (o inserisci un trattino nella tua query).
ameba dice di reintegrare Monica il

2
Se hai solo un parametro di regolarizzazione, quel tipo di sovra-adattamento tende a non essere troppo problematico (poiché il problema di ottimizzazione ha solo un grado di libertà), ma se hai molti parametri di regolarizzazione (ad esempio determinazione automatica della pertinenza per le reti neurali) allora può rapidamente diventare molto sostanziale. Il metodo one sd è una buona euristica per evitare l'ottimizzazione eccessiva del parametro di regolarizzazione, ma sarebbe bello provare ad avere qualcosa con un po 'più di giustificazione (1/2)
Dikran Marsupial

1
I due approcci che abbiamo esaminato (l'onorevole Marsupial e io) è di regolarizzare gli iperparametri con un iperiperparametro integrato analiticamente ( jmlr.csail.mit.edu/papers/volume8/cawley07a/cawley07a.pdf ) o per convertire alcuni degli iperparametri in parametri e adattarli anche direttamente ai dati, a scapito dell'aggiunta di un ulteriore parametro di regolarizzazione (ma ciò riduce ancora i gradi di libertà per la selezione del modello, quindi aiuta ancora) ( theoval.cmp.uea.ac.uk/publications/pdf/nn2014a.pdf ) (2/2)
Dikran Marsupial

1
λ

1
Un argomento sull'argomento optimizing-lambda-vs-marginalizing-over-lambda menzionato da @DikranMarsupial è stats.stackexchange.com/questions/24799 . Quella discussione riguarda la regressione della cresta, e l'emarginazione è probabilmente (?) Più complicata per il lazo / rete elastica / ecc., Mentre la bellezza del CV è che è così facile da implementare.
ameba dice di reintegrare Monica il

12

Per una giustificazione empirica, dai un'occhiata a pagina 12 su queste note sul corso di data mining di Tibshirani , che mostrano l'errore CV in funzione di lambda per un particolare problema di modellazione. Il suggerimento sembra essere che, al di sotto di un certo valore, tutte le lambda diano circa lo stesso errore CV. Ciò ha senso perché, a differenza della regressione della cresta, LASSO non viene in genere utilizzato solo, o anche principalmente, per migliorare l'accuratezza della previsione. Il suo principale punto di forza è che rende i modelli più semplici e interpretabili eliminando i predittori meno rilevanti / preziosi.

λL1


1
Non capisco la logica di questa risposta. Ad esempio: "a differenza della regressione della cresta, LASSO non è un meccanismo per migliorare la precisione della previsione" - perché? Perché L1 è così diverso da L2? Nella frase successiva descrivi cosa succede con L1 per i lambda bassi, ma penso che le stesse cose accadano con L2 per i lambda bassi.
ameba dice di reintegrare Monica il

1
Si noti che questa è una spiegazione euristica e si basa su alcuni presupposti non dichiarati, come tutti i predittori sono informativi. Se hai un sacco di predittori di rumore e alcuni di quelli informativi, potrebbe davvero esserci un valore di lambda che ottimizza in modo chiaro e marcato la metrica CV: quella che corrisponde alla selezione del sottoinsieme di predittori informativi. Mentre lambda diminuisce al di sotto di quel valore, stai solo facendo entrare il rumore e ferendo il modello.
Paul,

1
Penso che l'argomento funzioni ugualmente bene per la cresta e il lazo, se usi un'ampia definizione di parsimonia in cui una maggiore regolarizzazione -> modello più semplice. Tuttavia, è più facile motivare per L1 che per L2 a causa dei diversi tipi di problemi e set di dati su cui vengono utilizzati. Le persone che usano L1 sono più interessate ad avere un modello semplice e hanno maggiori probabilità di incontrare il tipo di curva di errore CV mostrata da Tibshirani.
Paolo

1
Dal classico testo ESL , p. 224: "Spesso viene utilizzata una regola di" errore standard "con la convalida incrociata, in cui scegliamo il modello più parsimonioso il cui errore non è più di un errore standard sopra l'errore del modello migliore." L'esempio fornito è la regressione del sottoinsieme e viene mostrata una curva a forma di ginocchio rispetto al numero di predittori. La curva è piatta sopra il numero corretto di predittori, che è di nuovo coerente con la spiegazione che ho dato sopra. Non viene menzionata alcuna giustificazione rigorosa o matematica.
Paul,

1
Quindi penso che il problema principale qui sia che il minimo è scarsamente determinato, ma il modello più regolarizzato all'interno di un sigma del minimo è ben definito.
Paul,

1

Il numero di variabili selezionate dallo stimatore Lazo è deciso da un valore di penalità λ. Il più grande èλ, più piccolo è l'insieme delle variabili selezionate. Permettere S^(λ) essere l'insieme delle variabili selezionate usando come penalità λ.

Permettere λessere la penalità selezionata utilizzando il minimo della funzione di convalida incrociata. Lo si può dimostrareP(S0S^(λ))1. DoveS0 è l'insieme delle variabili che non sono realmente 0. (L'insieme della variabile vera è contenuto rigorosamente nell'insieme stimato usando come penalità il minimo della convalida incrociata.)

Questo dovrebbe essere riportato in Statistica per dati ad alta dimensione da Bühlmann e van de Geer.

Il valore della penalità λè spesso scelto attraverso la validazione incrociata; questo significa che con alta probabilità vengono selezionate troppe variabili. Per ridurre il numero di variabili selezionate, la penalità viene aumentata leggermente utilizzando la regola dell'errore standard.


1
Puoi approfondire un po 'di più qui? Questo sembra affascinante.
DavidShor,

1
questo significa che con alta probabilità vengono selezionate troppe variabili. - per me non è ovvio perché, e perché con alta probabilità troppo poche variabili non possono essere selezionati. Dopo tutto, la selezione convalidata per via incrociata dovrebbe fornire una stima diλche ha poca propensione ma probabilmente una varianza elevata, come osservato nella risposta di Stephen Kolassa.
Richard Hardy,

Penso che il fatto sia che la selezione di più variabili del necessario riduca le prestazioni di previsione meno della selezione di variabili non sufficienti. Per questo motivo CV tende a selezionare più variabili.
Donbeo,

dai un'occhiata a questo libro springer.com/gp/book/9783642201912 e al capitolo
Lazo

Questo è il libro che intendevo
Donbeo,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.