Ottimizzazione: la radice di tutto il male nelle statistiche?


14

Ho già sentito la seguente espressione:

"L'ottimizzazione è la radice di ogni male nelle statistiche".

Ad esempio, la risposta migliore in questa discussione fa questa affermazione in riferimento al pericolo di ottimizzazione troppo aggressiva durante la selezione del modello.

La mia prima domanda è la seguente: questa citazione è attribuibile a qualcuno in particolare? (ad es. nella letteratura statistica)

Da quello che ho capito, la dichiarazione si riferisce ai rischi di overfitting. La saggezza tradizionale direbbe che una corretta validazione incrociata combatte già contro questo problema, ma sembra che ci sia molto di più in questo problema.

Gli statistici e i professionisti della ML dovrebbero essere cauti nell'ottimizzare eccessivamente i propri modelli anche se aderiscono a protocolli di validazione incrociata rigorosi (ad es. 100 CV 10 volte nidificati)? In tal caso, come facciamo a sapere quando interrompere la ricerca del modello "migliore"?


La seconda domanda è sicuramente indipendente, no?
Russellpierce,

@Glen_b Ho lasciato un riferimento in quella discussione. Ma solo per chiarire, Dikran ha già suggerito di aprire le domande di follow-up alla sua risposta in thread separati, e dubito che questa domanda dovrebbe essere affrontata in un commento.
Amelio Vazquez-Reina,

3
@ RussellS.Pierce La modifica che conteneva la domanda così com'è ora - anche se è stata fatta prima del mio commento - non era lì quando l'ho caricata e ho iniziato a ricercare la domanda originale e le possibili risposte, aveva solo quello che avrei descritto come una domanda retorica lì. La domanda così com'è ora va bene.
Glen_b

2
La questione della convalida incrociata è trattata in un'altra domanda qui: stats.stackexchange.com/questions/29354/… La convalida incrociata può aiutare a evitare un eccesso di adattamento, ma non risolve completamente il problema. Sapere quando fermarsi può essere un problema decisamente complicato e non credo che ci possa essere una soluzione generale.
Dikran Marsupial,

1
"una corretta validazione incrociata combatte già contro questo problema, ma sembra che ci sia molto di più in questo problema." Sì: il problema è ancora la varianza delle stime di convalida incrociata (combinata con una problematica di test multipli). Se trovo il tempo, scriverò una risposta per la tua domanda correlata.
cbeleites supporta Monica l'

Risposte:


14

La citazione è una parafrasi di una citazione di Donald Knuth , che egli stesso ha attribuito a Hoare. Tre estratti dalla pagina sopra:

L'ottimizzazione precoce è la radice di tutti i mali (o almeno la maggior parte di essi) nella programmazione.

L'ottimizzazione prematura è la radice di tutti i mali.

Knuth si riferisce a questo come "Hoare's Dictum" 15 anni dopo ...

Non so di essere d'accordo con la parafrasi delle statistiche *. C'è un sacco di "male" nelle statistiche che non riguardano l'ottimizzazione.

Gli statistici e i professionisti della ML dovrebbero essere sempre cauti nell'ottimizzare eccessivamente i propri modelli anche se aderiscono a protocolli di validazione incrociata rigorosi (ad es. 100 CV 10 volte nidificati)? In tal caso, come facciamo a sapere quando interrompere la ricerca del modello "migliore"?

Penso che la cosa fondamentale sia capire appieno (o nella maniera più fattibile possibile) le proprietà di quali procedure si intraprendono.

* Non presumo di commentare l'uso di Knuth, poiché c'è poco che potrei dire che non poteva giustamente affermare di capire dieci volte come me.


2
Grazie, questo è utile Penso che ci siano alcune connessioni interessanti tra ottimizzazione pre-matura in programmazione e overfitting. Mi chiedo se ci siano citazioni simili nella nostra comunità e se esiste un modo rigoroso per combattere questo nelle statistiche.
Amelio Vazquez-Reina,

5
Il mio uso della frase è stato ispirato da Knuth, sebbene la ragione sia diversa e da una prospettiva bayesiana praticamente ogni ottimizzazione è una cosa negativa e l'emarginazione è migliore.
Dikran Marsupial,

3

Un paio di modi in cui è possibile analizzare il preventivo (nelle statistiche), supponendo che l'ottimizzazione si riferisca alla selezione del modello (basata sui dati):

  • Se ti interessa la previsione, potresti stare meglio con la media del modello invece di selezionare un singolo modello.
  • Se si seleziona un modello sullo stesso set di dati utilizzato per adattarsi al modello, questo causerà il caos sui soliti strumenti / procedure di inferenza che presuppongono che tu abbia scelto il modello a priori . (Si supponga di eseguire una regressione graduale, scegliendo la dimensione del modello in base alla convalida incrociata. Per un'analisi Frequentist, i valori p normali o gli EC per il modello scelto saranno errati. Sono sicuro che ci sono problemi corrispondenti per le analisi bayesiane che coinvolgono il modello selezione.)
  • Se il set di dati è abbastanza grande rispetto alla famiglia di modelli che si considera, il sovradimensionamento potrebbe non essere nemmeno un problema e la selezione del modello potrebbe non essere necessaria. (Dici che stai per adattare una regressione lineare utilizzando un set di dati con poche variabili e molto molte osservazioni. Tutte le variabili spurie dovrebbero ottenere coefficienti stimati vicino a 0 in ogni caso, quindi forse non è necessario nemmeno fastidio la selezione di un modello più piccolo.)
  • Se il set di dati è abbastanza piccolo, potresti non disporre di dati sufficienti per adattarsi al modello "vero" o "migliore" per il problema. Cosa significa anche fare bene la selezione del modello, in quel caso? (Torna alla regressione lineare:? Se si mira a selezionare il modello "vero" con le variabili giuste, anche se non si dispone di dati sufficienti per misurare tutti adeguatamente si deve basta scegliere il modello più grande per il quale si fa dispone di dati sufficienti ?)
  • Infine, anche quando è chiaro che puoi e dovresti fare la selezione del modello, la validazione incrociata non è una panacea. Ha molte varianti e persino un proprio parametro di ottimizzazione (numero di pieghe o treno: rapporto di prova) che influisce sulle sue proprietà. Quindi non fidarti ciecamente.
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.