Quando smettere di affinare un modello?


15

Ho studiato le statistiche di molti libri negli ultimi 3 anni e grazie a questo sito ho imparato molto. Tuttavia una domanda fondamentale rimane ancora senza risposta per me. Potrebbe avere una risposta molto semplice o molto difficile, ma so per certo che richiede una profonda comprensione delle statistiche.

Quando si adatta un modello ai dati, che si tratti di un approccio frequentista o bayesiano, proponiamo un modello, che può consistere in una forma funzionale per probabilità, un precedente o un kernel (non parametrico), ecc. Il problema è qualsiasi modello si adatta a un campione con un certo livello di bontà. Si può sempre trovare un modello migliore o peggiore rispetto a ciò che è attualmente a portata di mano. Ad un certo punto ci fermiamo e iniziamo a trarre conclusioni, generalizziamo ai parametri della popolazione, riportiamo gli intervalli di confidenza, calcoliamo il rischio, ecc. Quindi, qualsiasi conclusione che traggiamo è sempre subordinata al modello con cui abbiamo deciso di accontentarci. Anche se stiamo usando strumenti per stimare la distanza KL prevista come AIC, MDL, ecc., Non dice nulla su dove ci troviamo su una base assoluta, ma migliora solo la nostra stima su una base relativa.

Supponiamo ora che vorremmo definire una procedura dettagliata da applicare a qualsiasi set di dati durante la creazione di modelli. Cosa dovremmo specificare come regola di arresto? Possiamo almeno limitare l'errore del modello che ci darà un punto di arresto oggettivo (questo è diverso dall'arresto dell'allenamento usando un campione di validazione, dato che fornisce anche un punto di arresto all'interno della classe del modello valutato piuttosto che scrivere il vero DGP)?


1
Penso che dovresti aggiungere altri tag alla domanda oltre alla semplice deduzione, ad esempio alcuni tag di modellazione e selezione del modello. Penso che potrebbe essere rilevante per questo è anche il rasoio di Occam . Ecco anche un articolo che ne discute sulla modellazione bayesiana.
Gumeo,

A volte costruisci un modello particolare perché è particolarmente buono per stimare determinati parametri, non perché pensi che la distribuzione complessiva sia accurata (vedi stima M, equazioni di stima generalizzate) ecc. Quindi, se ti interessa davvero una stima decente della posizione, potresti stare meglio con un modello sbagliato ma che non è facilmente gettato dal rumore (per il tuo parametro di interesse). In generale, vedere Stima robusta.

Domanda molto interessante. Solo un commento che almeno nell'ambientazione bayesiana solleva anche la questione della media sul sottoinsieme plausibile di modelli piuttosto che sceglierne uno. Non sono sicuro di alcun modo teorico per la domanda del PO e immagino praticamente che il modello scelto sia abbastanza buono per il problema che stiamo cercando di risolvere. Forse abbiamo bisogno della selezione del modello con metodi MCMC o qualcosa del genere! Posso immaginare un approccio MCMC nidificato per questo ...
Luca,

@Luca Questo è stato fatto. Tuttavia, il problema persiste poiché lo spazio dei modelli definito dal precedente bayesiano può contenere o meno il modello reale. Anche se ha fatto l'errore del modello è ancora lì, quello è l'errore del modello medio rispetto al vero DGP.
Cagdas Ozgenc,

1
+1 per la domanda. In gran parte, le preoccupazioni sono filosofiche o epistemiological, vale a dire, non solo "ciò che sappiamo e come facciamo a sapere che", ma "quello che possiamo sappiamo e come possiamo noi saperlo?" Come ha detto il fisico Richard Feynman, "È impossibile trovare una risposta che un giorno non si troverà sbagliata". In altre parole e, a meno che non siate religiosi, vi sono ragionevoli dubbi sull'esistenza di una verità univoca ed eterna su cui ancorare qualcosa. .
Mike Hunter,

Risposte:


12

Sfortunatamente, questa domanda non ha una buona risposta. Puoi scegliere il modello migliore in base al fatto che riduce al minimo l'errore assoluto, l'errore al quadrato, massimizza la probabilità, utilizzando alcuni criteri che penalizzano la probabilità (ad esempio AIC, BIC) di menzionare solo alcune delle scelte più comuni. Il problema è che nessuno di questi criteri ti permetterà di scegliere il modello oggettivamente migliore, ma piuttosto il migliore da cui hai confrontato. Un altro problema è che durante l'ottimizzazione si può sempre finire in un massimo / minimo locale. Ancora un altro problema è che la scelta dei criteri per la selezione del modello è soggettiva . In molti casi, consciamente o semi-coscientemente, prendi una decisione su ciò che ti interessa e scegli i criteri in base a questo. Per esempio, l'uso di BIC piuttosto che AIC porta a modelli più parsimoniosi, con meno parametri. Di solito, per la modellazione sei interessato a modelli più parsimoniosi che portano ad alcune conclusioni generali sull'universo, mentre per prevedere non deve essere così e talvolta il modello più complicato può avere un migliore potere predittivo (ma non è necessario e spesso non è così). In altri casi, a volte sono preferiti modelli più complicati per motivi pratici , ad esempio durante la stima del modello bayesiano con MCMC, il modello con hyperpriors gerarchici può comportarsi meglio nella simulazione rispetto a quello più semplice. D'altra parte, generalmente abbiamo paura di un eccesso di equipaggiamentoe il modello più semplice ha il minor rischio di overfitting, quindi è una scelta più sicura. Un bell'esempio per questo è una selezione automatica del modello graduale che generalmente non è raccomandata perché porta facilmente a stime sovradimensionate e distorte. C'è anche una discussione filosofica, il rasoio di Occam , secondo cui il modello più semplice è quello preferito. Si noti inoltre che stiamo discutendo qui di confrontare diversi modelli, mentre nelle situazioni della vita reale può anche essere che l'uso di diversi strumenti statistici possa portare a risultati diversi - quindi c'è un ulteriore livello di scelta del metodo!

Tutto ciò porta a un fatto triste, ma divertente, che non possiamo mai essere sicuri. Iniziamo con l'incertezza, usiamo metodi per affrontarla e finiamo con incertezza. Questo può essere paradossale, ma ricordiamo che usiamo le statistiche perché crediamo che il mondo sia incerto e probabilistico (altrimenti sceglieremmo una carriera di profeti), quindi come potremmo finire con conclusioni diverse? Non esiste una regola di arresto oggettivo, ci sono più modelli possibili, tutti sono sbagliati (scusate il cliché!) Perché cercano di semplificare la realtà complicata (in continua evoluzione e probabilistica). Troviamo alcuni di loro più utili di altri per i nostri scopi e talvolta lo facciamoθμ

Puoi andare ancora più in profondità e scoprire che non esiste una cosa come "probabilità" nella realtà - è solo una certa approssimazione dell'incertezza intorno a noi e ci sono anche modi alternativi di approssimarla come ad esempio la logica fuzzy (vedi Kosko, 1993 per la discussione). Anche gli strumenti e i teoremi di base su cui sono basati i nostri metodi sono approssimazioni e non sono i soli possibili. Semplicemente non possiamo essere certi in una tale configurazione.

La regola di arresto che stai cercando è sempre specifica del problema e soggettiva, cioè basata sul cosiddetto giudizio professionale. A proposito, ci sono molti esempi di ricerca che hanno dimostrato che i professionisti spesso non sono migliori e talvolta anche peggiori nel loro giudizio rispetto ai laici (ad esempio rianimati in documenti e libri da Daniel Kahneman ), pur essendo più inclini alla fiducia eccessiva (questo è in realtà un argomento sul perché dovremmo non cercare di essere "sicuri" sui nostri modelli).


Kosko, B. (1993). Fuzzy thinking: la nuova scienza della logica fuzzy. New York: Hyperion.


1
μ

1
L'affermazione è vera quando le sue ipotesi sono soddisfatte (ad esempio, ci viene dato un campione fisso, che è vero nella pratica). Estratto dal contesto e con violazioni delle ipotesi, può ovviamente essere reso falso.
Richard Hardy,

1
@CagdasOzgenc è qualcuno che ha una metodologia per creare un modello che rifletta perfettamente la realtà, quindi non è necessario interrompere la regola o misurare l'errore del modello: il modello è perfetto per definizione. Se si conoscono le regole per la creazione di tale modello, non è necessario misurare la divergenza del proprio modello dal vero DGP, poiché conoscere il vero DGP utilizza solo tale conoscenza. D'altra parte, se il tuo modello è una semplificazione basata sui dati che hai, allora si applicano le regole generali delle statistiche, come descritto nella mia risposta.
Tim

1
@CagdasOzgenc ancora, se conosci la "verità", allora la regola di arresto è semplice: fermati quando il tuo modello si adatta alla "verità". Se non sai qual è la verità, allora "tutti i modelli sono [ugualmente] sbagliati ..." e devi usare le statistiche. Se non lo sai, non puoi misurarne la divergenza.
Tim

1
@Luca Significa molto , ma è astratto.
Tim

4

C'è un intero campo chiamato statistica non parametrica che evita l'uso di modelli forti. Tuttavia, la tua preoccupazione per i modelli di adattamento, di per sé, è valida. Sfortunatamente non esiste una procedura meccanica per montare modelli che sarebbero universalmente accettati come "ottimali". Ad esempio, se si desidera definire il modello che massimizza la probabilità dei dati, si verrà condotti alla funzione di distribuzione empirica.

Tuttavia, di solito abbiamo alcuni presupposti e vincoli di fondo, come continui con primi e secondi momenti finiti. Per casi come questi, un approccio è scegliere una misura come Shannon Differential Entropy e massimizzarla nello spazio di distribuzioni continue che soddisfino i tuoi vincoli di confine.

Quello che vorrei sottolineare è che se non si desidera solo impostare automaticamente l'ECDF, è necessario aggiungere ipotesi, oltre i dati, per arrivarci, e ciò richiede competenze in materia e, sì , il temuto ..... giudizio professionale

Quindi, c'è un punto di arresto garantito per la modellazione ... la risposta è no. C'è un posto abbastanza buono dove fermarsi? Generalmente sì, ma quel punto dipenderà da qualcosa di più dei semplici dati e di alcuni desideri statistici, di solito prenderai in considerazione i rischi di diversi errori, i limiti tecnici per l'implementazione dei modelli e la solidità delle sue stime, eccetera.

Come ha sottolineato @Luca, puoi sempre fare la media su una classe di modelli, ma, come hai giustamente sottolineato, ciò spingerà la domanda al livello successivo di iperparametri. Sfortunatamente, sembriamo vivere in una cipolla a strati infiniti ... in entrambe le direzioni!

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.