Perché dovremmo usare t errori invece di normali errori?


30

In questo post del blog di Andrew Gelman, c'è il seguente passaggio:

I modelli bayesiani di 50 anni fa sembrano irrimediabilmente semplici (tranne, ovviamente, per problemi semplici), e mi aspetto che i modelli bayesiani di oggi sembrino irrimediabilmente semplici, a distanza di 50 anni. (Solo per un semplice esempio: dovremmo probabilmente usare routinariamente t invece dei normali errori quasi ovunque, ma non lo facciamo ancora, per familiarità, abitudine e convenienza matematica. Questi potrebbero essere buoni motivi, nella scienza come in politica, il conservatorismo ha molti buoni argomenti a suo favore, ma penso che alla fine, quando ci sentiremo a nostro agio con modelli più complicati, ci sposteremo in quella direzione.)

Perché dovremmo "usare di routine t invece dei normali errori quasi ovunque"?

Risposte:


40

Perché, supponendo che gli errori normali siano effettivamente gli stessi del presupporre che non si verifichino grandi errori! La distribuzione normale ha code così leggere, che errori al di fuori di deviazioni standard hanno probabilità molto basse, errori al di fuori di ± 6 deviazioni standard sono effettivamente impossibili. In pratica, tale presupposto è raramente vero. Quando si analizzano set di dati piccoli e ordinati da esperimenti ben progettati, questo potrebbe non importare molto, se si esegue una buona analisi dei residui. Con dati di qualità inferiore, potrebbe importare molto di più.±3±6

Quando si usano metodi basati sulla verosimiglianza (o bayesiana), l'effetto di questa normalità (come detto sopra, in realtà questo è il presupposto "nessun grande errore"!) È di rendere l'inferenza molto poco robusta. I risultati dell'analisi sono troppo influenzati dai grandi errori! Questo deve essere così, dal momento che supponendo che "nessun errore di grandi dimensioni" imponga ai nostri metodi di interpretare gli errori di grandi dimensioni come piccoli errori, e ciò può avvenire solo spostando il parametro del valore medio per ridurre tutti gli errori. Un modo per evitarlo è utilizzare i cosiddetti "metodi robusti", vedere http://web.archive.org/web/20160611192739/http://www.stats.ox.ac.uk/pub/StatMeth/Robust .PDF

tν

t

ttttt

(*) Un riferimento che afferma questo è Venables & Ripley's MASS --- Modern Applied Statistics with S (a pagina 110 in 4a edizione).


3
νν2tνν>2

2
Ottima risposta e commento. Ma: 1. Gelman sta difendendo una procedura standard che sarà migliore di assumere errori normali. Quindi, dovremmo confrontare i semplici (errori normali) con la distribuzione T per gli errori. 2. Nella domanda correlata collegata dall'utente603, dovremmo notare che se qe abbiamo informazioni preliminari, dovremmo usarle. Bayes eccelle con le informazioni precedenti. E nell'esempio, abbiamo informazioni preliminari che non vengono utilizzate. 3. Con i controlli predittivi posteriori siamo d know that the model proposed isnabbastanza bravi.
Manoel Galdino,

1
t1

1
No, la distribuzione t è l' unica scelta perché la distribuzione t è il predittivo posteriore del modello gaussiano. Gelman non stava semplicemente scegliendo la distribuzione t a caso.
Neil G

1
Vedi: Murphy, Kevin P. "Coniugazione analisi bayesiana della distribuzione gaussiana". def 1.2σ2 (2007): 16. Deriva la distribuzione t come predittivo posteriore del modello gaussiano. Non si tratta semplicemente di un modellista che sceglie una distribuzione arbitraria dalla coda pesante.
Neil G

10

Non si tratta solo di "code più pesanti": ci sono molte distribuzioni a forma di campana e con code pesanti.

La distribuzione T è il predittivo posteriore del modello gaussiano. Se si fa un presupposto gaussiano, ma si hanno prove limitate, allora il modello risultante sta necessariamente facendo previsioni distribuite in scala non centrale. Nel limite, poiché la quantità di prove che hai va all'infinito, finisci con le previsioni gaussiane poiché il limite della distribuzione t è gaussiano.

Perché succede? Perché con una quantità finita di prove, c'è incertezza nei parametri del tuo modello. Nel caso del modello gaussiano, l'incertezza nella media aumenterebbe semplicemente la varianza (vale a dire, la previsione posteriore di un gaussiano con varianza nota è ancora gaussiana). Ma l'incertezza sulla varianza è ciò che causa le code pesanti. Se il modello è addestrato con prove illimitate, non vi è più alcuna incertezza nella varianza (o nella media) e puoi usare il tuo modello per fare previsioni gaussiane.

Questo argomento si applica per un modello gaussiano. Si applica anche a un parametro inferito le cui probabilità sono gaussiane. Dati dati finiti, l'incertezza sul parametro è distribuita t. Ovunque ci siano ipotesi normali (con media e varianza sconosciute) e dati finiti, ci sono predittivi posteriori distribuiti a t.

Esistono distribuzioni predittive posteriori simili per tutti i modelli bayesiani. Gelman sta suggerendo che dovremmo usarli. Le sue preoccupazioni sarebbero mitigate da prove sufficienti.


Puoi eseguire il backup con alcuni riferimenti?
kjetil b halvorsen,

2
@kjetilbhalvorsen: Murphy, Kevin P. "Coniugazione analisi bayesiana della distribuzione gaussiana." def 1.2σ2 (2007): 16.
Neil G

Prospettiva interessante, non l'avevo mai sentito prima. Quindi anche gli errori di distribuzione t portano anche a previsioni di distribuzione t? Questo per me questo è un argomento a favore del continuare a usare gli errori gaussiani. A meno che non vi aspettiate valori anomali condizionali , il modello di errore condizionale non deve consentirli. Ciò equivale a supporre che tutto il carattere esterno provenga da valori esteriori dei predittori. Non penso che l'assunzione sia così negativa in molti casi. E per motivi puramente estetici, non vedo perché le distribuzioni condizionali e marginali debbano coincidere
Shadowtalker,

@ssdecontrol "Gli errori di distribuzione t portano anche a previsioni di distribuzione t?" Non lo so, ma non la penso così. Per me, questa prospettiva è molto utile per una comprensione intuitiva del perché il test t funziona.
Neil G,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.