L'intuizione dietro il perché il paradosso di Stein si applica solo in dimensioni


46

Esempio di Stein mostra che la probabilità stima massimo di n variabili normalmente distribuite con mezzi μ1,,μn e varianze 1 è inammissibile (sotto una funzione di perdita quadrato) sse n3 . Per una chiara dimostrazione, vedi il primo capitolo dell'Inferenza su larga scala: metodi di Bayes empirici per la stima, il test e la previsione di Bradley Effron.

xN(μ,1)Ex2μ2+n

La mia domanda è piuttosto: a quale proprietà dello spazio dimensionale (per ) manca che facilita l'esempio di Stein? Le possibili risposte potrebbero riguardare la curvatura della sfera o qualcosa di completamente diverso.n 3 R 2 nnn3R2n

In altre parole, perché l'MLE è ammissibile in ?R2


Modifica 1: in risposta a @mpiktas preoccupazione circa 1,31 seguito da 1,30:

Eμ(zμ^2)=Eμ(S(N2S)2)=Eμ((N2)2S).

μi^=(1N2S)zi
soPertanto abbiamo:
Eμ(μi^zi)=Eμ(1N2S+2zi2S2).

2i=1NEμ(μi^zi)=2N2Eμ(N(N2)S)+4Eμ((N2)S)=2NEμ2(N2)2S.

Modifica 2 : In questo documento , Stein dimostra che l'MLE è ammissibile per .N=2


4
@mpiktas Non è così inapplicabile come sembra. La situazione è simile a un'ANOVA dopo l'applicazione di una riduzione di sufficienza. Ciò suggerisce che le consuete stime ANOVA delle medie di gruppo sono inammissibili, a condizione che stiamo cercando di stimare le medie di più di 3 gruppi (che risulta essere vero). Vorrei raccomandare di esaminare le prove che l'MLE è ammissibile per e di vedere dove falliscono quando si tenta di estendere a piuttosto che guardare solo le prove che lo stimatore di Stein fa quello che sostiene di fare, il che è facile una volta in realtà hai in mente lo stimatore. N = 3N=1,2N=3
ragazzo,

2
... e so usare il Lemma di Stein. Immagino che in realtà sia un po 'meno semplice di quanto pensassi 6 minuti fa.
ragazzo,

2
Sono d'accordo. Hai qualche buona referenza per questo (a parte il documento originale). Ho trovato il documento originale di Stein eccessivamente computazionale e speravo che qualcuno avrebbe sviluppato un metodo diverso negli ultimi cinquant'anni.
Har

2
La prova che mi è stato insegnato è stata quella di Brown e Hwang del 1983 che credo abbia usato un metodo suggerito da Blyth dai primi anni '50. È piuttosto generale (più generale del risultato di Stein in quanto funziona per la famiglia esponenziale) e, credo, abbastanza diverso da Stein. Ma non è banale.
ragazzo,

2
@Har grande domanda! (+1)
suncoolsu

Risposte:


43

La dicotomia tra i casi e per l'ammissibilità dell'MLE della media di una variabile casuale normale multivariata dimensionale è certamente scioccante.d 3 dd<3d3d

C'è un altro esempio molto famoso in probabilità e statistica in cui esiste una dicotomia tra i casi e . Questa è la ricorrenza di una semplice passeggiata casuale sul reticolo . Cioè, la semplice passeggiata casuale dimensionale è ricorrente in 1 o 2 dimensioni, ma è transitoria in dimensioni . Anche l'analogo del tempo continuo (sotto forma di moto browniano) vale.d 3 Z d d d 3d<3d3Zddd3

Si scopre che i due sono strettamente correlati.

Larry Brown ha dimostrato che le due domande sono sostanzialmente equivalenti. Cioè, il miglior stimatore invariante di un -dimensionale multivariata vettore normale media è ammissibile se e solo se il dimensionale moto browniano è ricorrente.ddμ^μ^(X)=Xdd

In effetti, i suoi risultati vanno molto oltre. Per ogni stimatore sensibile (cioè Bayes generalizzato) con rischio limitato (generalizzato) , esiste una diffusione dimensionale corrispondente esplicita (!) Tale che il stimatore è ammissibile se e solo se la diffusione corrispondente è ricorrente.L2d ˜ μμ~μ~(X)L2dμ~

La media locale di questa diffusione è essenzialmente la discrepanza tra i due stimatori, vale a dire, e la covarianza della diffusione è . Da questo, è facile intuire che nel caso dell'MLE , recuperiamo il moto browniano (riscalato). 2I ~ μ = μ =Xμ~μ^2Iμ~=μ^=X

Quindi, in un certo senso, possiamo vedere la questione della ricevibilità attraverso la lente dei processi stocastici e usare proprietà ben studiate delle diffusioni per arrivare alle conclusioni desiderate.

Riferimenti

  1. L. Brown (1971). Stimatori ammissibili, diffusioni ricorrenti e problemi di valore limite insolubili . Ann. Matematica. Statistica. , vol. 42, n. 3, pagg. 855–903.
  2. RN Bhattacharya (1978). Criteri per la ricorrenza e l'esistenza di misure invarianti per le diffusioni multidimensionali . Ann. Prob. , vol. 6, n. 4, 541–553.

2
In realtà, qualcosa del genere è quello che speravo. Una connessione con un altro campo della matematica (che si tratti di geometria differenziale o processi stocastici) che dimostra che l'ammissibilità per non era solo un colpo di fortuna. Bella risposta! n=2
Har

Ispirato dalla tua risposta, ho fornito alcuni dettagli e ho anche aggiunto una spiegazione geometrica in risposta a questo problema su MO: mathoverflow.net/questions/93745/…
Henry.L

21

@cardinal ha dato un'ottima risposta (+1), ma l'intera questione rimane misteriosa a meno che non si abbia familiarità con le prove (e non lo sono). Quindi penso che la domanda rimanga su quale sia una ragione intuitiva per cui il paradosso di Stein non appare in e .R 2RR2

Trovo molto utile una prospettiva di regressione offerta in Stephen Stigler, 1990, Una prospettiva galtoniana sugli stimatori di contrazione . Considera misure indipendenti , ognuna delle quali misura alcuni sottostanti (non osservati) e campionati da . Se in qualche modo conoscessimo il , potremmo creare un diagramma a dispersione di coppie :θ i N ( θ i , 1 ) θ i ( X i , θ i )XiθiN(θi,1)θi(Xi,θi)

Paradosso di Stein: prospettiva di regressione

La linea diagonale corrisponde a zero rumore e stima perfetta; in realtà il rumore è diverso da zero e quindi i punti vengono spostati dalla linea diagonale in direzione orizzontale . Di conseguenza, può essere visto come una linea di regressione di su . Tuttavia, conosciamo e vogliamo stimare , quindi dovremmo piuttosto considerare una linea di regressione di su - che avrà una pendenza diversa, distorta orizzontalmente , come mostrato nella figura (linea tratteggiata).θ = X X θ X θ θ Xθ=Xθ=XXθXθθX

Citando dal documento dello Stigler:

Questa prospettiva galtoniana sul paradosso di Stein lo rende quasi trasparente. Gli stimatori "ordinari" sono derivati ​​dalla linea di regressione teorica di su . Quella riga sarebbe utile se il nostro obiettivo fosse predire da , ma il nostro problema è il contrario, vale a dire predire da usando la somma degli errori al quadrato come un criterio. Per quel criterio, gli stimatori lineari ottimali sono dati dalla linea di regressione dei minimi quadrati di suXθXθθXΣ(θi - θ i)2θXθ^i0=XiXθXθθX(θiθ^i)2θXe gli stimatori James-Stein ed Efron-Morris sono essi stessi stimatori di quell'ottimizzatore lineare ottimale. Gli stimatori "ordinari" sono derivati ​​dalla linea di regressione sbagliata, gli stimatori James-Stein ed Efron-Morris sono derivati ​​dalle approssimazioni alla linea di regressione corretta.

E ora arriva la parte cruciale (enfasi aggiunta):

Possiamo anche vedere perché è necessario: se o , la linea dei minimi quadrati di su deve passare attraverso i punti , e quindi per o , il due linee di regressione (di su e di su ) devono concordare su ogni .k = 1 2 θ X ( X i , θ i ) k = 1 2 X θ θ X X ik3k=12θX(Xi,θi)k=12XθθXXi

Penso che questo renda molto chiaro cosa c'è di speciale in e .k = 2k=1k=2

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.