Vista unificata sulla contrazione: qual è la relazione (se presente) tra il paradosso di Stein, la regressione della cresta e gli effetti casuali nei modelli misti?


65

Considera i seguenti tre fenomeni.

  1. Paradosso di Stein: dati alcuni dalla distribuzione normale multivariata in , la media campionaria non è un ottimo stimatore della media vera. Si può ottenere una stima con errore quadratico medio inferiore se si riducono tutte le coordinate della media campionaria verso zero [o verso la loro media, o effettivamente verso qualsiasi valore, se capisco correttamente].Rn,n3

    NB: di solito il paradosso di Stein è formulato prendendo in considerazione un solo punto dati da ; per favore correggimi se questo è cruciale e la mia formulazione sopra non è corretta.Rn

  2. Regressione della cresta: date alcune variabili dipendenti e alcune variabili indipendenti , la regressione standard tende sovrautilizzare i dati e portare a scarse prestazioni fuori campione. Spesso si può ridurre il sovradimensionamento riducendo allo zero: .yXβ=(XX)1Xyββ=(XX+λI)1Xy

  3. Effetti casuali in modelli multilivello / misti: data una variabile dipendente (ad es. L'altezza dello studente) che dipende da alcuni predittori categorici (ad es. ID scuola e genere dello studente), si consiglia spesso di considerare alcuni predittori come "casuali", cioè supporre l'altezza media dello studente in ogni scuola deriva da una distribuzione normale sottostante. Ciò si traduce in una riduzione delle stime dell'altezza media per scuola verso la media globale.y

Ho la sensazione che tutti questi siano vari aspetti dello stesso fenomeno del "restringimento", ma non ne sono sicuro e certamente privo di una buona intuizione al riguardo. Quindi la mia domanda principale è: c'è davvero una profonda somiglianza tra queste tre cose o è solo una parvenza superficiale? Qual è il tema comune qui? Qual è l'intuizione corretta al riguardo?

Inoltre, ecco alcuni pezzi di questo puzzle che non si adattano perfettamente a me:

  • Nella regressione della cresta, non viene ridotto in modo uniforme; il restringimento della cresta è in realtà correlato alla decomposizione del valore singolare di , con le direzioni a bassa varianza che si restringono di più (vedere ad esempio The Elements of Statistical Learning 3.4.1). Ma lo stimatore di James-Stein prende semplicemente la media del campione e la moltiplica per un fattore di scala. Come si adatta insieme?βX

    Aggiornamento: vedere James-Stein Estimator con varianze disuguali e, ad esempio, qui per quanto riguarda le varianze dei coefficienti .β

  • La media del campione è ottimale nelle dimensioni inferiori a 3. Significa che quando ci sono solo uno o due predittori nel modello di regressione, la regressione della cresta sarà sempre peggiore dei minimi quadrati ordinari? In realtà, vieni a pensarci bene, non riesco a immaginare una situazione in 1D (cioè una regressione semplice e non multipla) in cui il restringimento della cresta sarebbe utile ...

    Aggiornamento: No. Vedi esattamente in quali condizioni la regressione della cresta è in grado di fornire un miglioramento rispetto alla normale regressione dei minimi quadrati?

  • D'altra parte, la media del campione è sempre non ottimale in dimensioni superiori a 3. Significa che con più di 3 predittori la regressione della cresta è sempre migliore di OLS, anche se tutti i predittori non sono correlati (ortogonali)? Di solito la regressione della cresta è motivata dalla multicollinearità e dalla necessità di "stabilizzare" il termine .(XX)1

    Aggiornamento: Sì! Vedi la stessa discussione sopra.

  • Ci sono spesso discussioni accese sul fatto che vari fattori in ANOVA debbano essere inclusi come effetti fissi o casuali. Non dovremmo, secondo la stessa logica, considerare sempre un fattore come casuale se ha più di due livelli (o se ci sono più di due fattori? Ora sono confuso)?

    Aggiornamento :?


Aggiornamento: ho ottenuto delle risposte eccellenti, ma nessuna fornisce un quadro abbastanza ampio, quindi lascerò la domanda "aperta". Posso promettere di assegnare una taglia di almeno 100 punti a una nuova risposta che supererà quelle esistenti. Sono principalmente alla ricerca di una visione unificante che possa spiegare come il fenomeno generale del restringimento si manifesti in questi vari contesti e sottolineare le principali differenze tra loro.


La mia comprensione è che la regressione della cresta (e i suoi cugini come il Lazo e la rete elastica) riducono i coefficienti per le variabili correlate condivise da tutte le osservazioni nella regressione (ad esempio, lo stato socioeconomico dello studente e GPA) mentre un modello a effetti casuali esegue il restringimento sui coefficienti per livelli o gruppi reciprocamente esclusivi di osservazioni correlate (come lo stato socioeconomico dello studente dello studente raggruppato per ID scuola).
RobertF,

3
Penso che il posto migliore per ottenere una risposta unificante sia guardare la parola chiave BLUP (per il miglior predittore lineare parziale) esp. nella letteratura sull'allevamento degli animali. Vedi ad esempio il sondaggio di Robinson in Statistical Science. O il libro di
Xi'an,

2
@ Xi'an: Grazie mille, ho già trovato il libro di Gruber da solo, e anche se sicuramente discute molto sia della James-Stein sia della regressione della cresta, non ho trovato immediatamente alcun confronto diretto tra i due (leggere l'intero libro è non è un'opzione per me in questo momento ...). Grazie per il link al sondaggio di Robinson, darò un'occhiata; allevamento di animali ! chi l'avrebbe mai detto. A proposito, ho visto i tuoi commenti sui thread correlati e suppongo che potresti essere una delle persone che potrebbero effettivamente fornire una risposta soddisfacente qui! Questo sarebbe fantastico; finora nessuna risposta mi rende contento.
ameba dice di reintegrare Monica il

2
@ Xi'an: Beh, i tuoi utili commenti qui sotto mi fanno perdere una risposta da te qui. Ad ogni modo, ho iniziato a leggere Robinson e mi sono reso conto che "Best Predictor lineare lineare" è uno stimatore parziale (ovviamente, poiché implementa il restringimento)! Che bella terminologia.
ameba dice di reintegrare Monica il

4
Sono bravi nei nomi degli allevamenti di animali: dopo che Casella & George 1992 "Gibbs for kids" ha dovuto cambiare il suo titolo per essere pubblicato, Wang & Gianola hanno scritto un'introduzione "Gibbs for pigs" nel 1993 in una riunione dell'Associazione europea per la produzione animale!
Xi'an,

Risposte:


30

Collegamento tra lo stimatore di James-Stein e la regressione della cresta

Sia un vettore di osservazione di di lunghezza , , lo stimatore di James-Stein è In termini di regressione della cresta, possiamo stimare via dove la soluzione è È facile vedere che i due stimatori sono nella stessa forma, ma dobbiamo stimareyθmyN(θ,σ2I)

θ^JS=(1(m2)σ2y2)y.
θminθyθ2+λθ2,
θ^ridge=11+λy.
σ2 nello stimatore di James-Stein e determina nella regressione della cresta tramite validazione incrociata.λ

Collegamento tra stimatore di James-Stein e modelli di effetti casuali

Parliamo prima dei modelli di effetti misti / casuali in genetica. Il modello è Se non ci sono effetti fissi e , il modello diventa che equivale all'impostazione dello stimatore James-Stein, con alcuni Idea bayesiana.

y=Xβ+Zθ+e,θN(0,σθ2I),eN(0,σ2I).
Z=I
y=θ+e,θN(0,σθ2I),eN(0,σ2I),

Connessione tra modelli di effetti casuali e regressione della cresta

Se ci concentriamo sui modelli di effetti casuali sopra, La stima equivale a risolvere il problema quando . La prova può essere trovata nel capitolo 3 di Riconoscimento dei modelli e apprendimento automatico .

y=Zθ+e,θN(0,σθ2I),eN(0,σ2I).
minθyZθ2+λθ2
λ=σ2/σθ2

Collegamento tra modelli di effetti casuali (multilivello) e quello in genetica

Nel modello di effetti casuali sopra, la dimensione di è e quella di è . Se vettorializziamo come e ripetiamo conseguenza, allora abbiamo la struttura gerarchica / cluster, i cluster e ognuno con unità. Se regrediamo su ripetuti , allora possiamo ottenere l'effetto casuale di su per ciascun cluster, sebbene sia un po 'come una regressione inversa.ym×1,Zm×pZ(mp)×1,ypmvec(Z)yZy


Riconoscimento : i primi tre punti sono in gran parte appresi da questi due articoli cinesi, 1 , 2 .


(+1) Grazie mille! Questo è molto utile e guarderò sicuramente nel libro di testo di Bishop che conosco bene e che spesso consulto. Non mi aspettavo di trovare nulla su modelli misti lì, ma sembra che la Sezione 3.3 "Regressione lineare bayesiana" riguardi proprio questo, usa solo una terminologia diversa. Molto bene a sapersi! Ma cosa ne pensi delle mie domande sul proiettile?
ameba dice Ripristina Monica il

Hai troppe domande in un post. :) 1) Come ho risposto sopra, lo stimatore di James-Stein e la regressione della cresta sono equivalenti quando non ci sono covariate o solo una matrice di identità. 2,3,4) come menzionato @James, il numero di predittori ( sopra) non è necessariamente uguale alla dimensione di risposta . Xpm
Randel,

A proposito, non riesco a vedere la media / media del campione utilizzata nello stimatore James-Stein, in realtà prende lo stimatore e poi lo riduce a . y0
Randel,

2
Lo stimatore JS e la regressione della cresta sono distinti. Una stima cresta regressione della posizione dimensionale di un p-vector corrisponde alla matrice disegno , che porterebbe alla stima , che manca del termine (non lineare!) nel denominatore dello stimatore JSpIp(1+λ)1Ipyy2
Andrew M,

3
Penso che tutto dipenda da ciò che chiamate stimatore di cresta. Nel primo senso di Hoerl e Kennard (1970), in effetti non c'è dipendenza di dai dati. Nel senso successivo della tesi di dottorato di Casella (1978), la determinazione manuale di è sostituita da una funzione della somma residua di quadrati. λλ
Xi'an,

6

Lascio che sia un esercizio per la comunità dare corpo a questa risposta, ma in generale il motivo per cui gli stimatori del restringimento * domineranno * stimatori imparziali in campioni finiti è perché Bayes stimatori non possono essere dominati , e molti stimatori di contrazione possono essere derivati ​​come Bayes. 1234

Tutto ciò rientra nell'egida della teoria delle decisioni. Un riferimento esauriente, ma piuttosto ostile, è "Teoria della stima puntuale" di Lehmann e Casella. Forse altri possono entrare con riferimenti più amichevoli?


1 Uno stimatore del parametro sui dati è dominato da un altro stimatore se per ogni il rischio (ad es. Errore quadratico medio) di è uguale o maggiore di e batte per almeno un . In altre parole, ottieni prestazioni uguali o migliori per ovunque nello spazio dei parametri.δ1(X)θΩXδ2(X)θΩδ1δ2δ2δ1θδ2

2 Uno stimatore è Bayes (comunque sotto perdita di errore al quadrato) se è l'aspettativa posteriore di , dati i dati, sotto alcuni precedenti , ad esempio, , dove l'attesa è presa con il posteriore. Naturalmente, diversi priori comportano rischi diversi per diversi sottogruppi di . Un esempio importante giocattolo è la prima che mette tutti prima massa attorno al punto . Quindi puoi mostrare che lo stimatore di Bayes è la funzione costanteθπδ(X)=E(θ|X)Ω

πθ0={1if θ=θ00θθ0
θ0δ(X)=θ0, che ovviamente ha prestazioni estremamente buone in e vicino a , e prestazioni pessime altrove. Tuttavia, non può essere dominato, poiché solo quello stimatore porta a zero rischi a .θ0θ0

3 Una domanda naturale è se uno stimatore che non può essere dominato (chiamato ammissibile , anche se l'indomabile non sarebbe sneakerer) deve essere Bayes? La risposta è quasi Vedi "teoremi di classe completi".

4 Per esempio, la regressione crinale si pone come una procedura bayesiana quando si effettua una normale (0, ) precedenti il , e casuali modelli di effetto nascono come una procedura bayesiana empirica in un contesto simile . Questi argomenti sono complicati dal fatto che la versione vaniglia dei teoremi di ammissibilità bayesiana presume che ogni parametro abbia un precedente adeguato posto su di esso. Anche nella regressione della cresta, questo non è vero, perché il "precedente" è posto sulla varianza1/λ2βσ2del termine di errore è la funzione costante (misura di Lebesgue), che non è una distribuzione di probabilità (integrabile) corretta. Tuttavia, molti di questi stimatori "parzialmente" di Bayes possono essere considerati ammissibili dimostrando che sono il "limite" di una sequenza di stimatori che sono Bayes propri. Ma le prove qui diventano piuttosto contorte e delicate. Vedi "stimatori generalizzati di bayes".


1
Grazie mille, molto interessante (+1). Vorrei solo che la tua risposta fosse più dettagliata ... Riguardo alla tua nota (3): stai dicendo che tutti gli stimatori di Bayes sono ammissibili / indomabili (mi piace la parola), indipendentemente dal precedente? Ma lo stimatore di James-Stein può essere derivato da Bayes empirico; perché è inammissibile allora? Inoltre, significherebbe che, ad esempio, nella regressione della cresta posso prendere un precedente concentrato non attorno allo zero, ma attorno ad un altro valore: , e sarà comunque una ragionevole strategia di regolarizzazione? βN(β0,1/λ2)
ameba dice di reintegrare Monica il

2
Per il motivo per cui lo stimatore James-Stein è inammissibile, puoi trovare la risposta qui . C'è anche una discussione dettagliata e interessante in Lehmann & Casella (1998), Theory of Point Estimation .
Randel,

@Randel: sì, lo so che è inammissibile e ho visto quel ragionamento, mi chiedo solo come si adatta alla dichiarazione di Andrew (dato che l'ho capito bene) che tutti gli stimatori di Bayes sono ammissibili, dal momento che James-Stein può essere compreso tramite Empirical Bayes ...
Ameba dice Reinstate Monica il

2
@Amoeba: sì, qualsiasi stimatore di Bayes che è il posteriore sotto qualsiasi precedente appropriato porta a uno stimatore ammissibile. Per quanto riguarda Bayes empirico, tali procedure non sono in realtà Bayes autentiche, perché avere il precedente dipende dai dati può portare a patologie. A volte può essere dimostrato che sono ammissibili, a volte non lo sono - in genere devi lavorare caso per caso. Ho modificato la mia risposta per essere un po 'più cauto su questo punto, perché in realtà non so se i modelli misti lineari classici sono ammissibili!
Andrew M,

3
Devo solo sottolineare che i veri stimatori di Bayes funzionano raramente come stimatori di James-Stein perché non sono minimix. Bill Strawderman ha mostrato, ad esempio (nel 1975), che non esiste uno stimatore Bayes minimo minimax di dimensioni inferiori a 5 per il normale problema medio normale che ha impostato tutto.
Xi'an,

2
  • James-Stein assume che la dimensione della risposta sia almeno 3. Nella regressione della cresta standard la risposta è monodimensionale. Stai confondendo il numero di predittori con la dimensione della risposta.

  • Detto questo, vedo la somiglianza tra queste situazioni, ma cosa fare esattamente, ad esempio se un fattore deve essere fisso o casuale, quanta contrazione applicare, se non del tutto, dipende dal particolare set di dati. Ad esempio, più i predittori sono ortogonali, meno ha senso selezionare la regressione di Ridge rispetto alla regressione standard. Maggiore è il numero di parametri, più ha senso estrarre il precedente dal set di dati stesso tramite Empirical Bayes e quindi utilizzarlo per ridurre le stime dei parametri. Maggiore è il rapporto segnale-rumore, minori saranno i benefici del restringimento, ecc.


Grazie per la risposta. Per quanto riguarda il tuo primo proiettile: ma ciò che viene ridotto nella regressione della cresta è , che ha tutte le dimensioni dei predittori, non è vero? β
ameba dice che ripristini Monica il

1
Ok, allora in teoria JS dovrebbe funzionare meglio, supponendo che sia stato esteso al caso in cui MSE è stimato e la matrice di varianza-covarianza della beta è arbitraria. In tal caso, JS non prenderà semplicemente la stima puntuale della beta e la moltiplicherà per un fattore di ridimensionamento. Analogamente alla regressione della cresta, i diversi componenti della beta verranno ridotti in modo diverso.
James,

Ottimo punto sulla matrice di covarianza di ! Immagino che questo risponda (almeno intuitivamente) al mio primo proiettile. β
ameba dice che ripristini Monica il

2
@James: si può pensare a modelli lineari di proiettare il campione (che vive in ) su un sottospazio -dimensionale (le colonne distanziate dalla matrice del design.) In particolare, potremmo sempre proiettarlo banalmente sull'identità, che è lo stesso che usare la media campionaria di un -vector quando hai una sola osservazione. Rnpn
Andrew M,

2

Come altri hanno già detto, la connessione tra i tre è il modo in cui si incorporano le informazioni precedenti nella misurazione.

  1. Nel caso del paradosso di Stein, sai che la vera correlazione tra le variabili di input dovrebbe essere zero (e tutte le possibili misure di correlazione, poiché vuoi implicare l'indipendenza, non solo la non correlazione), quindi puoi costruire una variabile migliore della semplice campionare la media e sopprimere le varie misure di correlazione. Nel quadro bayesiano, è possibile costruire un precedente che pesa letteralmente gli eventi che portano alla correlazione tra i mezzi di campionamento e su pesa gli altri.
  2. In caso di regressione della cresta, si desidera trovare una buona stima per il valore di aspettativa condizionale E (y | x). In linea di principio si tratta di un problema di dimensione infinita e mal definito poiché abbiamo solo un numero finito di misurazioni. Tuttavia, la conoscenza precedente è che stiamo cercando una funzione continua che modella i dati. Questo è ancora mal definito, poiché ci sono ancora infinitamente molti modi per modellare le funzioni continue, ma l'insieme è un po 'più piccolo. La regressione della cresta è solo un modo semplice per ordinare le possibili funzioni continue, testarle e fermarsi ad un ultimo grado di libertà. Un'interpretazione è l'immagine della dimensione VC: durante la regressione della cresta, si controlla che il modello af (x, p1, p2 ...) con un determinato grado di libertà descriva l'incertezza inerente ai dati. In pratica, misura quanto bene può f (x, p1, p2 ... ) e la P empirica (p1, p2 ...) può ricostruire l'intera distribuzione P (y | x) e non solo E (y | x). In questo modo vengono soppesati i modelli con troppi gradi di libertà (che di solito si adattano eccessivamente), poiché più parametri dopo un certo grado di libertà daranno maggiori correlazioni tra i parametri e di conseguenza P (f (x, p1, p2) molto più ampi. ..)) distribuzioni. Un'altra interpretazione è che la funzione di perdita originale è anche un valore di misura e che la valutazione su un dato campione comporta un'incertezza, quindi il vero compito non è minimizzare la funzione di perdita ma trovare un minimo significativamente inferiore al valore altri (praticamente passare da un grado di libertà all'altro è una decisione bayesiana, quindi si cambia il numero di parametri solo se danno una riduzione significativa della funzione di perdita). La regressione della cresta può essere interpretata come un'approssimazione di queste due immagini (dimensione CV, perdita attesa). In alcuni casi si desidera preferire gradi più elevati di libertà, ad esempio nella fisica delle particelle si studia la collisione di particelle in cui ci si aspetta che il numero prodotto di particelle sia una distribuzione di Poisson, quindi si ricostruisce la traccia di particelle su un'immagine (una foto ad esempio ) in un modo che preferisce un determinato numero di tracce e sopprime i modelli che hanno una interpretazione del numero di traccia più piccola o più alta dell'immagine.
  3. Il terzo caso tenta anche di implementare un'informazione precedente nella misurazione, vale a dire che dalle misurazioni precedenti è noto che l'altezza degli studenti può essere modellata molto bene dalle distribuzioni gaussiane e non da un Cauchy, per esempio.

Quindi, in breve, la risposta è che puoi ridurre l'incertezza di una misurazione se sai cosa aspettarti e classificare i dati con alcuni dati precedenti (le informazioni precedenti). Questi dati precedenti sono ciò che vincola la funzione di modellazione utilizzata per adattarsi alle misurazioni. In casi semplici puoi annotare il tuo modello nel framework bayesiano, ma a volte è poco pratico, come integrare tutte le possibili funzioni continue per trovare quello che ha il valore bayesiano massimo A posteriore.


2

Stimatore di James Stein e regressione di Ridge

Tener conto di

y=Xβ+ϵ

Con ϵN(0,σ2I)

La soluzione meno quadrata è nella forma

β^=S1Xy dove .S=XX

β^ è imparziale per e ha una matrice di covriance . Quindi possiamo scrivereβσ2S1

β^N(β,σ2S1) Nota che sono le stime di massima verosimiglianza, MLE.β^

James Stein

Per semplicità per la Jame Stein assumeremo . James e Stein aggiungeranno quindi un precedente sulla , del moduloS=Iβ

βN(0,aI)

E otterrà un posteriore della forma , loro stimerà quindi con e otterrà uno stimatore di James Stein del moduloaa+σ2β^=(1σ2a+σ2)β^1a+σ2p2β^2

β^=(1p2β^2)β^ .

Regressione della cresta

Nella regressione della cresta è generalmente standardizzato (media 0, vairance 1 per ogni colonna di ) in modo che i parametri di regressione siano comparabili. Quando questo è per .XXβ=(β1,β2,,βp)Sii=1i=1,2,,p

Una stima di regressione della cresta di è definita come, , essereβλ0

β^(λ)=(S+λI)1Xy=(S+λI)1Sβ^ nota che è l'MLE.β^

Come è stato derivato ?? Richiamareβ^(λ)

β^N(β^,σ2S1) e se aggiungiamo un precedente bayesiano

βN(0,σ2λI)

Quindi otteniamo

E(β|β^)=(S+λI)1Sβ^

Come per la stima della regressione della cresta . Quindi la forma originale di James Stein qui fornita prende e .β^(λ)S=Ia=σ2λ

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.