Perché gli effetti casuali sono ridotti a 0?


10

C'è un motivo intuitivo per cui gli effetti casuali devono essere ridotti al loro valore previsto nel modello misto lineare generale?


Potete per favore fornire qualche altro contesto per questa domanda?
Macro,

I valori previsti dai modelli a effetto casuale sono stimatori di contrazione ; ci sarà poco skrinkage quando le unità statistiche sono diverse, o quando le misurazioni sono accurate o con un campione ampio. È questo ciò che cerchi o intendi davvero restringere il valore atteso?
chl

3
Vorrei suggerire un vecchio articolo di Bradley Efron e Carl Morris, Stein's Paradox in Statistics (1977) (un PDF online è qui ). Non sono sicuro che sia intuitivo, ma è un'introduzione piuttosto delicata (con esempi del mondo reale) nel concetto di restringimento.
Andy W,

Risposte:


4

in generale, la maggior parte degli "effetti casuali" si verificano in situazioni in cui esiste anche un "effetto fisso" o qualche altra parte del modello. Il modello misto lineare generale è simile al seguente:

yi=xiTβ+ziTu+ϵi

Dove sono gli "effetti fissi" e gli "effetti casuali". Chiaramente, la distinzione può essere solo a livello concettuale o nel metodo di stima di e . Perché se definisco un nuovo "effetto fisso" e allora I avere una normale regressione lineare:u u β ˜ x i = ( x T i , z T i ) T ˜ β = ( β T , u T ) Tβuuβx~i=(xiT,ziT)Tβ~=(βT,uT)T

yi=x~iTβ~+ϵi

Questo è spesso un vero problema pratico quando si tratta di adattare modelli misti quando gli obiettivi concettuali sottostanti non sono chiari. Credo che il fatto che gli effetti casuali sono compattati verso lo zero, e che gli effetti fissi non sono fornisce qualche aiuto qui. Questo significa che ci sarà tendono a favorire il modello con la sola incluso (cioè ) quando le stime di hanno una bassa precisione nella formulazione OLS, e tendono a favorire l'OLS formulazione pieno quando le stime hanno alta precisione.β β u = 0 u uu β βu=0uu


2

La tua domanda non risponde a se stessa? Se è previsto un valore, sarebbe meglio una tecnica che avvicini i valori a quello.

Una semplice risposta viene dalla legge di grandi numeri. Supponiamo che i soggetti siano il tuo effetto casuale. Se conduci i soggetti da A a D in 200 prove e il soggetto E in 20 prove quale delle prestazioni medie misurate del soggetto pensi sia più rappresentativa di mu? La legge dei grandi numeri predirebbe che le prestazioni del soggetto E avranno maggiori probabilità di deviare di una quantità maggiore da mu rispetto a una qualsiasi tra A e D. Potrebbe o meno, e qualsiasi soggetto potrebbe deviare, ma saremmo molto più giustificato nel ridurre l'effetto del soggetto E verso il soggetto da A a D rispetto al contrario. Quindi gli effetti casuali più grandi e con N più piccoli tendono ad essere quelli che si riducono maggiormente.

Da questa descrizione deriva anche il motivo per cui gli effetti fissi non vengono ridotti. È perché sono riparati, ce n'è solo uno nel modello. Non hai alcun riferimento per ridurlo. Potresti usare una pendenza di 0 come riferimento, ma non è per questo che gli effetti casuali vengono ridotti. Stanno verso una stima globale come mu. L'effetto fisso che hai dal tuo modello è quella stima.


1

Penso che potrebbe essere utile alla tua intuizione pensare a un modello misto come un modello gerarchico o multilivello . Almeno per me, ha più senso pensare alla nidificazione e al modo in cui il modello funziona all'interno e tra le categorie in modo gerarchico.

EDIT: Macro, l'ho lasciato un po 'aperto perché mi aiuta a visualizzarlo in modo più intuitivo, ma non sono sicuro che sia corretto. Ma per espanderlo in direzioni forse errate ...

Lo guardo come effetti fissi che fanno la media tra le categorie e effetti casuali che distinguono tra le categorie. In un certo senso, gli effetti casuali sono "cluster" che condividono alcune caratteristiche e cluster più grandi e più compatti avranno una maggiore influenza sulla media al livello più alto.

Con OLS che esegue il montaggio (in fasi, credo), i "cluster" di effetti casuali più grandi e più compatti tireranno quindi il fit più fortemente verso se stessi, mentre i "cluster" più piccoli o più diffusi tireranno il fit meno. O forse l'adattamento inizia più vicino a "cluster" più grandi e più compatti poiché la media di livello superiore è più vicina all'inizio

Mi dispiace, non posso essere più chiaro e potrei anche sbagliarmi. Per me ha un senso intuitivo, ma mentre provo a scriverlo non sono sicuro che si tratti di una cosa dall'alto in basso o dal basso, o di qualcosa di diverso. È una questione di "cluster" di livello inferiore che si inseriscono più fortemente in se stessi o di avere una maggiore influenza sulla media di livello superiore - e quindi di "finire" più vicini alla media di livello superiore - o nessuno dei due?

In entrambi i casi, ritengo che spieghi perché le categorie più piccole e più diffuse di variabili casuali verranno spinte più in là verso la media rispetto alle categorie più grandi e più compatte.


Ciao Wayne, puoi approfondire questo per descrivere come il restringimento può essere (forse più intuitivamente) concettualizzato pensando a questo come a un modello gerarchico?
Macro,

@Macro: OK, ho provato. Non sono sicuro se rende la risposta migliore o peggiore, però.
Wayne,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.