Utilità del teorema di Frisch-Waugh


15

Dovrei insegnare il teorema di Frish Waugh in econometria, che non ho studiato.

Ho compreso la matematica e spero anche l'idea "il coefficiente che ottieni per un particolare coefficiente da un modello lineare multiplo è uguale al coefficiente del modello di regressione semplice se" elimini "l'influenza degli altri regressori". Quindi l'idea teorica è piuttosto interessante. (Se ho completamente frainteso, accolgo con favore una correzione)

Ma ha alcuni usi classici / pratici?

EDIT : ho accettato una risposta, ma sono ancora disposto ad averne di nuove che portano altri esempi / applicazioni.


4
Un ovvio sarebbe aggiunto grafici variabili ?
Silverfish

1
L' introduzione all'economia di Dougherty menziona un altro esempio dell'uso del teorema di Frisch-Waugh-Lovell. All'inizio dell'analisi econometrica delle serie temporali, era abbastanza comune nei modelli in cui le variabili avevano tendenze temporali deterministiche per privarle tutte prima di regredire. Ma da FWL, si ottengono gli stessi coefficienti semplicemente includendo una tendenza temporale come regressore, e inoltre ciò fornisce gli errori standard "corretti", poiché riconosce che 1 df è stato quindi consumato.
Silverfish

1
Dougherty mette in guardia contro la procedura, quindi sotto questo aspetto non è un grande esempio, anche se è istruttivo. Le variabili economiche sembrano spesso stazionarie rispetto alla tendenza piuttosto che stazionarie, quindi questo tipo di tentata riduzione non funziona e può provocare regressioni spurie.
Silverfish

1
@Silverfish: FWL è una tecnica puramente algebrica, quindi la questione se estrarre una tendenza deterministica sia "giusta" dato il DGP sottostante è senza dubbio importante, ma non correlata a FWL, quindi in questo senso il tuo esempio è perfettamente valido per I PO chiedono sui due modi per ottenere stime puntuali.
Christoph Hanck,

2
Ho sfruttato questa relazione in molti post, principalmente per scopi concettuali e per fornire interessanti esempi di fenomeni di regressione. Vedi, tra l'altro , stats.stackexchange.com/a/46508 , stats.stackexchange.com/a/113207 e stats.stackexchange.com/a/71257 .
whuber

Risposte:


14

Considera il modello di dati del pannello degli effetti fissi, noto anche come modello LSDV (Least Squares Dummy Variables).

può essere calcolato applicando direttamente OLS al modello y = X β + D α + ϵ , dove D è unamatrice N T × N di manichini e α rappresentano gli effetti fissi specifici dell'individuo.BLSDV

y=Xβ+Dα+ε,
DNT×Nα

Un altro modo per calcolare è applicare la cosiddetta trasformazione interna al modello usuale per ottenere una versione sminuita di esso, ovvero M [ D ] y = M [ D ] X β + M [ D ] ϵ . Qui, M [ D ] = I - D ( D D ) - 1 D , la matrice del creatore residuo di una regressione subLSDV

M[D]y=M[D]Xβ+M[D]ϵ.
M[D]=io-D(D'D)-1D' .D

Per il teorema di Frisch-Waugh-Lovell, i due sono equivalenti, come FWL dice che si può calcolare un sottoinsieme di coefficienti di regressione di una regressione ) perβ^

  1. regredendo sugli altri regressori (qui, D ), salvando i residui (qui, il tempo decretato y o M [ D ] y , perché la regressione su una costante annulla solo le variabili), quindiyDyM[D]y
  2. regredire la su D e salvare i residui M [ D ] X eXDM[D]X
  3. regredire i residui sopra l'altro, su M [ D ] X .M[D]yM[D]X

La seconda versione è molto più ampiamente utilizzata, poiché i set di dati del pannello tipici possono avere migliaia di unità del pannello , quindi il primo approccio richiederebbe di eseguire una regressione con migliaia di regressori, che non è una buona idea numericamente anche oggi con i computer, poiché calcolare l'inverso di ( D : X ) ( D : X ) sarebbero molto costosi, mentre y e X che richiedono tempo sono poco costosi.N(D:X)(D:X)yX


Grazie mille, questo è il tipo di risposta che stavo cercando, anche se è un po 'avanzato per me effettivamente usarlo. Quindi la tua risposta va bene con me, ma sarei felice se ne avessi altri, dovrei accettare la tua?
Anthony Martin,

Se fosse d'aiuto sarebbe opportuno farlo. Ma accettare ridurrà le tue possibilità di ottenere risposte migliori, quindi potresti considerare di aspettare prima di accettare questo. Una taglia aumenterebbe ulteriormente le tue possibilità di ottenere più risposte - dato che non ci sono abbastanza utenti nel CV che rispondono regolarmente alle domande in base alla quantità di domande, anche una sola risposta può portare altri utenti attivi a concludere che le domande sono state trattate. (Ho pubblicato una risposta un po 'più semplice di seguito.)
Christoph Hanck

7

Ecco una versione semplificata della mia prima risposta, che credo sia meno rilevante dal punto di vista pratico, ma forse più facile da "vendere" per l'uso in classe.

Le regressioni e y i - ˉ y = K j = 2 β j ( x i j - ˉ x j ) + ˜ ϵ I resa identica K . Questo può essere visto come segue: prendere x 1 = 1 : =

yi=β1+j=2Kβjxij+ϵi
yiy¯=j=2Kβj(xijx¯j)+ϵ~i
,j=2,...,β^jj=2,,K e quindi M 1 = I - 1 ( 11 ) - 1 1 = I - 1 1x1=1:=(1,,1) modo che M1xj=xj-1n-11xj=xj-1 ˉ x j=:xj- ˉ x j. Quindi, i residui di una regressione di variabili su una costante,M1xj, sono solo le variabili sminuite (la stessa logica ovviamente si applica ayi).
M1=I1(11)11=I11n,
M1xj=xj1n11xj=xj1x¯j=:xjx¯j.
M1xjyi

4

Ecco un altro, più indiretto, ma credo interessante, vale a dire la connessione tra diversi approcci per calcolare il coefficiente di autocorrelazione parziale di una serie storica stazionaria.

Definizione 1

Y^tμ=α1(m)(Yt1μ)+α2(m)(Yt2μ)++αm(m)(Ytmμ)
mαm(m)

mYtYt1,,Ytm+1ρmYtYt-m .

Come troviamo il αj(m)? Ricordiamo che una proprietà fondamentale di una regressione diZt sui regressori Xtè che i coefficienti sono tali che i regressori e i residui non sono correlati. In una regressione della popolazione questa condizione viene quindi dichiarata in termini di correlazioni della popolazione. Poi:

E[Xt(Zt-Xtα(m))]=0
Risolvendo per α(m)troviamo i coefficienti di proiezione lineare
α(m)=[E(XtXt)]-1E[XtZt]
Applicando questa formula a Zt=Yt-μ e
Xt=[(Yt1μ),(Yt2μ),,(Ytmμ)]
we have
E(XtXt)=(γ0γ1γm1γ1γ0γm2γm1γm2γ0)
Also,
E(XtZt)=(γ1γm)
Hence,
α(m)=(γ0γ1γm1γ1γ0γm2γm1γm2γ0)1(γ1γm)
The mth partial correlation then is the last element of the vector α(m).

So, we sort of run a multiple regression and find one coefficient of interest while controlling for the others.

Definition 2

The mth partial correlation is the correlation of the prediction error of Yt+m predicted with Yt1,,Ytm+1 with the prediction error of Yt predicted with Yt1,,Ytm+1.

So, we sort of first control for the intermediate lags and then compute the correlation of the residuals.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.