Differenza tra la media dei dati quindi l'adattamento e l'adattamento dei dati quindi la media


10

Se ce ne sono, tra l'adattamento di una linea a più "esperimenti" separati, quindi la media degli adattamenti o la media dei dati dagli esperimenti separati, quindi l'adattamento dei dati medi. Lasciami elaborare:

Eseguo simulazioni al computer che generano una curva, mostrata di seguito. Estraiamo una quantità, chiamiamola "A" adattando la regione lineare della trama (tempi lunghi). Il valore è semplicemente la pendenza della regione lineare. C'è ovviamente un errore associato a questa regressione lineare.

Generalmente eseguiamo circa 100 di queste simulazioni con diverse condizioni iniziali per calcolare un valore medio di "A". Mi è stato detto che è meglio calcolare la media dei dati grezzi (della trama in basso) in gruppi di 10, quindi adattarsi a "A" e fare una media di quei 10 "A" insieme.

Non ho alcuna intuizione sul fatto che ci sia qualche merito a questo o se è meglio che adattarsi a 100 singoli valori "A" e fare una media di quelli.

dati


Non sono sicuro di aver capito: misuri A in diversi punti nel tempo e quindi ? Quindi lo fai più volte e prendi la media di tutti ? β 1A=β0+β1tβ1

Scusa no. La trama sopra è il risultato di una singola simulazione (chiamiamola esperimento). La regione non lineare iniziale viene scartata, quindi adattiamo una linea alla porzione lineare e otteniamo la pendenza, "A". Quindi un'intera simulazione produce una singola stima di "A". Ovviamente la mia domanda ruota intorno al fatto che la media di molti grafici quindi il calcolo di A sia diverso dal semplice calcolo di A per un gruppo di grafici e la loro media. Spero che questo chiarisca.
pragmatist1

1
Non vedo perché questo farebbe la differenza? (se le ipotesi di regressione lineare sono soddisfatte)

Immagino che il raccordo non vada mai storto / non converga / dia stime ridicolmente ripide a causa degli esperimenti che sono piccoli? Sarebbe qualcosa con cui combinare prima (o modelli gerarchici) potrebbe aiutare.
Björn,

1
Potresti anche mettere insieme tutti i dati, ma includere un qualche tipo di componente per differenziare tra esperimenti (intercettazioni diverse per ogni esperimento, o persino pendenze diverse), qualcosa come un approccio lineare modello misto. In questo modo puoi approssimare una pendenza complessiva, ma sarebbe in grado di identificare eventuali effetti "batch" o differenze tra gli esperimenti
bdeonovic

Risposte:


2

Immagina di trovarci in un contesto di dati panel in cui vi sono variazioni nel tempo e tra le aziende . Pensa a ogni periodo di tempo come a un esperimento separato. Capisco la tua domanda come se sia equivalente a stimare un effetto usando:i ttit

  • Variazione trasversale delle medie delle serie storiche.
  • Medie delle serie temporali di variazione trasversale.

La risposta in generale è no.

Il set up:

Nella mia formulazione, possiamo considerare ogni periodo di tempo come un esperimento separato.t

Diciamo che hai un pannello bilanciato di lunghezza su aziende. Se dividiamo ogni periodo di tempo ecc ... possiamo scrivere i dati complessivi come:n ( X t , y t )Tn(Xt,yt)

Y=[y1y2yn]X=[X1X2Xn]

Media di accoppiamenti:

1Ttbt=1Tt(XtXt)1Xtyt=1TtSt1(1nixt,iyt,i)where St=1nixt,ixt,i

Misura delle medie:

Questo non è in generale uguale alla stima basata sulla variazione trasversale delle medie delle serie temporali (cioè tra lo stimatore).

(1nix¯ix¯i)11nix¯iy¯i

Dove ecc ...x¯i=1Ttxt,i

Stima OLS aggregata:

Qualcosa di forse utile a cui pensare è la stima OLS aggregata. Che cos'è? Quindi usa

b^=(XX)1XY=(1nTtXtXt)1(1nTtXtyi)
bt=(XtXt)1Xtyi
=(1nTtXtXt)1(1nTtXtXtbt)

Let e essere le nostre stime di sull'intero campione e nel periodo rispettivamente. Poi abbiamo:S=1nTiXXSt=1nXtXtE[xx]t

b^=1Tt(S1St)bt

Questo è un po 'come una media delle diverse stime specifiche del tempo , ma è un po' diverso. In un certo senso, stai dando più peso ai periodi con una maggiore varianza delle variabili del lato destro.bt

Caso particolare: le variabili del lato destro sono invarianti nel tempo e specifiche dell'azienda

Se le variabili giuste lato per ciascuna impresa sono costanti nel tempo (cioè per qualsiasi e ) quindi per tutti e avremmo:iXt1=Xt2t1t2S=Stt

b^=1Ttbt

Commento divertente:

Questo è il caso di Fama e Macbeth in cui hanno applicato questa tecnica di calcolo della media delle stime trasversali per ottenere errori standard coerenti nella stima di come i rendimenti attesi variano con la covarianza delle imprese con il mercato (o altri fattori di carico).

La procedura Fama-Macbeth è un modo intuitivo per ottenere errori standard coerenti nel contesto del pannello quando i termini di errore sono correlati in modo trasversale ma indipendenti nel tempo. Una tecnica più moderna che produce risultati simili è il raggruppamento in tempo.


1

(Nota: non ho abbastanza reputazione per commentare, quindi pubblicherò questo come risposta.)

Per la particolare domanda posta, la risposta di fcop è corretta: l'adattamento della media equivale alla media degli adattamenti (almeno per i minimi quadrati lineari). Tuttavia, vale la pena ricordare che uno di questi approcci " online " ingenui può dare risultati distorti, rispetto all'adattamento di tutti i dati contemporaneamente. Poiché i due sono equivalenti, mi concentrerò sull'approccio "adatta alla media". In sostanza, adattando le curve medie ignora l' incertezza relativa nei valori tra punti diversi . Ad esempio se , e , quindiyxy1[x1]=y2[x1]=21x2y¯[x]=y[x]yxy1[x1]=y2[x1]=2y 1 [ x 2 ] = 3 ˉ y [ x 1 ] = ˉ y [ x 2 ] = 2 xy1[x2]=1y1[x2]=3y¯[x1]=y¯[x2]=2 , ma qualsiasi adattamento alla curva dovrebbe interessarsi molto di più all'adattamento a rispetto a .x1x2

Si noti che la maggior parte delle piattaforme software scientifiche dovrebbe disporre di strumenti per calcolare / aggiornare un vero fit dei minimi quadrati "online" (noto come minimi quadrati ricorsivi ). Quindi tutti i dati possono essere utilizzati (se questo è desiderabile).


1
La risposta inviata da fcop è stata eliminata. Potresti voler modificare leggermente la tua risposta
Glen_b -Restate Monica
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.