I presupposti dei minimi quadrati


9

Supponiamo la seguente relazione lineare: , dove è la variabile dipendente, una singola variabile indipendente e il termine di errore.Y i X i u iYi=β0+β1Xi+uiYiXiui

Secondo Stock & Watson (Introduzione all'econometria; capitolo 4 ), il terzo presupposto dei minimi quadrati è che i quarti momenti di e sono diversi da zero e finiti .u i ( 0 < E ( X 4 i ) <  e  0 < E ( u 4 i ) < )Xiui(0<E(Xi4)< and 0<E(ui4)<)

Ho tre domande:

  1. Non capisco appieno il ruolo di questa ipotesi. OLS è di parte e incoerente se questo assunto non regge o abbiamo bisogno di questo assunto per deduzione?

  2. Stock e Watson scrivono "questa ipotesi limita la probabilità di disegnare un'osservazione con valori estremamente grandi di o ". Tuttavia, la mia intuizione è che questa ipotesi è estrema. Siamo nei guai se abbiamo valori anomali di grandi dimensioni (tali che i secondi momenti sono grandi) ma se questi valori sono ancora limitati? A proposito: qual è la definizione sottostante un valore anomalo?u iXiui

  3. Possiamo riformulare questo nel modo seguente: "La curtosi di e è zero e finita?"u iXiui


Purtroppo non posso scrivere una risposta a tutti gli effetti ora, ma per rispondere alla tua domanda: 1, la coerenza OLS funziona a prescindere. 2, non esiste una definizione chiara di valori anomali, ma OLS funziona bene in grandi campioni in presenza di valori anomali. 3, per la mia vita non riesco a pensare a un esempio in cui ciò non sarebbe vero, ma qualcuno potrebbe dimostrarmi che non ho
ragione,

5
Contesto "ma OLS funziona bene in grandi campioni in presenza di valori anomali" ... prendere un valore abbastanza grande nello spazio x (cioè un'osservazione influente) e un singolo punto può forzare l'adattamento LS a superarlo; se è anche un valore anomalo nella direzione Y, la tua linea continuerà comunque a superare quel punto, non importa quanto sia estrema.
Glen_b -Restate Monica

2
I valori anomali sono facili da definire. Sono osservazioni incompatibili con il modello della maggior parte dei dati. Come mostra l'esempio di Glen_b, tale punto ha un'influenza indebita sull'adattamento, al limite superiore a tutte le altre osservazioni nel set di dati, portando a stime altamente distorte.
user603

1
@ user603 Certo ... e quindi ... Devo ancora incontrare un programma / script che rilevi automaticamente valori anomali e lo faccia in modo chiaro che siamo tutti d'accordo nel modo giusto ... quindi mentre sono d'accordo con il tuo sentimento, non aiuta OP
Repmat

@Repmat: rileggere la domanda del PO. Il mio commento risponde direttamente a una delle frasi che è punteggiata da un punto interrogativo.
user603

Risposte:


9

Non non c'è bisogno ipotesi il 4 momenti di consistenza del OLS stimatore, ma si fa ipotesi sulle necessità più alti momenti di e ε di normalità asintotica e per stimare costantemente ciò che la matrice di covarianza asintotica è.xϵ

In un certo senso però, questo è un punto matematico, tecnico, non pratico. Perché OLS funzioni bene in campioni finiti in un certo senso richiede più dei presupposti minimi necessari per ottenere consistenza asintotica o normalità come .n

Condizioni sufficienti per coerenza:

Se hai un'equazione di regressione:

yi=xiβ+ϵi

Lo stimatore OLS può essere scritto come: b =β+( X ' Xb^

b^=β+(XXn)1(Xϵn)

Per coerenza , devi essere in grado di applicare la Legge dei grandi numeri di Kolmogorov o, nel caso di serie temporali con dipendenza seriale, qualcosa come il Teorema Ergodico di Karlin e Taylor in modo che:

1nXXpE[xixi]1nXϵpE[xiϵi]

Altre ipotesi necessarie sono:

  • E[xixi] il grado completo e quindi la matrice è invertibile.
  • I regressori sono predeterminati o rigorosamente esogeni in modo che .E[xiϵi]=0

Quindi e ottieni(XXn)1(Xϵn)p0b^pβ

Se vuoi applicare il teorema del limite centrale, allora hai bisogno di ipotesi sui momenti più elevati, ad esempio dove . Il teorema del limite centrale è ciò che ti dà la normalità asintotica di e ti permette di parlare di errori standard. Perché esista il secondo momento , sono necessari i 4i momenti di e . Vuoi sostenere che doveg i = x i ε i b E [ g i gE[gigi]gi=xiϵib^xεE[gigi]xϵΣ=E[xixi ϵ 2 i ]n(1nixiϵi)dN(0,Σ)Σ=E[xixiϵi2] . Perché questo funzioni, deve essere finito.Σ

Una bella discussione (che ha motivato questo post) è contenuta in Econometrics di Hayashi . (Vedi anche p. 149 per i 4i momenti e stima della matrice di covarianza.)

Discussione:

Questi requisiti al 4 ° momento sono probabilmente un punto tecnico piuttosto che un punto pratico. Probabilmente non incontrerai distribuzioni patologiche in cui questo è un problema nei dati di tutti i giorni? È per più comuni o altri presupposti di OLS andare storto.

Una domanda diversa, senza dubbio risposta altrove su Stackexchange, è quanto è grande un campione necessario per i campioni finiti per avvicinarsi ai risultati asintotici. C'è un senso in cui fantastici valori anomali portano a una convergenza lenta. Ad esempio, prova a stimare la media di una distribuzione lognormale con varianza davvero elevata. La media del campione è uno stimatore coerente e imparziale della media della popolazione, ma in quel caso log-normale con eccessiva curtosi ecc.

Il finito contro l'infinito è una distinzione estremamente importante in matematica. Non è questo il problema che incontri nelle statistiche quotidiane. I problemi pratici sono più nella categoria piccola vs. grande. La varianza, la curtosi, ecc ... sono abbastanza piccole da poter ottenere stime ragionevoli date le dimensioni del mio campione?

Esempio patologico in cui lo stimatore OLS è coerente ma non asintoticamente normale

Prendere in considerazione:

x i ~ N ( 0 , 1 ) ε i V a r ( ε i ) = b

yi=bxi+ϵi
Dove ma è tratto da una distribuzione t con 2 gradi di libertà, quindi . La stima OLS converge probabilmente in ma la distribuzione del campione per la stima OLS non è normalmente distribuita. Di seguito è riportata la distribuzione empirica per basata su 10000 simulazioni di una regressione con 10000 osservazioni.xiN(0,1)ϵiVar(ϵi)=bb^b^QQPlot per stimatore (non converge nella distribuzione alla normalità)

La distribuzione di non è normale, le code sono troppo pesanti. Ma se aumenti i gradi di libertà a 3 in modo che esista il secondo momento di , si applica il limite centrale e ottieni: εib^ϵiQQPlot per stimatore (converge nella distribuzione alla normalità)

Codice per generarlo:

beta = [-4; 3.7];
n = 1e5;    
n_sim = 10000;    
for s=1:n_sim
    X = [ones(n, 1), randn(n, 1)];  
    u  = trnd(2,n,1) / 100;
    y = X * beta + u;

    b(:,s) = X \ y;
end
b = b';
qqplot(b(:,2));

1
t(3)

1
n(1nixiϵi)dN(0,Σ)Σ=E[xixiϵi2]ΣΣϵiϵi2xixi

6
  1. X

  2. Questi fondamenti teorici delle statistiche causano molta confusione quando vengono ridotti ad applicazioni pratiche. Non esiste una definizione di valore anomalo, è un concetto intuitivo. Per comprenderlo in modo approssimativo, l'osservazione dovrebbe essere un punto di leva elevato o un punto di influenza elevato, ad esempio uno per il quale la diagnostica di cancellazione (DF beta) è molto grande o per cui la distanza di Mahalanobis nei predittori è grande (in statistiche univariate questo è solo un punteggio Z). Ma torniamo alle questioni pratiche: se conduco un'indagine casuale sulle persone e sul loro reddito familiare, e su 100 persone, 1 delle persone che campione è un milionario, la mia ipotesi migliore è che i milionari siano rappresentativi dell'1% della popolazione . In una lezione sui biostatisti, questi principi sono discussi e sottolineati che qualsiasi strumento diagnostico è essenzialmente esplorativo [3].non "l'analisi che esclude il valore anomalo è quella in cui credo", è "rimuovere un punto ha cambiato completamente la mia analisi".

  3. La kurtosi è una quantità in scala che dipende dal secondo momento di una distribuzione, ma l'assunzione di una varianza finita e diversa da zero per questi valori è tacita poiché è impossibile che questa proprietà rimanga nel quarto momento ma non nel secondo. Quindi in fondo sì, ma nel complesso non ho mai ispezionato né la curtosi né i quarti momenti. Non trovo che siano una misura pratica o intuitiva. In questo giorno in cui un istogramma o un diagramma a dispersione viene prodotto dallo schiocco delle dita, è opportuno utilizzare statistiche diagnostiche grafiche qualitative, ispezionando questi grafici.

[1] /math/79773/how-does-one-prove-that-lindeberg-condition-is-satisfied

[2] http://projecteuclid.org/download/pdf_1/euclid.ss/1177013818

[3] http://faculty.washington.edu/semerson/b517_2012/b517L03-2012-10-03/b517L03-2012-10-03.html


Come è stato sottolineato in precedenza, l'intuizione di uno sui valori anomali si interrompe quando ce ne sono più di uno. Non si distingueranno necessariamente in un grafico beta di DF o avranno punteggi z elevati perché queste stesse statistiche possono essere influenzate dagli outlier. Come discusso in precedenza, i valori anomali , se non controllati, produrranno coefficienti distorti a meno che non vengano rimossi o utilizzati con una tecnica di stima robusta.
user603

1
Penso più in generale, quando esprimi opinioni, le tue risposte otterrebbero includendo indicazioni sulla letteratura pertinente in modo che il PO sappia quale di queste opinioni è ampiamente diffusa.
user603

@ user603 Al tuo primo commento, non ho indicato DFbetas (o alcuno strumento diagnostico) come un metodo esclusivo per identificare i valori anomali, ma sicuramente utile. Quando si eseguono valori anomali di inferenza semi-parametrica (modello medio corretto) NON distorcere i modelli LS, è possibile produrre un riferimento o addirittura un esempio diverso da LS non parametrico? Il tuo secondo commento è positivo e mi prenderò i prossimi momenti per fornire citazioni.
AdamO,

La tua affermazione, "OLS non è distorta in queste condizioni, è solo incoerente" non è corretta. I momenti più alti sono necessari per la normalità asintotica. Non sono necessari per la coerenza nei campioni IID in cui si applica la legge Kolmogorov dei grandi numeri.
Matthew Gunn,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.