Qual è la differenza tra condizionare i regressori e trattarli come fissi?


9

A volte assumiamo che i regressori siano fissi, cioè non stocastici. Penso che ciò significhi che tutti i nostri predittori, le stime dei parametri ecc. Sono incondizionati, giusto? Potrei anche spingermi così lontano che non sono più variabili casuali?

Se d'altra parte accettiamo che la maggior parte dei regressori in economia afferma che sono stocastici perché nessuna forza esterna li ha determinati pensando a qualche esperimento. Gli econometrici quindi condizionano questi regressori stocastici.

In che modo è diverso dal trattarli come fissi?

Capisco cos'è il condizionamento. Matematicamente, significa che subordiniamo tutte le osservazioni e le inferenze a quel particolare insieme di regressori e non abbiamo ambizioni per dire che inferenze, stime dei parametri, stime della varianza ecc. Sarebbero state le stesse se avessimo visto una diversa realizzazione dei nostri regressori (tale è il punto cruciale nelle serie temporali, in cui ogni serie storica viene vista una sola volta).

Tuttavia, per capire davvero la differenza tra regressori fissi e condizionamento sui regressori stocastici, mi chiedo se qualcuno qui conosca un esempio di una procedura di stima o inferenza che è valida per dire regressori fissi ma si rompe quando sono stocastici (e lo faranno essere condizionato).

Non vedo l'ora di vedere quegli esempi!


2
Conosci i modelli di errori nelle variabili?
robin.datadrivers

Hey @ robin.datadrivers no In realtà non lo sono.
Hirek,

1
Si tratta di modelli appositamente progettati per adeguare le stime per l'errore di misurazione nelle variabili indipendenti. Non è lo stesso dei regressori stocastici, ma potrebbe esserti utile dare un'occhiata. Inoltre, la ricerca di sondaggi in generale spesso presuppone che le variabili indipendenti raccolte dai sondaggi presentino un errore di campionamento - probabilmente ci sono modelli là fuori che spiegano l'errore di campionamento.
robin.datadrivers

1
Un altro pensiero che mi sono imbattuto è stato quello di utilizzare i modelli bayesiani. I modelli bayesiani possono trattare i regressori come casuali, specificando una distribuzione precedente per loro. In genere se vengono trattati come fissi, si specifica una distribuzione precedente solo per i parametri (coefficienti, medie, varianze), ma quando mancano covariate o risultati, si specifica una distribuzione precedente per essi. Non so esattamente come lo implementerei senza pensarci più, ma forse c'è un modo per specificare una distribuzione precedente per ogni variabile indipendente.
robin.datadrivers

Risposte:


3

Eccomi qui, ma lasciami provare: ho la sensazione (per favore, commenta!) Che una delle principali differenze tra statistica ed econometria è che in statistica tendiamo a considerare fissi i regressori, quindi la matrice di progettazione terminologica che ovviamente deriva da progettazione di esperimenti, in cui la supposizione è che stiamo prima scegliendo e poi fissando le variabili esplicative.

Ma per la maggior parte dei set di dati, per la maggior parte delle situazioni, questa è una scelta sbagliata. Stiamo davvero osservando le variabili esplicative, e in tal senso si trovano sullo stesso piano delle variabili di risposta, entrambe sono determinate da un processo casuale al di fuori del nostro controllo. Considerando le come "riparate", decidiamo di non considerare molti problemi che potrebbero causare. x

Considerando i regressori come stocastici, d'altra parte, come tendono gli econometrici, apriamo la possibilità di modelli che provano a considerare tali problemi. Un breve elenco di problemi che potremmo quindi considerare e incorporare nella modellazione è:

  • errori di misura nei regressori
  • correlazioni tra regressori e termini di errore
  • risposta ritardata come regressore
  • ...

Probabilmente, questo dovrebbe essere fatto molto più frequentemente di quello che è fatto oggi?

EDIT 

Proverò a dare un tono più formale all'argomento per condizionare i regressori. Let sia un vettore casuale, ed interesse in regressione su , dove viene acquistata regressione intende il valore atteso condizionato di su . Sotto ipotesi multinormali sarà una funzione lineare, ma i nostri argomenti non dipendono da questo. Iniziamo con il factoring della densità articolare nel solito modo ma quelle funzioni non sono note, quindi usiamo un modello parametrizzato dove parametrizza la distribuzione condizionale e(Y,X)YXYX

f(y,x)=f(yx)f(x)
f(y,x;θ,ψ)=fθ(yx)fψ(x)
θψla distribuzione marginale di . Nel normale modello lineare possiamo avere ma ciò non è ipotizzato. L'intero spazio dei parametri di è , un prodotto cartesiano e i due parametri non hanno parti in comune.Xθ=(β,σ2)(θ,ψ)Θ×Ψ

Questo può essere interpretato come una fattorizzazione dell'esperimento statistico, (o del processo di generazione dei dati, DGP), la prima viene generata secondo e come una seconda fase, viene generata in base alla densità condizionale . Nota che il primo passo non usa alcuna conoscenza di , che entra solo nel secondo passo. La statistica è accessoria per , vedi https://en.wikipedia.org/wiki/Ancillary_statistic .Xfψ(x)Yfθ(yX=x)θXθ

Ma, a seconda dei risultati del primo passo, il secondo passo potrebbe essere più o meno informativo su . Se la distribuzione data da ha una varianza molto bassa, diciamo, le osservate saranno concentrate in una piccola regione, quindi sarà più difficile stimare . Quindi, la prima parte di questo esperimento in due passaggi determina la precisione con cui è possibile stimare . Pertanto è naturale condizionare su inferenza sui parametri di regressione. Questo è l'argomento della condizionalità e lo schema sopra riportato chiarisce i suoi presupposti.θfψ(x)xθθX=x

Negli esperimenti progettati la sua ipotesi sarà per lo più valida, spesso con dati non osservativi. Alcuni esempi di problemi saranno: regressione con risposte ritardate come predittori. Il condizionamento dei predittori in questo caso condizionerà anche la risposta! (Aggiungerò altri esempi).

Un libro che discute di questo problema in molti dettagli è l' informazione e le famiglie esponenziali: nella teoria statistica di O. E Barndorff-Nielsen. Vedi in particolare il capitolo 4. L'autore afferma che la logica di separazione in questa situazione è tuttavia raramente spiegata ma fornisce i seguenti riferimenti: RA Fisher (1956) Metodi statistici e inferenza scientifica e Sverdrup (1966) Lo stato attuale della teoria delle decisioni e la teoria di Neyman-Pearson .§4.3

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.