Quali sono le principali differenze filosofiche, metodologiche e terminologiche tra econometria e altri campi statistici?


70

L'econometria ha una sostanziale sovrapposizione con le statistiche tradizionali, ma spesso usa il proprio gergo su una varietà di argomenti ("identificazione", "esogena", ecc.). Una volta ho sentito un professore di statistica applicata in un altro campo commentare che spesso la terminologia è diversa ma i concetti sono gli stessi. Tuttavia ha anche i suoi metodi e le sue distinzioni filosofiche (mi viene in mente il famoso saggio di Heckman).

Quali differenze terminologiche esistono tra l'econometria e le statistiche tradizionali e dove i campi divergono per diventare diversi in qualcosa di più della semplice terminologia?

Risposte:


96

Ci sono alcune differenze terminologiche in cui la stessa cosa è chiamata nomi diversi in diverse discipline:

  1. I dati longitudinali in biostatistica sono osservazioni ripetute degli stessi individui = dati panel in econometria.
  2. Il modello per una variabile dipendente binaria in cui la probabilità di 1 è modellata come è chiamato modello logit in econometria e modello logistico in biostatistica. I biostatisti tendono a lavorare con la regressione logistica in termini di rapporti di probabilità, poiché le loro sono spesso binarie, quindi i rapporti di probabilità rappresentano le frequenze relative del risultato di interesse nei due gruppi della popolazione. Questa è un'interpretazione così comune che spesso vedrai una variabile continua trasformata in due categorie (bassa vs alta pressione sanguigna) per facilitare questa interpretazione.x1/(1+exp[xβ])x
  3. Le "equazioni di stima" degli statistici sono le "condizioni del momento" degli econometrici. Le stime degli statistici sono stimatori estremi degli econometrici.M

Esistono differenze terminologiche in cui lo stesso termine viene utilizzato per indicare cose diverse in discipline diverse:

  1. Gli effetti fissi rappresentano nell'equazione di regressione per gli statistici ANOVA e per uno stimatore "entro" per gli econometrici.xβ
  2. Inferenza robusta significa errori standard corretti dall'eteroschedasticità per gli economisti (con estensioni agli errori standard raggruppati e / o errori standard corretti dall'autocorrelazione) e metodi robusti da valori anomali di gran lunga superiori agli statistici.
  3. Sembra che gli economisti abbiano un'idea ridicola che i campioni stratificati siano quelli in cui le probabilità di selezione variano tra le osservazioni. Questi dovrebbero essere chiamati campioni di probabilità disuguali. I campioni stratificati sono quelli in cui la popolazione è suddivisa in gruppi predefiniti in base alle caratteristiche note prima che il campionamento abbia luogo.
  4. "Data mining" degli econometrici (almeno nella letteratura degli anni '80) significava più test e insidie ​​ad esso correlati che sono stati meravigliosamente spiegati nel libro di Harrell . Le procedure di data mining degli informatici (e degli statistici) sono metodi non parametrici per trovare modelli nei dati, noti anche come apprendimento statistico .

Vedo che i contributi unici di econometria siano

  1. Modi per trattare l'endogeneità e modelli di regressione poco specificati, riconoscendo, come mpiktas ha spiegato in un'altra risposta , che (i) le variabili esplicative possono essere casuali (e quindi correlate a errori di regressione che producono distorsioni nelle stime dei parametri), (ii) il i modelli possono soffrire di variabili omesse (che poi diventano parte del termine di errore), (iii) potrebbe esserci un'eterogeneità inosservata di come gli agenti economici reagiscono agli stimoli, complicando così i modelli di regressione standard. Angrist & Pischke è una meravigliosa recensione di questi problemi e gli statistici impareranno molto su come fare analisi di regressione da esso. Per lo meno, gli statistici dovrebbero imparare e comprendere la regressione delle variabili strumentali.
  2. Più in generale, gli economisti vogliono fare il minor numero possibile di ipotesi sui loro modelli, in modo da assicurarsi che le loro scoperte non dipendano da qualcosa di ridicolo come la normalità multivariata. Ecco perché GMM è estremamente popolare tra gli economisti e non ha mai raggiunto le statistiche (anche se è stato descritto come minimo da Ferguson alla fine degli anni '60). Ecco perché l'adozione della probabilità empirica è cresciuta esponenzialmente in econometria, con un seguito marginale nelle statistiche. Ecco perché gli economisti eseguono la regressione con errori standard "solidi" e statistici, con gli errori standard OLS predefiniti.s 2 ( X X ) - 1χ2s2(XX)1
  3. C'è stato molto lavoro nel dominio del tempo con processi spaziati regolarmente: è così che vengono raccolti i dati macroeconomici. I contributi unici comprendono processi integrati e cointegrati e metodi autoregressivi di eteroschedasticità condizionale ((G) ARCH). Essendo generalmente una persona micro, ho meno familiarità con questi.

Nel complesso, gli economisti tendono a cercare una forte interpretazione dei coefficienti nei loro modelli. Gli statistici prenderebbero un modello logistico come un modo per arrivare alla probabilità del risultato positivo, spesso come un semplice dispositivo predittivo, e potrebbero anche notare l'interpretazione GLM con belle proprietà esponenziali della famiglia che possiede, nonché connessioni con analisi discriminanti. Gli economisti penserebbero all'interpretazione dell'utilità del modello logit e si preoccuperebbero che in questo modello sia identificato solo e che l'eteroschedasticità possa annullarlo. (Gli statistici si chiederanno cosaσβ/σσ sono gli economisti che parlano, ovviamente.) Naturalmente, un'utilità che è lineare nei suoi input è una cosa molto divertente dal punto di vista della Microeconomia 101, sebbene alcune generalizzazioni a funzioni semi-concave siano probabilmente fatte in Mas-Collel.

Ciò che gli economisti generalmente tendono a perdere, ma, IMHO, ne trarrebbe vantaggio, sono aspetti dell'analisi multivariata (compresi i modelli di variabili latenti come modo per gestire errori di misurazione e proxy multipli ... gli statistici sono ignari di questi modelli, però) , diagnostica di regressione (tutte queste distanze di Cook, MallowsCp, DFBETA, ecc.), Analisi dei dati mancanti (l'identificazione parziale di Manski è sicuramente stravagante, ma la ripartizione MCAR / MAR / NMAR e l'imputazione multipla sono più utili) e le statistiche dell'indagine. Molti altri contributi delle statistiche tradizionali sono stati intrattenuti dall'econometria e adottati come una metodologia standard o passati come una moda a breve termine: i modelli ARMA degli anni '60 sono probabilmente più conosciuti in econometria che in statistica, come alcuni programmi di laurea nelle statistiche potrebbe non offrire un corso di serie storiche in questi giorni; stimatori di contrazione / regressione della cresta degli anni '70 sono venuti e se ne sono andati; il bootstrap degli anni '80 è una reazione istintiva per qualsiasi situazione complicata, sebbene gli economisti debbano essere più consapevoli dei limiti del bootstrap; la probabilità empirica degli anni '90 ha visto più sviluppo metodologico da econometrici teorici che da statistici teorici; i metodi bayesiani computazionali degli anni 2000 vengono intrattenuti in econometria, ma la mia sensazione è che siano troppo parametrici, troppo basati su modelli, per essere compatibili con il paradigma di robustezza che ho citato in precedenza. Se gli economisti troveranno un uso dell'apprendimento statistico / bioinformatica o roba spazio-temporale estremamente caldo nelle statistiche moderne è una richiesta aperta.


14
+1 Questo è uno splendido esempio di quali grandi risposte possano emergere quando una domanda viene aperta a una comunità diversificata .
whuber

1
@whuber, grazie per il commento. Le divisioni disciplinari mi fanno impazzire, francamente.
StasK,

@StasK Ottima risposta. Un punto veloce, però. "Nel complesso, gli economisti tendono a cercare una forte interpretazione dei coefficienti nei loro modelli". A rigor di termini, questo è leggermente errato poiché nell'analisi VAR (che è molto popolare quindi la tua affermazione non dovrebbe essere detta in termini di "complessivo") il punto centrale è interpretare le funzioni di risposta all'impulso piuttosto che interpretare i coefficienti del modello (spesso , sono troppo complicati per cercare di interpretare).
Graeme Walsh,

@GraemeWalsh - Vedo, come ho detto, non lavoro nelle macro / serie temporali. Grazie per averlo segnalato.
StasK,

20

È meglio spiegare in termini di regressione lineare, poiché è il principale strumento di econometria. Nella regressione lineare abbiamo un modello:

Y=Xβ+ε

La differenza principale tra altri campi statistici ed econometria è che è trattato come fisso in altri campi e trattato come variabile casuale in econometria. La cura extra che devi usare per adattarti a questa differenza produce gergo diverso e metodi diversi. In generale si può dire che tutti i metodi utilizzati in econometria sono gli stessi metodi di altri campi statistici con aggiustamento per la casualità delle variabili esplicative. L'eccezione notevole è GMM , che è strumento unicamente econometrico.X

Un altro modo di vedere la differenza è che i dati in altri campi statistici possono essere considerati come un campione iid. In econometria i dati in molti casi sono un campione del processo stocastico, di cui iid è solo un caso speciale. Quindi di nuovo gergo diverso.

Conoscere quanto sopra è di solito sufficiente per passare facilmente da altri campi statistici all'econometria. Poiché di solito viene fornito il modello, non è difficile capire cosa sia cosa. Secondo la mia opinione personale, la differenza gergale tra apprendimento automatico e statistica classica è molto maggiore rispetto a quella tra econometria e statistica classica.

Si noti tuttavia che esistono termini che hanno contorto significato nelle statistiche senza econometria. L'esempio principale è effetti fissi e casuali. Gli articoli di Wikipedia su questi termini sono un disastro, mescolando l'econometria con la statistica.


5
"Il primo esempio sono effetti fissi e casuali. Gli articoli di Wikipedia su questi termini sono un disastro, mescolando l'econometria con la statistica." Così vero.
Michael Bishop,

8

Una sottile differenza è che a volte gli economisti attribuiscono significato ai termini di errore nei modelli. Ciò è particolarmente vero tra gli economisti "strutturali" che credono che sia possibile stimare i parametri strutturali che rappresentano l'interesse o l'eterogeneità individuale.

Un esempio di classe di questo è il probit. Mentre gli statistici sono generalmente agnostici su ciò che provoca il termine di errore, gli economisti spesso vedono i termini di errore nelle regressioni come rappresentando l'eterogeneità delle preferenze. Nel caso probit, potresti modellare la decisione di una donna di unirsi alla forza lavoro. Questo sarà determinato da una varietà di variabili, ma il termine di errore rappresenterà un grado inosservato in cui le preferenze individuali per il lavoro possono variare.


4
Mentre gli statistici possono essere agnostici su ciò che provoca il termine di errore, ciò non significa che non gliene importi. Quello che stai descrivendo è l'eterogeneità del termine di errore, il che significa che le solite ipotesi sui termini di errore non sono soddisfatte. Nessuno statistico lo ignorerà.
mpiktas,

2
È interessante notare che, in questo caso, non vi è alcun problema con la forma del termine di errore. Sia gli statistici che gli economisti si alzeranno in armi e si preoccuperanno dell'eteroschedasticità o di altri termini di errore non iid. Tuttavia, anche se il termine di errore è N (0,1) come in un probit, gli economisti sono in grado di dargli un'interpretazione economica.
d_a_c321,

5
Questo vale per la modellazione in generale. L'interpretazione del modello nel tuo modo speciale non è limitata agli economisti, per quanto riguarda la mia esperienza.
mpiktas,

Non sono d'accordo. Gli economisti hanno chiaramente il monopolio dell'interpretazione intelligente dei modelli <sto scherzando!>. Buon punto però.
d_a_c321,

8

Naturalmente, qualsiasi affermazione generale è destinata ad essere eccessivamente ampia. Ma la mia esperienza è stata che l'econometria è preoccupata per le relazioni causali e la statistica è diventata più interessata alla previsione.

Dal punto di vista economico, non si può evitare la letteratura sulla "rivoluzione della credibilità" ( Mostly Harmless Econometrics , ecc.). Gli economisti sono concentrati sull'impatto di un certo trattamento su alcuni risultati con un occhio alla valutazione e alla raccomandazione delle politiche.

Dal punto di vista statistico, si nota l'ascesa del data mining / machine learning con applicazioni all'analitica e alla genetica online come esempi notevoli. Qui, i ricercatori sono più interessati a prevedere comportamenti o relazioni, piuttosto che spiegarli con precisione; cercano schemi, piuttosto che cause.

Vorrei anche menzionare che gli statistici erano tradizionalmente più interessati alla progettazione sperimentale, tornando agli esperimenti agricoli negli anni '30.


7

Ho notato che rispetto a ciò che definirei econometrici di scienza statistica tradizionale sembrano riluttanti a usare grafici, sia schematici che basati sui dati. La copertura della regressione, che è naturalmente ancora più centrale nell'econometria che altrove, è un caso importante. Le moderne introduzioni alla regressione da parte degli statistici sottolineano tutto il valore della stampa dei dati e della stampa dei risultati della regressione, compresi i diagrammi diagnostici, mentre il trattamento nei testi di econometria è decisamente più formale. I testi di spicco in econometria non includono molti grafici e non ne promuovono fortemente il valore.

È difficile analizzarlo senza il rischio di sembrare non siplomatico o peggio, ma immagino che una combinazione dei seguenti sia un contributo.

  1. Desiderio di rigore. Gli econometrici tendono ad essere sospettosi o ostili all'apprendimento dei dati e preferiscono fortemente che le decisioni si basino su test formali (ogni volta che non escono da un teorema). Ciò è legato alla preferenza per i modelli basati sulla "teoria" (anche se ciò può significare solo che un economista non ha parlato di dati in precedenza in un articolo in precedenza in un articolo).

  2. Pratiche di pubblicazione. I documenti per le riviste di economia o econometria sono ricchi di tabelle di coefficienti altamente stilizzate, errori standard, statistiche t e valori P. L'aggiunta di grafici non sembra nemmeno essere pensata in molti casi e se offerta potrebbe essere suggerita per il taglio da parte dei revisori. Queste pratiche sono state incorporate su una generazione o più nella misura in cui sono diventate automatiche, con convenzioni rigide su livelli di significati speciali, ecc.

  3. Grafica per modelli complessi. I grafici tacitamente vengono ignorati ogni volta che non sembra che ci sia un grafico che abbina un modello complesso con molti predittori, ecc., Ecc. (Che in effetti è spesso difficile da decidere).

Naturalmente, ciò che sto suggerendo è una differenza di mezzi, per così dire, e riconosco molta variabilità in entrambi i casi.


4

A differenza della maggior parte delle altre discipline quantitative, l'economia si occupa delle cose al MARGIN. Cioè, utilità marginale, tasso marginale di sostituzione, ecc. In termini di calcolo, l'economia si occupa del "primo" (e dei derivati ​​di ordine superiore).

Molte discipline statistiche si occupano di quantità non derivate come medie e varianze. Naturalmente, puoi andare nell'area delle distribuzioni di probabilità marginali e condizionali, ma alcune di queste applicazioni vanno anche in economia (ad esempio "valore atteso").


2

Non è econometria, è contesto. Se la tua funzione di probabilità non ha un unico ottimale, riguarderà sia uno statistico che un econometrico. Ora, se si propone un presupposto che deriva dalla teoria economica e limita la parametrizzazione in modo che il parametro sia identificato, potrebbe essere chiamato econometria, ma l'assunzione potrebbe provenire da qualsiasi campo sostanziale.

L'esogeneità è una questione filosofica. Vedi ad esempio http://andrewgelman.com/2009/07/disputes_about/ per un confronto di diverse opinioni, dove gli economisti in genere lo capiscono come fa Rubin.

Quindi, in breve, o adotta il gergo usato dal tuo insegnante, oppure mantieni la mente aperta e leggi ampiamente.


2

Gli econometrici sono quasi esclusivamente interessati all'inferenza causale, mentre gli statistici usano anche modelli per prevedere i risultati. Di conseguenza, gli econometrici si concentrano maggiormente sull'esogeneità (come altri hanno già detto). Gli econometrici di forma ridotta e gli econometrici strutturali ottengono questa interpretazione causale in diversi modi.

Gli econometrici in forma ridotta spesso affrontano l'esogeneità usando tecniche di variabili strumentali (mentre IV è usato molto meno frequentemente dagli statistici.)

Gli econometrici strutturali ottengono interpretazioni causali dei parametri basandosi su una quantità di teoria rara nel lavoro degli statistici.


1
La IV è usata in abbondanza dai non statistici, e l'econometria a forma ridotta usa molte tecniche per l'inferenza causale oltre al solo IV (diff-in-diff, discontinuità di regressione, ecc.). Vedi questo articolo di Imbens per una riconciliazione di econometria IV con recenti sviluppi statistici non econometrici IV.
Ari B. Friedman,

2

Come statistico penso a questo in termini più generali. Abbiamo biometria ed econometria. Queste sono entrambe aree in cui le statistiche vengono utilizzate per risolvere i problemi. Con la biometria abbiamo a che fare con problemi biologici / medici mentre l'econometria si occupa di economia. Altrimenti sarebbero gli stessi, tranne che discipline diverse enfatizzano tecniche statistiche diverse. In biometria l'analisi di sopravvivenza e l'analisi della tabella di contingenza sono ampiamente utilizzate. Per econometria le serie temporali sono molto utilizzate. L'analisi di regressione è comune ad entrambi. Dopo aver visto le risposte sulle differenze terminologiche tra economatrics e biostatistica, sembra che la vera domanda riguardasse principalmente la terminologia e in realtà ho affrontato solo le altre due. Le risposte sono così buone che non posso aggiungere nulla. Mi sono piaciute particolarmente le risposte di StasK. Ma come biostatista penso che usiamo il modello logit e il modello logistico in modo intercambiabile. Chiamiamo log (p / [1-p]) la trasformazione del logit.


2
(+1) È possibile aggiungere psicometria all'elenco delle applicazioni specifiche del dominio delle statistiche applicate ai problemi specifici del dominio.
Andy W,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.