Regressione su tutta la popolazione


9

Qual è il significato dell'errore standard di un coefficiente in una regressione quando viene inclusa l'intera popolazione?

Sono stato così perplesso da questa domanda. Perché mi sembra che gli errori standard non abbiano senso quando l'intera popolazione è inclusa - non c'è bisogno di inferenza statistica poiché hai già tutta la popolazione.

Ma è così ampiamente utilizzato anche da molti articoli pubblicati su riviste specializzate. Ad esempio, se sto esaminando la relazione tra il tasso di crescita del PIL di un paese e la sua densità di popolazione, eseguo la regressione:

$$ GDP_i = \ alpha + \ beta Pop_i + \ gamma \ mathbf {X} _i + \ epsilon_i $$

con tutti i 195 paesi sulla terra. Nel caso, tutti i paesi (la popolazione) sono inclusi. Ma tutta la letteratura parla ancora dell'importanza statistica dei coefficienti.

Qualcuno potrebbe spiegare è un abuso di inferenza statistica durante la regressione su tutta la popolazione?


Questa domanda ha avuto risposta nella rete di statistiche. Vedere Qui . Fondamentalmente, le statistiche non hanno rilevanza. La "regressione" è un dispositivo puramente matematico.
luchonacho

@luchonacho La mia opinione è che questa domanda è in discussione qui rispetto ai contenuti che naturalmente abbiamo sovrapposto a stats.SE). Sono d'accordo che è essenzialmente un duplicato, però. Ho trovato una discussione su cosa fare con i duplicati cross-site qui: meta.stackexchange.com/questions/172307/...
jmbejara

@jmbejara Grazie per il riferimento. Buono a sapersi.
luchonacho

Questo sembra un altro riferimento pertinente. Discute una tecnica correlata chiamata inferenza di randomizzazione come discusso in Athey Imbens (2017). jasonkerwin.com/nonparibus/2017/09/25/...
jmbejara

Risposte:


3

Inizialmente avevo segnalato questa domanda ai moderatori per esaminare se sarebbe stato meglio migrare verso il sito di statistiche SE Cross Validated. Ma poiché il PO ha introdotto un esempio di econometria molto specifico, credo che il concetto (molto profondo) di "popolazione / campione" possa essere utilmente discusso ai fini di questo esempio.

Un primo numero è quello discusso nella risposta di @AdamBailey: se si considerano "tutti i paesi del mondo" per un dato anno o anno, e si etichettano i dati come "popolazione", l'anno successivo dovrebbe appartenere a una popolazione diversa. Se appartiene a una popolazione diversa, come possiamo utilizzare i risultati di una popolazione per fare riferimento a un'altra popolazione? Quindi, in effetti, qui la nostra "popolazione" è bidimensionale , nazione e periodo di tempo - e in questo senso, con l'orizzonte temporale a tempo indeterminato, abbiamo solo un campione nelle nostre mani.

Il secondo problema (in parte implicita nella risposta di @luchonacho) è la seguente: la nostra popolazione non è la realtà realizzazioni osservate delle variabili casuali "$ GDP_i, i = 1, .. n $ .Questi sono i dati. La nostra popolazione è la raccolta di variabili casuali stesse, che sono funzioni, non valori.

Quindi i nostri dati sono solo una delle possibili realizzazioni combinate di queste variabili casuali. Queste realizzazioni sono venute non solo come risultato di relazioni deterministiche / ingegneristiche / causalità (riflesse nei coefficienti), ma anche sotto l'effetto di fattori intrinsecamente casuali. In questo senso, i dati non sono un'immagine "pura / tipica" della "popolazione" - contiene rumore, disturbi non strutturali, shock una tantum, ecc.

Quindi questa incertezza porterà alla stima dei coefficienti che stiamo cercando di stimare, perché assumiamo che questi coefficienti descrivano causalità o co-movimento prima degli elementi casuali che influenzano il valore finale della variabile dipendente.

A causa di entrambi gli aspetti sopra, parlare di "errore standard di stima" è totalmente valido, anche in questo caso, e quindi applicare i test statistici come al solito.


6

È importante considerare quale sia esattamente la popolazione riguardo a quale inferenza viene tracciata. È facile trascurare l'aspetto del tempo in questo contesto.

Supponiamo ad esempio che l'obiettivo sia di prevedere il PIL dei prossimi due anni per ciascun paese nel mondo. Quindi la popolazione di interesse è un insieme di coppie della forma "paese, anno". Non è semplicemente "tutti i paesi", e anche se un modello di previsione è stato stimato mediante regressione sui dati degli anni passati e attuali per ciascun paese, ciò non significa che sia stata inclusa l'intera popolazione di interesse.

Se si inizia realmente da un set di dati completo per l'intera popolazione di interesse, tutto ciò che si può fare è calcolare le statistiche di riepilogo. Ciò potrebbe includere deviazioni standard, ma sarebbe inappropriato chiamare questi errori standard, poiché tale termine si riferisce a una distribuzione campionaria mentre l'unico "campione" in questo caso è l'intera popolazione.


Grazie mille. Solo per rendere più chiaro, ho aggiornato la domanda, sono "tutti i paesi" in questo caso considerati l'intera popolazione? Se non ci sono, significa che sono 'campioni' di qualche 'super-popolazione' - supponiamo che ci siano milioni di paesi nell '"universo parallelo", e che i 195 paesi sulla terra siano indipendentemente e identicamente distribuiti tra loro e sono casualmente campionati. Non è un'ipotesi troppo inverosimile?
Akira Osawa
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.