Perché i ricercatori in economia usano la regressione lineare per le variabili di risposta binaria?


13

Ultimamente, ho dovuto leggere diversi articoli in economia (un campo che non conosco troppo). Una cosa che ho notato è che anche quando la variabile di risposta è binaria, i modelli di regressione lineare montati utilizzando OLS sono onnipresenti. La mia domanda è quindi:

Perché la regressione lineare è favorita, ad esempio, dalla regressione logistica nel campo dell'economia? È semplicemente una pratica comune o è una procedura che è attivamente sostenuta (nei documenti, dagli insegnanti, ecc.)?

Si noti che non sto chiedendo perché utilizzare la regressione lineare con una risposta binaria possa essere una cattiva idea o quali siano i metodi alternativi. Al contrario, mi chiedo perché le persone usano la regressione lineare in questa impostazione perché conosco le risposte a queste due domande.


5
Puoi fare qualche esempio?
Stephan Kolassa,

7
Questo non è corretto L'economia e l'econometria hanno anche una vasta letteratura su logit e probit e modelli correlati. Anch'io sono un estraneo e non riesco a quantificare facilmente l'uso relativo, ma la letteratura è abbastanza grande da confutare "onnipresente" (cioè ovunque!). C'è una domanda qui sul perché il cosiddetto modello di probabilità lineare sia usato affatto e non credo che la spiegazione debba essere profonda o difficile da trovare: è semplice da capire e talvolta funziona in modo adeguato.
Nick Cox,

3
L'economia ha solo una relazione molto informale con la matematica. Non me ne preoccuperei troppo.
Sycorax dice di reintegrare Monica il

1
@Sycorax Ho una sensazione simile. E se uno è sciatto con la matematica, sarà comunque in grado di costruire qualcosa che "funzioni".
Haitao Du,

1
@Sycorax Non è né vero né giusto. Certamente, affermando che "Non ti preoccuperesti troppo" è irresponsabile alla domanda. A seconda del sottocampo, l'economia può avere relazioni molto forti con la matematica e la statistica. È solo che gli economisti si occupano spesso di inferenza causale mentre devono anche occuparsi di dati osservativi (come fanno molte scienze sociali). Ciò rende estremamente difficile stabilire un forte rigore matematico senza introdurre intuizioni economiche.
Atti

Risposte:


18

Questo post sul blog sul blog di econometria di Dave Giles delinea principalmente gli svantaggi del Linear Probability Model (LPM).

Tuttavia , include un breve elenco di motivi cui i ricercatori scelgono di usarlo:

  • È più semplice dal punto di vista computazionale.
  • È più facile interpretare gli "effetti marginali".
  • Evita il rischio di errata specificazione della "funzione di collegamento".
  • Ci sono complicazioni con Logit o Probit se si hanno regressori fittizi endogeni.
  • Gli effetti marginali stimati dai modelli LPM, Logit e Probit sono in genere molto simili, soprattutto se si dispone di un campione di grandi dimensioni.

Non so che l'LPM è tutto quello comunemente usato rispetto al logit o al probit, ma alcuni di questi motivi sopra riportati sono sensati per me.


2
+1, grazie per il termine modello di probabilità lineare, non lo sapevo prima.
Haitao Du,

1
C'è una grande sezione su questo in "Mostly Harmless Econometrics" di Angrist e Pischke, se ti interessa di più.
shf8888,

2

Ho avuto domande simili quando ho letto documenti di altri documenti. E ho posto molte domande relative a questo, come questo nella community Education Data Mining: Perché usare la perdita quadrata sulle probabilità invece della perdita logistica?

Qui presenterò molte opinioni personali.


Sento che la funzione di perdita non conta troppo in molti casi di utilizzo pratico. Alcuni ricercatori potrebbero sapere di più sulla perdita quadrata e costruirne un sistema, funziona ancora e risolve i problemi del mondo reale. I ricercatori potrebbero non conoscere mai la perdita logistica o la perdita dei cardini e vogliono provarla. Inoltre, potrebbero non essere interessati a trovare il modello matematico ottimale, ma vogliono risolvere problemi reali che nessuno ha mai tentato di risolvere prima.

Questo è un altro esempio: se controlli questa risposta alla mia domanda, sono tutti simili. Quali sono gli impatti della scelta delle diverse funzioni di perdita nella classificazione per approssimare la perdita 0-1


Altre riflessioni: una ricerca sull'apprendimento automatico può dedicare molto tempo a quale modello scegliere e come ottimizzare il modello. Questo perché un ricercatore di machine learning potrebbe non essere in grado di raccogliere più dati / ottenere più misure. E il lavoro di un ricercatore di machine learning sta migliorando la matematica, non risolvendo meglio uno specifico problema del mondo reale.

D'altra parte, nel mondo reale, se i dati sono migliori, batte ogni cosa. Quindi, la scelta della rete neurale o della foresta casuale potrebbe non importare troppo. Tutti questi modelli sono simili a quelli che una persona desidera utilizzare l'apprendimento automatico come strumento per risolvere i problemi del mondo reale. Una persona non interessata allo sviluppo di matematica o strumenti può dedicare più tempo all'utilizzo di conoscenze di dominio specifiche per migliorare il sistema.

Come ho già detto nel commento. E se uno è sciatto con la matematica, sarà ancora in grado di costruire qualcosa che funzioni.


1
(+1) Ci sono un sacco di "virgolette" hxd, cosa significano comunicare? "Funziona" significa "pensano che funzioni, ma non" o significa "funziona"?
Matthew Drury,

@MatthewDrury grazie per il commento. Penso di avere molti sentimenti personali e non so come scriverli. Penso che molti di loro non siano formali o troppo soggettivi. ecco perché avevo molte citazioni.
Haitao Du,

Penso che sia più chiaro etichettarli come opinioni personali. Questo è ciò che faccio in classe con gli studenti: "Questo è al limite dell'opinione personale, ma gli SVM fanno schifo" (non è un vero esempio, o è ...)
Matthew Drury,

@MatthewDrury grazie per avermi consigliato di scrivere, no non ci sono citazioni nella risposta!
Haitao Du,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.