Qual è il significato dei coefficienti di regressione logistica?


42

Attualmente sto leggendo un documento riguardante il luogo di voto e la preferenza di voto nelle elezioni del 2000 e del 2004. In esso, c'è un grafico che mostra i coefficienti di regressione logistica. Dagli anni passati e un po 'di lettura, Intendo la regressione logistica come un modo per descrivere la relazione tra più variabili indipendenti e una variabile di risposta binaria. Ciò di cui sono confuso, dato la tabella che segue, poiché il Sud ha un coefficiente di regressione logistica di 0,903, significa che il 90,3% dei meridionali vota repubblicano? A causa della natura logistica della metrica, questa correlazione diretta non esiste. Invece, suppongo che si possa solo dire che il sud, con .903, vota repubblicano più delle Montagne / pianure, con la regressione di .506. Considerato che quest'ultimo è il caso, come faccio a sapere cosa è significativo e cosa non lo è ed è possibile estrapolare una percentuale di voti repubblicani dato questo coefficiente di regressione logistica. Tabella che mostra i coefficienti di regressione logistica

Come nota a margine, si prega di modificare il mio post se qualcosa è dichiarato in modo errato


Questa è più una domanda successiva (e probabilmente non dovrei pubblicarla), ma hai trovato un buon modo per "è possibile estrapolare una percentuale" perché è praticamente quello che sto cercando.
Stefan Andersson,

2
Penso che sarebbe meglio per te formulare questa domanda come una domanda autonoma e pubblicarla separatamente anziché come risposta qui.
cardinale

Se qualcuno si sta chiedendo del documento, è SC McKee e JM Teigen's Probing the reds and blues: sezionismo e posizione degli elettori nelle elezioni presidenziali statunitensi del 2000 e del 2004 (2009) Geografia politica
Alex Nelson,

Risposte:


36

Che l'autore ha costretto qualcuno così premuroso come voi di avere fare una domanda come questa è illustrazione convincente del perché la pratica - ancora modo troppo comune - di confinare comunicazione dei risultati del modello di regressione ad un tavolo come questo è così inaccettabile.

  1. È possibile, come sottolineato, provare a trasformare il coefficiente di logit in qualche indicazione significativa dell'effetto stimato per il predittore in questione, ma è ingombrante e non fornisce informazioni sulla precisione della previsione, che di solito è piuttosto importante in un modello di regressione logistica (in particolare sul voto).

  2. Inoltre, l'uso di più asterischi per segnalare "livelli" di significato rafforza l'idea sbagliata che i valori p siano un indice significativo della dimensione dell'effetto ("wow - che uno ha 3 asterischi !!"); per gridare a squarciagola, con numeri da 10.000 a 20.000, differenze completamente banali saranno "significative" a p <.001 blah blah.

  3. Non è assolutamente necessario mistificare in questo modo. Il modello di regressione logistica è un'equazione che può essere utilizzata (attraverso un calcolo determinato o una migliore simulazione ancora) per prevedere la probabilità di un risultato in base a valori specificati per i predittori, soggetto a errore di misurazione. Quindi il ricercatore dovrebbe riferirequale sia l'impatto dei predittori di interesse sulla probabilità della variabile di risultato di interesse e della relativa IC, misurata in unità la cui importanza pratica può essere prontamente compresa. Per garantire una pronta comprensione, i risultati devono essere visualizzati graficamente. Qui, ad esempio, il ricercatore potrebbe riferire che essere un rurale piuttosto che un elettore urbano aumenta la probabilità di votare repubblicani, tutto sommato uguale, di X punti PCT (immagino intorno al 17 nel 2000; "dividi per 4" è un euristico ragionevole) +/- x% a un livello di confidenza di 0,95 - se è qualcosa che è utile sapere.

  4. La segnalazione di pseudo R ^ 2 è anche un segno che il modellatore è impegnato in rituali statistici piuttosto che in qualsiasi tentativo di illuminare. Esistono decine di modi per calcolare "pseudo R ^ 2"; si potrebbe lamentare che quello qui usato non è specificato, ma perché preoccuparsi? Tutti sono quasi insignificanti. L'unica ragione per cui qualcuno usa lo pseudo R ^ 2 è che loro o il recensore che li sta torturando hanno appreso (probabilmente 25 o più anni fa) che la regressione lineare OLS è il santo graal delle statistiche e pensa che l'unica cosa che si stia cercando di capire è "varianza spiegata". Esistono molti modi difendibili per valutare l'adeguatezza del modello globale adatto all'analisi logistica e il rapporto di verosimiglianza fornisce informazioni significative per il confronto di modelli che riflettono ipotesi alternative. King, G. Come non mentire con le statistiche. Am. J. Pol. Sci. 30, 666-687 (1986).

  5. Se leggi un articolo in cui la segnalazione è più o meno limitata a una tabella come questa, non lasciarti confondere, non lasciarti intimidire e sicuramente non lasciarti impressionare; invece sii arrabbiato e di 'al ricercatore che sta facendo un pessimo lavoro (in particolare se sta inquinando il tuo ambiente intellettuale locale con misticismo e soggezione - incredibile quanti pensatori completamente mediocri ingannano le persone intelligenti nel pensare di sapere qualcosa solo b / c possono produrre una tabella che quest'ultima non può capire). Per esposizioni intelligenti e temperate di queste idee, vedi King, G., Tomz, M. & Wittenberg., J. Sfruttare al massimo le analisi statistiche: migliorare l'interpretazione e la presentazione . Am. J. Pol. Sci. 44, 347-361 (2000); e Gelman, A., Pasarica, C. & Dodhia, R.Facciamo pratica di ciò che predichiamo: trasformare le tabelle in grafici . Am. Statistica. 56, 121-130 (2002).


19

plogp/(1p)

x=1/(1+ez)z=logx1xf1(x)=logx1xx0.3log0.3/0.70.85β00.9030.85+0.904=0.05plogp/(1p)f(0.05)1/(1+e0.05)0.510.4311.0511.05/0.43e0.903

0.85+0.37+0.68=+0.20f(0.20)=1/(1+e0.20)=0.55


2
euristico: dividi per 4 - logit coeff / 4 è circa pct-pt diff in prob. da 1 cambio di unità. Ciò non equivale a dire "persona con βsubn carattere caratteristico = z è probabile x%." Non solo (come notato) è necessario aggiungere βsub0 e sottrarre la probabilità associata alla classe di riferimento. È inoltre necessario tenere conto della collinearità del predittore. B / c essendo meridionale correlato con altri predittori, non sarà vero che prob. del sud di voto repub è βsub0 - probabilità di registro trasformate per NE più probabilità di registro trasformate per sud. Meglio dire che "tutto il resto uguale, essendo da sud prevede un cambio di punto x pct in prob di"
dmk38

1
"Le probabilità effettive sono passate da 0,43 a 1". Da dove venivano 0,43?
Monica Heddneck,

0.30.3/(10.3)0.43

6

I coefficienti nella regressione logistica rappresentano la tendenza per una determinata regione / demografia a votare repubblicano, rispetto a una categoria di riferimento. Un coefficiente positivo significa che la regione ha maggiori probabilità di votare repubblicani e viceversa per un coefficiente negativo; un valore assoluto più grande significa una tendenza più forte di un valore più piccolo.

Le categorie di riferimento sono "Nord-est" e "elettore urbano", quindi tutti i coefficienti rappresentano contrasti con questo particolare tipo di elettore.

In generale, non ci sono restrizioni sui coefficienti in una regressione logistica per essere in [0, 1], anche in valore assoluto. Si noti che l'articolo di Wikipedia stesso ha un esempio di regressione logistica con coefficienti di -5 e 2.


5

Hai anche chiesto "come faccio a sapere cosa è significativo e cosa no". (Suppongo che intendi statisticamente significativo, poiché il significato pratico o sostanziale è un'altra questione.) Gli asterischi nella tabella si riferiscono alla nota a piè di pagina: alcuni effetti sono noti come aventi piccoli valori p . Questi sono ottenuti usando un test di Wald del significato di ciascun coefficiente. Supponendo un campionamento casuale, p <.05 significa che, se non ci fosse un tale effetto nella popolazione più ampia, la probabilità di vedere una connessione forte come quella osservata, o più forte, in un campione di queste dimensioni sarebbe inferiore a .05 . Vedrai molti thread su questo sito che discutono il punto sottile ma importante che p <.05 non ha significa che esiste una probabilità 0,05 di non avere alcuna connessione nella popolazione più ampia.


5

Vorrei solo sottolineare l'importanza di ciò che entrambi hanno notato rolando2 e dmk38: il significato è comunemente frainteso e c'è un alto rischio che ciò accada con quella presentazione tabellare dei risultati.

Paul Schrodt ha recentemente offerto una bella descrizione del problema:

I ricercatori trovano quasi impossibile aderire alla corretta interpretazione del test di significatività. Il valore p ti dice solo la probabilità che otterrai un risultato nelle condizioni [di solito] completamente non realistiche dell'ipotesi nulla. Il che non è quello che vuoi sapere: di solito vuoi conoscere l'entità dell'effetto di una variabile indipendente, dati i dati. Questa è una domanda bayesiana, non una domanda frequente. Invece vediamo - costantemente - il valore p interpretato come se desse la forza dell'associazione: questo è l'onnipresente Culto Mistico delle Stelle e dei Valori P che permea i nostri diari. (Fn) Non è ciò che dice il valore p , né lo farà mai.

Nella mia esperienza, questo errore è quasi impossibile da evitare: anche gli analisti molto attenti che sono pienamente consapevoli del problema cambieranno spesso modalità quando discutono verbalmente i loro risultati, anche se hanno evitato il problema in un'esposizione scritta. E non speculiamo nemmeno sulle migliaia di ore e galloni di inchiostro che abbiamo speso per correggere questo in documenti laureati.

(fn) La nota a piè di pagina informa anche su un'altra questione, menzionata da dmk38: “[l'onnipresente Culto Mistico delle Stelle e dei Valori-P] soppiantò il precedente - e altrettanto pervasivo - Culto del più alto R2, demolito ... da King (1986) “.


oh-- Ho appena aggiunto King cite alla mia risposta modificata. L'articolo demolisce effettivamente la mania di R ^ 2 (ancora endemica dell'econometria) anche dove la statistica ha un significato - per la regressione OLS. King nota anche che lo pseudo R ^ 2 è incomprensibile che è stato prodotto per estendere la spensieratezza associata alla "varianza spiegata".
dmk38
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.