Qual è il modo migliore per visualizzare gli effetti delle categorie e la loro prevalenza nella regressione logistica?


11

Devo presentare informazioni sui principali predittori dei voti di un candidato utilizzando i dati di un sondaggio di opinione pubblica. Ho eseguito una regressione logistica utilizzando tutte le variabili che mi interessano, ma non riesco a trovare un buon modo per presentare queste informazioni.

Al mio cliente non interessa solo la dimensione dell'effetto, ma l'interazione tra la dimensione dell'effetto e la dimensione della popolazione con tale attributo.

Come posso gestirlo in un grafico? Eventuali suggerimenti?

Ecco un esempio:

Il della variabile SEX (Maschio = 1) quando la variabile dipendente è Vota / Non in un candidato è 2.3, che è un grande numero dopo essere stato esponenziato e trattato come rapporto di probabilità o probabilità. Tuttavia, la società in cui è stato condotto questo sondaggio aveva solo il 30% di uomini. Pertanto, sebbene l'uomo abbia sostenuto abbastanza questo candidato, il suo numero è insignificante per un candidato che cerca di vincere un'elezione maggioritaria.β


FWIW, l'uso del termine "interazione" non è corretto (vedere, ad esempio, qui o qui ). Direi qualcosa del tipo, "... ma sull'identificazione di situazioni in cui la dimensione dell'effetto è grande e anche la dimensione della popolazione con tale attributo è grande".
gung - Ripristina Monica

Risposte:


10

Sono d'accordo con @PeterFlom che l'esempio è strano, ma a parte ciò, noto che la variabile esplicativa è categorica. Se ciò è sempre vero, lo semplifica notevolmente. Vorrei usare i diagrammi a mosaico per presentare questi effetti. Un diagramma a mosaico mostra le proporzioni condizionali verticalmente, ma la larghezza di ciascuna categoria viene ridimensionata rispetto alla sua proporzione marginale (cioè incondizionata) nel campione.

Ecco un esempio con i dati del disastro del Titanic, creati usando R:

data(Titanic)

sex.table   = margin.table(Titanic, margin=c(2,4))
class.table = margin.table(Titanic, margin=c(1,4))
round(prop.table(t(sex.table), margin=2), digits=3)
#          Sex
# Survived  Male Female
#      No  0.788  0.268
#      Yes 0.212  0.732
round(prop.table(t(class.table), margin=2), digits=3)
#           Class
# Survived   1st   2nd   3rd  Crew
#      No  0.375 0.586 0.748 0.760
#      Yes 0.625 0.414 0.252 0.240

windows(height=3, width=6)
  par(mai=c(.5,.4,.1,0), mfrow=c(1,2))
  mosaicplot(sex.table,   main="")
  mosaicplot(class.table, main="")

inserisci qui la descrizione dell'immagine

A sinistra, vediamo che le donne avevano molte più probabilità di sopravvivere, ma gli uomini rappresentavano forse circa l'80% delle persone a bordo. Quindi aumentare la percentuale di sopravvissuti maschi avrebbe significato molte più vite salvate di un aumento persino maggiore della percentuale di donne sopravvissute. Questo è in qualche modo analogo al tuo esempio. C'è un altro esempio a destra in cui l'equipaggio e la guida costituivano la maggior parte delle persone, ma avevano la più bassa probabilità di sopravvivere. (Per quello che vale, questa non è un'analisi completa di questi dati, perché classe e sesso erano anche indipendenti dal Titanic, ma è sufficiente per illustrare le idee per questa domanda.)


5

Sono un po 'curioso di sapere quale società avesse solo il 10% di uomini ... ma ...

Una cosa che potresti fare è tracciare i rapporti di probabilità ed etichettare ognuno con le dimensioni del campione.

Se si desidera che entrambe le variabili vengano rappresentate graficamente, è possibile creare un grafico a bolle, con la posizione di ciascuna bolla sull'asse y corrispondente alla dimensione del rapporto di probabilità e l'area della bolla proporzionale alla dimensione del campione.


7
Forse questo .
Andre Silva,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.