Qual è il modo migliore per visualizzare la relazione tra variabili discrete e continue?


19

Qual è il modo migliore per mostrare una relazione tra:

  • variabile continua e discreta,
  • due variabili discrete?

Finora ho usato grafici a dispersione per esaminare la relazione tra variabili continue. Tuttavia, in caso di variabili discrete, i punti dati vengono cumulati a determinati intervalli. Pertanto, la linea della migliore misura potrebbe essere distorta.


4
Per il caso discreto-discreto, questa risposta a una domanda in qualche modo correlata qui , sulla stampa di dati categorici ordinati può aiutare (sebbene possibilmente senza le caselle nel tuo caso). Non sono davvero sicuro di come pensi che sorga questo "pregiudizio"; influirebbe sull'impressione visiva dei punti dati (portando ad aspettarsi che la linea vada in un posto diverso da dove dovrebbe) ma non i dati effettivi stessi. Puoi spiegare il tuo ragionamento qui?
Glen_b

Risposte:


26

Sotto: la trama originale può essere fuorviante perché la natura discreta delle variabili fa sovrapporre i punti:

inserisci qui la descrizione dell'immagine

Un modo per aggirare il problema è introdurre un po 'di trasparenza nel simbolo dei dati:

inserisci qui la descrizione dell'immagine

Un altro modo è spostare leggermente la posizione del simbolo per creare una macchia. Questa tecnica si chiama "jittering:"

inserisci qui la descrizione dell'immagine

Entrambe le soluzioni ti permetteranno comunque di adattare una linea retta per valutare la linearità.

Codice R per il tuo riferimento:

x <- trunc(runif(200)*10)
y <- x * 2 + trunc(runif(200)*10)
plot(x,y,pch=16)
plot(x,y,col="#00000020",pch=16)
plot(jitter(x),jitter(y),col="#000000",pch=16)

1
Bella risposta. Che dire di un grafico a dispersione di bolle con conteggi di istanze variabili? Ho provato a usare queste tecniche su un enorme set di dati e il rendering degli alfa ha richiesto troppo tempo.
josh

14

Vorrei usare i grafici a scatole per visualizzare la relazione tra una variabile discreta e una variabile continua. Puoi rendere i tuoi grafici a scatole verticali o orizzontali con un software statistico standard, quindi è facile visualizzarlo come IV o DV. Si è possibile utilizzare una dispersione con una variabile discreta e continua, basta assegnare un numero alla variabile discreta (ad esempio 1 e 2), jitter quei valori (plot nota di testa a destra qui ).

Per quanto riguarda il tuo commento che la linea della migliore misura potrebbe essere distorta, dipende da quello che hai. Ad esempio, se hai una variabile discreta con due livelli come IV e una variabile continua come DV, puoi tracciare una linea attraverso i due mezzi e questo non sarà distorto. (Di solito pensiamo che questa situazione sia appropriata per un test t, ma in realtà è una forma - cioè un semplice caso - di regressione, vedi la mia risposta qui .) D'altra parte, se hai un discreto la variabile con due livelli come regressione DV, standard (OLS) sarebbe inappropriata (sarebbe richiesta la regressione logistica) e la linea di adattamento migliore sarebbe di parte, ma potresti inserire (e tracciare) una linea di basso come parte della tua iniziale esplorazione dei dati.

Per visualizzare la relazione tra due variabili discrete, vorrei usare una trama a mosaico . È inoltre possibile utilizzare un diagramma di setaccio , un diagramma di associazione o un diagramma di pressione dinamica con alcune programmazioni.


8

Quando si considera la relazione tra una variabile risultato binario e un predittore continuo, userei l'agevole loess (con valore anomalo rilevamento disattivato, per esempio, in R lowess(x, y, iter=0).

Nella prossima versione del Hmiscpacchetto R è possibile creare facilmente un singolo latticeelemento grafico che inserisce tali curve in un display multipanel per più predittori, ad es.

summaryRc(heart.attack ~ age + blood.pressure + weight, data=mydata)

1

Se non sei soddisfatto dei semplici grafici a dispersione, potresti voler aggiungere le frequenze dei punti dati a ciascun valore della variabile discreta. Come fare, dipende solo dal programma statistico che stai utilizzando. Ecco un esempio di Stata. Puoi anche applicarlo al grafico a dispersione di due variabili categoriali. In caso contrario, un diagramma a riquadri o grafici a barre sovrapposti potrebbe andare bene, ma ciò dipende in realtà da come si desidera presentare queste variabili.


1

Ho trovato un documento applicabile sull'associazione tra due variabili binarie su http://www.boekboek.com/xb130929113026 - qui, in quell'articolo è mostrato e dimostrato che la forza dell'associazione tra due variabili binarie può essere espressa come una frazione di associazione perfetta. Quindi diventa possibile e preferibile affermare: l'associazione tra la variabile A e la variabile B è ad esempio il 50% invece della contemporanea affermazione: OR = 9 (non facile da interpretare) o il rischio reale = 2 (contemporaneamente viene considerato il rischio relativo anche per essere una misura di associazione anche se in realtà è una funzione di associazione, prevalenza o incidenza e positività).

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.