Correlazioni tra variabili continue e categoriali (nominali)


42

Vorrei trovare la correlazione tra una variabile continua (variabile dipendente) e una categorica (nominale: genere, variabile indipendente). I dati continui non vengono normalmente distribuiti. Prima l'avevo calcolato usando Spearman's . Tuttavia, mi è stato detto che non è giusto.ρ

Durante la ricerca su Internet, ho scoperto che il boxplot può fornire un'idea di quanto siano associati; tuttavia, ero alla ricerca di un valore quantificato come coefficiente di momento del prodotto di Pearson o di Spearman . Potete per favore aiutarmi su come farlo? Oppure, informare su quale metodo sarebbe appropriato?ρ

Point Biserial Coefficient sarebbe l'opzione giusta?


Normalmente, non si può consigliare solo sulla base del formato dei dati! Cosa rappresentano i dati e cosa vuoi ottenere con la tua analisi?
kjetil b halvorsen,

1
Grazie kjetil, vorrei confrontare l'associazione tra genere e altre variabili continue. Semplicemente sapere quali variabili continue sono moderatamente / fortemente correlate e quali variabili no.
Md. Ferdous Wahid,

1
Sembra un duplicato di stats.stackexchange.com/questions/25229/… Puoi dirci se le risposte a quello ti aiutano?
kjetil b halvorsen,

Sì, la mia domanda è simile a quella. Tuttavia, ho ricevuto un feedback in cui il recensore ha indicato che di Spearman non è appropriato. La mia dimensione del campione è 31. Secondo la risposta (il link fornito), il non normale non sarebbe un problema e qualsiasi metodo di correlazione può essere usato (Spearman / Pearson / Point-Biserial) per il set di dati di grandi dimensioni. Sarebbe vero anche per il piccolo set di dati? A proposito, il genere non è una scala nominale dicotomica creata artificialmente. Il link sopra dovrebbe usare il coefficiente di correlazione biseriale. ρ
Md. Ferdous Wahid,

3
Correlazione tra statal
ttnphns

Risposte:


25

Il recensore avrebbe dovuto dirti perché Spearman non è appropriato. Ecco una versione di questo: Lascia che i dati siano ( Z i , I i ) dove Z è la variabile misurata e I è l'indicatore di genere, supponiamo che sia 0 (uomo), 1 (donna). Quindi ρ di Spearman viene calcolato in base ai ranghi di Z , I rispettivamente. Poiché ci sono solo due possibili valori per l'indicatore I , ci saranno molti legami, quindi questa formula non è appropriata. Se sostituisci il rango con il rango medio, otterrai solo due valori diversi, uno per gli uomini, l'altro per le donne. Quindi ρρ(Zi,Ii)ZIρZ,IIρdiventerà sostanzialmente una versione riscalata dei ranghi medi tra i due gruppi. Sarebbe più semplice (più interpretabile) semplicemente confrontare i mezzi! Un altro approccio è il seguente.

Sia le osservazioni della variabile continua tra gli uomini, Y 1 , ... , Y m lo stesso tra le donne. Ora, se la distribuzione di X e di Y sono uguali, allora P ( X > Y ) sarà 0,5 (supponiamo che la distribuzione sia puramente assolutamente continua, quindi non ci sono legami). Nel caso generale, definire θ = P ( X > Y ) dove X è un pareggio casuale tra gli uomini, YX1,,XnY1,,YmXYP(X>Y)

θ=P(X>Y)
XYtra le donne. Possiamo stimare dal nostro campione? Forma tutte le coppie ( X i , Y j ) (non assumere legami) e conta per quante ne abbiamo "uomo è più grande" ( X i > Y j ) ( M ) e per quante "donna è più grande" ( X i < Y j ) ( W ). Quindi una stima del campione di θ è Mθ(Xi,Yj)Xi>YjMXi<YjWθ Questa è una misura ragionevole di correlazione! (Se ci sono solo alcuni legami, ignorali). Ma non sono sicuro di come si chiama, se ha un nome. Questo potrebbe essere vicino: https://en.wikipedia.org/wiki/Goodman_and_Kruskal%27s_gamma
MM+W

5
La correlazione dei ranghi di Spearman è solo la correlazione di Pearson applicata ai ranghi della variabile numerica e ai valori della variabile binaria originale (la classifica non ha alcun effetto qui). Quindi il rho di Spearman è l'analogo di rango della correlazione Point-biserial. Non vedo alcun problema nell'uso descrittivo del rho di Spearman in questa situazione.
Michael M,

Michael Mayer: Sì, potrebbe funzionare, forse, ma ha senso? Non fornisce informazioni che non sono contenute in qualche differenza di mezzi! e questo è più direttamente interpretabile.
kjetil b halvorsen,

1
La differenza nei ranghi è molto più semplice da interpretare come il rho di Spearman? Anche in questo caso, definiresti il ​​rho di Spearman sbagliato? Purtroppo non vediamo il ragionamento dei recensori.
Michael M,

1
Quello che suggerisci è carino. Sembra essere correlato alla statistica test del test a due campioni di Wilcoxon, che è di per sé simile alla correlazione di rango di Kendall tra l'esito numerico e la variabile del gruppo binario.
Michael M,

1
@ tao.hong In che senso pensi che sia asimmetrico? Se si passa etichette (uomini / donne), allora sia e θ interruttori nello stesso modo, a 1 - θ . θθ^1θ
kjetil b halvorsen,

8

Sto riscontrando lo stesso problema ora. Non ho ancora visto nessuno fare riferimento a questo, ma sto studiando la correlazione punto-biseriale che si basa sul coefficiente di correlazione di Pearson. È medio per una variabile continua e una variabile dicotomica.

Lettura rapida: https://statistics.laerd.com/spss-tutorials/point-biserial-correlation-using-spss-statistics.php

Uso R, ma trovo che SPSS abbia un'ottima documentazione.


1
Ottimo riferimento per trovare una correlazione tra una variabile continua e una variabile dicotomica! Tuttavia, le ipotesi elencate sono un po 'forti.
DOMENICA

1

Sembrerebbe che il confronto più appropriato sarebbe quello di confrontare le mediane (in quanto non è normale) e la distribuzione tra le categorie binarie. Suggerirei il test non parametrico di Mann-Whitney ...


6
Mentre il Mann-Whitney sarebbe un modo per identificare lo spostamento di posizione in una variabile (o in effetti forme più generali di dominio stocastico) attraverso una variabile categoriale binaria, il Mann-Whitney non confronta i mediani, almeno non senza ipotesi aggiuntive.
Glen_b -Restate Monica

1

Per il problema specificato, può essere utile misurare l'area sotto la curva di un operatore ricevente La curva caratteristica.

Non sono un esperto in questo, quindi cerco di mantenerlo semplice. Si prega di commentare qualsiasi errore o interpretazione errata in modo che io possa cambiarlo.

xyxxx

xx

xx

L'affermazione di cui sopra è confermata con l'Area sotto la curva.

Esempio di buona correlazione (a destra) ed equa anticorrelazione (a sinistra) Esempio di buona correlazione (a destra) ed equa anticorrelazione (a sinistra).


1
Benvenuto in CV! La tua risposta è un po 'troppo breve e non sembra aiutare a trovare: "la correlazione tra una variabile continua (variabile dipendente) e una categorica (nominale: genere, variabile indipendente)" . Potresti modificare la tua risposta per includere come AUROC dovrebbe raggiungere questo obiettivo?
Frans Rodenburg,

-3

dovresti usare una tendenza lineare alternativa all'indipendenza. se non lo sai in questo modo, puoi studiare un'introduzione all'analisi categorica dei dati a pagina 41.


4
C'è già una risposta accettata. E non è chiaro a cosa contribuisca la tua risposta. Potresti spiegare di più? Presumo che tu faccia riferimento all'introduzione di Agresti all'analisi dei dati categorici. Si prega di fornire una citazione completa.
TEG - Ripristina Monica l'
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.