Correlazione tra variabile dicotomica e variabile continua


10

Sto cercando di trovare la correlazione tra una dicotomia e una variabile continua.

Dal mio lavoro a terra su questo ho scoperto che devo usare un test t indipendente e il presupposto è che la distribuzione della variabile deve essere normale.

Ho eseguito il test di Kolmogorov-Smirnov per testare la normalità e ho scoperto che la variabile continua non è normale ed è inclinata (per circa 4.000 punti dati).

Ho fatto il test di Kolmogorov-Smirnov per l'intera gamma di variabili. Devo dividerli in gruppi ed eseguire il test? Vale a dire, se ho risk level( 0= non rischioso, 1= rischioso) e livelli di colesterolo, allora dovrei:

  • Dividili in due gruppi, come

    Risk level =0 (Cholestrol level) -> Apply KS
    Risk level =1 (Cholestrol level) -> Apply KS
    
  • Riunirli e applicare il test? (L'ho eseguito su tutto il set di dati.)

Dopodiché, quale test devo fare se non è ancora normale?

EDIT: lo scenario sopra era solo una descrizione che ho cercato di fornire per il mio problema. Ho un set di dati che contiene più di 1000 variabili e circa 4000 campioni. Sono di natura continua o categorica. Il mio compito è predire una variabile dicotomica basata su queste variabili (magari trovare un modello di regressione logistica). Quindi ho pensato che l'indagine iniziale avrebbe comportato la ricerca della correlazione tra dicotomia e una variabile continua.

Stavo cercando di vedere come sono le distribuzioni delle variabili e quindi ho cercato di passare al test t. Qui ho trovato la normalità come un problema. Il test di Kolmogorov-Smirnov ha dato un valore di significatività di 0,00 nella maggior parte di queste variabili.

Dovrei assumere la normalità qui? L'asimmetria e la curtosi di queste variabili mostrano anche che i dati sono inclinati (> 0) in quasi tutti i casi.

Come da nota di seguito, esaminerò ulteriormente la correlazione punto-biseriale. Ma sulla distribuzione delle variabili non sono ancora sicuro.


1
La correlazione (di qualsiasi tipo) tra un continuo e una variabile binaria (di gruppo), non è molto più (e forse meno ...) di un semplice confronto di mezzi (una sorta di media ...) tra i gruppi, quindi di solito dovrebbe essere meglio farlo!
kjetil b halvorsen,

Risposte:


14

Sono leggermente confuso; il tuo titolo dice "correlazione" ma il tuo post fa riferimento a t-test. Un t-test è un test della posizione centrale - più specificamente, la media di un set di dati è diversa dalla media di un altro set? La correlazione, d'altra parte, mostra la relazione tra due variabili. Esistono diverse misure di correlazione, sembra che la correlazione punto-biseriale sia appropriata nel tuo caso.

Hai ragione che un test t assume la normalità; tuttavia, è probabile che i test di normalità forniscano risultati significativi anche per banali non normalità con una N di 4000. I test T sono abbastanza robusti per deviazioni modeste dalla normalità se le varianze delle due serie di dati sono approssimativamente uguali e il campione dimensioni approssimativamente uguali. Ma un test non parametrico è più robusto per i valori anomali e la maggior parte di essi ha una potenza quasi pari al test t, anche se le distribuzioni sono normali.

Tuttavia, nel tuo esempio, usi "colesterolo" come rischioso o non rischioso. Questa è quasi certamente una cattiva idea. La dicotomizzazione di una variabile continua invoca il pensiero magico. Dice che, ad un certo punto, il colesterolo passa da "non rischioso" a "rischioso". Supponiamo che tu abbia usato 200 come valore soglia - quindi stai dicendo che qualcuno con colesterolo di 201 è proprio come qualcuno con 400, e qualcuno con 199 è proprio come qualcuno con 100. Questo non ha senso.


2
Sono d'accordo e penso che la maggior parte di noi sia d'accordo sul fatto che la dicotomizzazione spreca informazioni e che può essere un metodo grezzo o grossolano o goffo. Penso solo che l'argomento del "pensiero magico" esca un po '. Scegliere di sorvolare una differenza non è lo stesso di credere che non ci sia differenza. Mi aspetto che ci saranno tempi futuri in cui troverò conveniente e degno il compromesso per fare delle categorie da una variabile continua, a fini analitici o di reporting. Solo i miei 2 centesimi.
rolando2,

2
R2

6

Semplifichiamo le cose. Con N = 4.000 per il livello di colesterolo, non dovresti avere problemi con i tuoi risultati distorti dagli outlier. Pertanto è possibile utilizzare la correlazione stessa, come implica la frase iniziale. Farebbe poca differenza se si valuta la correlazione tramite il metodo Pearson, Spearman o Point-Biserial.

Se invece si ha realmente bisogno di risultati frase in termini di tipica differenza tra colesterolo ad alto rischio e di gruppi a basso rischio, il test di Mann-Whitney U è bene per l'uso, ma si può anche utilizzare il più informativo t -test. Con questa N (e ancora, con valori anomali astronomici qualcosa che non puoi certo escludere), non devi preoccuparti che la mancanza di normalità comprometterà i tuoi risultati.


Grazie per la tua risposta. Ma se devo sapere che i valori anomali fanno una grande distorsione, è corretto usare la curtosi e l'asimmetria per rilevarlo? Nel caso in cui ciò sia vero al di sopra di quali valori di curtosi e asimmetria dovrei supporre che la distribuzione non sia normale. Grazie per la risposta
Sree Aurovindh,

Sto assumendo, sulla base di conoscenze limitate sul contenuto, che con il colesterolo non avrai valori di ordini di grandezza molti più alti degli altri. Ecco perché penso che tu possa usare un metodo parametrico come correlazione o un test t. Non è che penso che la distribuzione sia normale. Non è necessario che sia normale. A proposito, alla luce della risposta di Peter: credevo (e spero) che tu avessi qualche fonte dello stato di Alto / Basso Rischio che era indipendente dal punteggio del colesterolo. Concordo sul fatto che probabilmente non è utile dicotomizzare.
rolando2,

2
Posso suggerirti di aggiungere una sezione alla tua domanda originale, contrassegnata con "EDIT: ....", che spiega quali domande rimangono per te che non sono state affrontate dalle risposte e dai commenti che hai ricevuto finora.
rolando2,

Grazie per il tuo suggerimento. Ho aggiornato lo stesso. Scusa per la domanda ambigua in primo luogo.
Grazie
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.