Sto cercando di trovare la correlazione tra una dicotomia e una variabile continua.
Dal mio lavoro a terra su questo ho scoperto che devo usare un test t indipendente e il presupposto è che la distribuzione della variabile deve essere normale.
Ho eseguito il test di Kolmogorov-Smirnov per testare la normalità e ho scoperto che la variabile continua non è normale ed è inclinata (per circa 4.000 punti dati).
Ho fatto il test di Kolmogorov-Smirnov per l'intera gamma di variabili. Devo dividerli in gruppi ed eseguire il test? Vale a dire, se ho risk level
( 0
= non rischioso, 1
= rischioso) e livelli di colesterolo, allora dovrei:
Dividili in due gruppi, come
Risk level =0 (Cholestrol level) -> Apply KS Risk level =1 (Cholestrol level) -> Apply KS
Riunirli e applicare il test? (L'ho eseguito su tutto il set di dati.)
Dopodiché, quale test devo fare se non è ancora normale?
EDIT: lo scenario sopra era solo una descrizione che ho cercato di fornire per il mio problema. Ho un set di dati che contiene più di 1000 variabili e circa 4000 campioni. Sono di natura continua o categorica. Il mio compito è predire una variabile dicotomica basata su queste variabili (magari trovare un modello di regressione logistica). Quindi ho pensato che l'indagine iniziale avrebbe comportato la ricerca della correlazione tra dicotomia e una variabile continua.
Stavo cercando di vedere come sono le distribuzioni delle variabili e quindi ho cercato di passare al test t. Qui ho trovato la normalità come un problema. Il test di Kolmogorov-Smirnov ha dato un valore di significatività di 0,00 nella maggior parte di queste variabili.
Dovrei assumere la normalità qui? L'asimmetria e la curtosi di queste variabili mostrano anche che i dati sono inclinati (> 0) in quasi tutti i casi.
Come da nota di seguito, esaminerò ulteriormente la correlazione punto-biseriale. Ma sulla distribuzione delle variabili non sono ancora sicuro.