Il passaggio da dati continui a categoriali è sempre sbagliato?


14

Quando ho letto su come impostare i tuoi dati, una cosa che ho incontrato spesso è che trasformare alcuni dati continui in dati categorici non è una buona idea, dal momento che potresti benissimo trarre una conclusione errata se le soglie sono scarsamente determinate.

Tuttavia, attualmente ho alcuni dati (valori di PSA per i pazienti con carcinoma della prostata), in cui penso che il consenso comune sia che se hai meno di 4 anni probabilmente non ce l'hai, se sei sopra sei a rischio, e quindi qualcosa di simile sopra 10 e 20, probabilmente ce l'hai. Qualcosa del genere. In tal caso, sarebbe ancora errato classificare i miei valori di PSA continui in gruppi di diciamo 0-4, 4-10 e> 10? Oppure va bene, dato che le soglie sono "ben determinate" per così dire.


5
Dipende (come al solito). Ad esempio, se stai studiando come i medici prenderanno le decisioni e loro prenderanno le decisioni in base a queste categorie, ti conviene usare le stesse categorie. Se invece studi le conseguenze biologiche associate al PSA elevato, molto probabilmente non vorrai affatto classificare il PSA. Pertanto, non esiste una risposta definitiva alla tua ampia domanda "va bene".
whuber

Cosa stai cercando di fare con i dati? I confini del genere non sono in genere correlati a ciò che vuoi capire, quindi metterli per mano significa chiedere la domanda?
Remco Gerlich,

Sto impostando i dati per un modello di regressione logistica. Quindi la domanda principale è in realtà se usare semplicemente i dati continui o avere invece dati discreti.
Denver Dang,

1
Non mi è chiaro quali siano i dati "continui". Non è qualcosa che esiste nella realtà. Non esiste una misurazione / statistica con precisione infinita.
JimmyJames,

1
@BillHorvath Sì, non sono un medico, quindi non sono del tutto sicuro di come sia stato determinato. Se dai solo un'occhiata alla pagina Wiki, indica un punto: "I livelli di PSA tra 4 e 10 ng / mL (nanogrammi per millilitro) sono considerati sospetti e si dovrebbe prendere in considerazione la conferma del PSA anormale con un test ripetuto. " e poi un altro posto: "Basso rischio: PSA <10, punteggio Gleason ≤ 6, E stadio clinico ≤ T2a Rischio intermedio: PSA 10-20, punteggio Gleason 7, OR stadio clinico T2b / c Alto rischio: PSA> 20 , Punteggio Gleason ≥ 8, OR stadio clinico ≥ T3 "
Denver Dang

Risposte:


23

C'è una forte discontinuità alle tue soglie?

Ad esempio, supponiamo di avere due pazienti A e B con valori 3.9 e 4.1 e altri due pazienti C e D con valori 6.7 e 6.9. La differenza nella probabilità di cancro tra A e B è molto più grande della differenza corrispondente tra C e D?

Se sì, allora ha senso la discretizzazione.

Altrimenti, le tue soglie potrebbero avere senso nel comprendere i tuoi dati, ma non sono "ben determinati" in senso statisticamente significativo. Non discretizzare. Invece, usa i punteggi dei test "così come sono" e, se sospetti un tipo di non linearità, usa le .

Questo è molto raccomandato.


2
Quel link in fondo è pieno di ottimi punti. I futuri lettori di questa risposta dovrebbero verificarlo.
eric_kernfeld,

Penso che discretizzare non abbia senso a meno che non ci sia un grande salto nel risultato dell'interruzione proposta E se il risultato è relativamente omogeneo all'interno di quei gruppi. Altrimenti, ci sono modi migliori per affrontare un "salto" nella funzione @Stephan Kolassa
LSC

1

Penso che la risposta standard sia sempre negativa perché perdi informazioni nel processo. È difficile credere che ci sia un caso in cui si otterrebbe qualcosa dal prendere i dati di intervallo naturali e renderli categorici.


La situazione appropriata sarebbe quella in cui vi è una vera discontinuità nella relazione di quella particolare x con il DV e che all'interno delle "categorie" il risultato è relativamente omogeneo.
LSC
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.