- Nella dicotomizzazione delle variabili, quali informazioni si perdono nel processo?
- In che modo una dicotomizzazione aiuta nelle analisi?
Risposte:
Quali informazioni vengono perse: dipende dalla variabile. In generale, dicotomizzando, stai affermando che esiste una linea retta di effetto tra una variabile e l'altra. Ad esempio, prendere in considerazione una misura continua dell'esposizione a un inquinante in uno studio sul cancro. Se lo dichiari in "Alto" e "Basso", affermi che questi sono gli unici due valori che contano. C'è un rischio di cancro in alto e ce n'è uno in basso. Ma cosa succede se il rischio aumenta costantemente per un po ', poi si appiattisce, quindi aumenta di nuovo prima di raggiungere i valori elevati? Tutto ciò è perduto.
Cosa ottieni: è più facile. Le variabili dicotomiche sono spesso molto più facili da gestire statisticamente. Ci sono ragioni per farlo - se una variabile continua si divide in due gruppi chiare in ogni caso , ma ho tendono ad evitare dicotomizzare meno che il suo una forma naturale della variabile, in primo luogo. Spesso è anche utile se il tuo campo sta comunque dicotomizzando le cose per avere una forma dicotomizzata di una variabile. Ad esempio, molti considerano il numero di cellule CD4 inferiori a 400 una soglia critica per l'HIV. Come tale, spesso avrei una variabile 0/1 per Above / Below 400, anche se conserverei anche la variabile di conteggio continua CD4. Questo aiuta a coerenza con il tuo studio con gli altri.
Non sarò leggermente d'accordo con Peter. Mentre dividere una variabile continua in categorie è spesso molto più sensato di una cruda dicotomizzazione, sono piuttosto contrario alla categorizzazione quantile. Tali categorizzazioni sono molto difficili da dare interpretazioni significative. Penso che il tuo primo passo dovrebbe essere quello di vedere se esiste una categorizzazione biologicamente o clinicamente ben supportata che puoi usare e solo una volta esaurite quelle opzioni dovresti usare i quantili.
La dicotimizzazione aggiunge un pensiero magico all'analisi dei dati. Molto raramente è una buona idea.
Ecco un articolo di Royston, Altman e Sauerbrei su alcuni motivi per cui è una cattiva idea.
I miei pensieri: se dicotomizzi una variabile dipendente, diciamo, peso alla nascita a 2,5 kg (questo viene fatto tutto il tempo), allora stai trattando i bambini nati a 2,49 kg proprio come quelli nati a 1,5 kg e i bambini nati a 2,51 kg proprio come quelli che sono 3,5 kg. Questo non ha senso.
Un'alternativa migliore è spesso la regressione quantile. Ne ho scritto di recente per NESUG. Quel documento è qui
Un'eccezione a quanto sopra è quando le categorie sono sostanzialmente motivate; ad esempio, se stai lavorando con il comportamento alla guida, sarà sensato classificare in base all'età legale per la guida.
Mi è piaciuto e supporta sia le risposte di @ Epigrad che quelle di @ Peter. Volevo solo aggiungere che la variabile dell'intervallo di binning in una binaria rende la variabile (potenzialmente) metrica solo una ordinale. Con la variabile binaria non è corretto calcolare la media o la varianza (nonostante ciò lo facciano alcune persone) e, come ho notato altrove , alcune analisi multivariate diventano teoricamente o logicamente inapplicabili. Ad esempio, penso che non sia corretto usare il clustering gerarchico centroide / Ward o l'analisi dei fattori con variabili binarie.
I clienti delle indagini spesso ci costringono a dicotomizzare le variabili in uscita perché pensare in termini di poche classi piuttosto che di un tratto continuo è più semplice, le informazioni sembrano meno confuse e (falsamente) più ingombranti.
Vi sono, tuttavia, casi in cui la dicotomizzazione può essere giustificata. Ad esempio, laddove esiste una forte bimodalità o quando l'analisi (ad esempio MAMBAC o altro) mostra la presenza di 2 classi latenti.