Qual è l'effetto delle variabili dicotomizzanti?

Nella dicotomizzazione delle variabili, quali informazioni si perdono nel processo?
In che modo una dicotomizzazione aiuta nelle analisi?

regression data-transformation binary-data

— mimi
fonte

Gelman e Park hanno un articolo che confronta la pratica di creare tre categorie da una variabile continua, invece di due. Di solito è meglio lasciare la variabile continua per i motivi spiegati da altri di seguito.

— Michael Bishop,

Risposte:

Quali informazioni vengono perse: dipende dalla variabile. In generale, dicotomizzando, stai affermando che esiste una linea retta di effetto tra una variabile e l'altra. Ad esempio, prendere in considerazione una misura continua dell'esposizione a un inquinante in uno studio sul cancro. Se lo dichiari in "Alto" e "Basso", affermi che questi sono gli unici due valori che contano. C'è un rischio di cancro in alto e ce n'è uno in basso. Ma cosa succede se il rischio aumenta costantemente per un po ', poi si appiattisce, quindi aumenta di nuovo prima di raggiungere i valori elevati? Tutto ciò è perduto.

Cosa ottieni: è più facile. Le variabili dicotomiche sono spesso molto più facili da gestire statisticamente. Ci sono ragioni per farlo - se una variabile continua si divide in due gruppi chiare in ogni caso , ma ho tendono ad evitare dicotomizzare meno che il suo una forma naturale della variabile, in primo luogo. Spesso è anche utile se il tuo campo sta comunque dicotomizzando le cose per avere una forma dicotomizzata di una variabile. Ad esempio, molti considerano il numero di cellule CD4 inferiori a 400 una soglia critica per l'HIV. Come tale, spesso avrei una variabile 0/1 per Above / Below 400, anche se conserverei anche la variabile di conteggio continua CD4. Questo aiuta a coerenza con il tuo studio con gli altri.

Non sarò leggermente d'accordo con Peter. Mentre dividere una variabile continua in categorie è spesso molto più sensato di una cruda dicotomizzazione, sono piuttosto contrario alla categorizzazione quantile. Tali categorizzazioni sono molto difficili da dare interpretazioni significative. Penso che il tuo primo passo dovrebbe essere quello di vedere se esiste una categorizzazione biologicamente o clinicamente ben supportata che puoi usare e solo una volta esaurite quelle opzioni dovresti usare i quantili.

— fomite
fonte

Ciao @epigrad. Penso che la regressione quantile abbia un'interpretazione abbastanza semplice; è molto simile alla normale regressione OLS, tranne per sostituire "XXX percentile" con "mean".

— Peter Flom - Ripristina Monica

@PeterFlom Mi dispiace, avrei dovuto essere più chiaro. Li trovo difficili da comporre come interpretazione clinicamente / biologicamente rilevante, rispetto alle categorie costruite da prove cliniche / biologiche. Questo è certamente un pregiudizio specifico del campo da parte mia.

— Fomite,

Oh, ok, @epigrad, ha senso. E modificherò la mia risposta per includere questo caso.

— Peter Flom - Ripristina Monica

Sembra che EpiGrad e @PeterFlom interpretino diversamente la "regressione quantile". EpiGrad parla della divisione della variabile X in gruppi definiti dai quantili, mentre Peter Flom parla della modellazione, diciamo, del 90 ° quantile della risposta anziché della sua media.

— Aniko,

@Aniko Potrebbe anche essere possibile. Avevo supposto (probabilmente in modo errato) che Peter intendesse classificare i dati in quantili e usarli in un modello di regressione. Una tendenza comune (e fastidiosa) nel mio campo. Questo potrebbe non essere il caso.

— Fomite,

La dicotimizzazione aggiunge un pensiero magico all'analisi dei dati. Molto raramente è una buona idea.

Ecco un articolo di Royston, Altman e Sauerbrei su alcuni motivi per cui è una cattiva idea.

I miei pensieri: se dicotomizzi una variabile dipendente, diciamo, peso alla nascita a 2,5 kg (questo viene fatto tutto il tempo), allora stai trattando i bambini nati a 2,49 kg proprio come quelli nati a 1,5 kg e i bambini nati a 2,51 kg proprio come quelli che sono 3,5 kg. Questo non ha senso.

Un'alternativa migliore è spesso la regressione quantile. Ne ho scritto di recente per NESUG. Quel documento è qui

Un'eccezione a quanto sopra è quando le categorie sono sostanzialmente motivate; ad esempio, se stai lavorando con il comportamento alla guida, sarà sensato classificare in base all'età legale per la guida.

— Peter Flom - Ripristina Monica
fonte

Ben detto, Peter. Non riesco a immaginare una situazione in cui la dicotomizzazione in analisi sia una buona idea.

— Frank Harrell,

Mi è piaciuto e supporta sia le risposte di @ Epigrad che quelle di @ Peter. Volevo solo aggiungere che la variabile dell'intervallo di binning in una binaria rende la variabile (potenzialmente) metrica solo una ordinale. Con la variabile binaria non è corretto calcolare la media o la varianza (nonostante ciò lo facciano alcune persone) e, come ho notato altrove , alcune analisi multivariate diventano teoricamente o logicamente inapplicabili. Ad esempio, penso che non sia corretto usare il clustering gerarchico centroide / Ward o l'analisi dei fattori con variabili binarie.

I clienti delle indagini spesso ci costringono a dicotomizzare le variabili in uscita perché pensare in termini di poche classi piuttosto che di un tratto continuo è più semplice, le informazioni sembrano meno confuse e (falsamente) più ingombranti.

Vi sono, tuttavia, casi in cui la dicotomizzazione può essere giustificata. Ad esempio, laddove esiste una forte bimodalità o quando l'analisi (ad esempio MAMBAC o altro) mostra la presenza di 2 classi latenti.

— ttnphns
fonte

Sto facendo fatica a capire la tua discussione. E se un cliente vuole che ci impegniamo in cattive pratiche statistiche dovremmo pensarci due volte. Nota: tricotomise non è una parola. Dichotomization = dicho (two) + tomous (cut), quindi sarebbe tritomize / tritomise se usato.

— Frank Harrell,

Il passaggio sul cliente era un lamento, non un argomento. Quanto al greco, hai ragione; Ho rimosso la parola.

— ttnphns,

Grazie. Cerco, per quanto umanamente possibile, di tradurre i lamenti statistici in azioni correttive, attraverso un intenso processo di educazione con il cliente.

— Frank Harrell,