È appropriato eseguire una regressione logistica in cui le variabili dipendenti e indipendenti sono binarie? ad esempio la variabile dipendente è 0 e 1 e i predittori sono variabili codificate in contrasto -1 e 1?
È appropriato eseguire una regressione logistica in cui le variabili dipendenti e indipendenti sono binarie? ad esempio la variabile dipendente è 0 e 1 e i predittori sono variabili codificate in contrasto -1 e 1?
Risposte:
Non c'è motivo per non farlo, ma due pensieri cautelativi:
Tieni traccia attenta durante l'analisi di quale sia. In progetti di grandi dimensioni, può essere facile perdersi e produrre risultati errati.
Se si sceglie di riportare stime di regressione, piuttosto che rapporti di probabilità, chiarire il proprio schema di codifica nel proprio report , in modo che i lettori non producano OR imprecisi da soli supponendo che fossero entrambi codificati 0,1.
Può sembrare basilare, ma ho visto entrambi i problemi trasformarsi in articoli pubblicati.
Per chiarezza: il termine "binario" è di solito riservato solo alla codifica 1 vs 0. La parola più generica adatta per qualsiasi codice a 2 valori è "dicotomica". I predittori dicotomici sono ovviamente benvenuti alla regressione logistica, come alla regressione lineare e, poiché hanno solo 2 valori, non fa alcuna differenza se inserirli come fattori o come covariate.
In genere aiuta l'interpretazione se si codificano i predittori 0-1, ma a parte questo (e notando che non è necessario), non c'è nulla di sbagliato in questo. Esistono altri approcci (basati sulla tabella di contingenza), ma se ricordo bene, questi risultano essere equivalenti a (qualche forma di) regressione logistica.
Quindi in breve: non vedo alcun motivo per non farlo.
Inoltre, se hai più di due predittori, è più probabile che ci sia un problema di multi-collinearità anche per la regressione logistica o multipla. Tuttavia, non vi è alcun danno nell'utilizzare la regressione logistica con tutte le variabili binarie (cioè codificate (0,1)).