Trattare i livelli di variabili categoriali "Non so / rifiutato"


9

Sto modellando la previsione del diabete usando la regressione logistica. Il set di dati utilizzato è il Behavioral Risk Factor Surveillance System (BRFSS) del Center for Disease Control (CDC). Una delle variabili indipendenti è la pressione alta. È categorico con i seguenti livelli "Sì", "No", "Non so / Rifiutato". Devo rimuovere quelle righe con "Non so / Rifiutato" durante la creazione del modello? Che differenza fa mantenere o rimuovere quelle righe dal modello?

Risposte:


6

Mi stavo solo chiedendo esattamente la stessa domanda quando analizzavo gli ultimi dati del National Hospital Discharge Survey Survey . Diverse variabili hanno valori mancanti sostanziali, come lo stato civile e il tipo di procedura. Questo problema è venuto alla mia attenzione perché queste categorie si sono manifestate con effetti forti (e significativi) nella maggior parte delle analisi di regressione logistica che stavo eseguendo.

Uno è propenso a chiedersi perchéviene fornito un codice mancante. Nel caso dello stato civile, ad esempio, è plausibile che il mancato conferimento di tali informazioni possa essere collegato a fattori importanti come lo stato socioeconomico o il tipo di malattia. Nel tuo caso di ipertensione, dovremmo chiederci perché il valore non dovrebbe essere conosciuto o rifiutato? Ciò potrebbe essere correlato a pratiche presso l'istituzione (forse che riflettono procedure lassiste) o persino agli individui (come le credenze religiose). Queste caratteristiche a loro volta potrebbero essere associate al diabete. Pertanto, sembra prudente continuare come hai fatto, piuttosto che codificare questi valori come mancanti (escludendoli così completamente dall'analisi) o tentare di imputare i valori (che mascherano efficacemente le informazioni che forniscono e potrebbero influenzare i risultati). Non è davvero più difficile da fare: devi semplicemente assicurarti che questa variabile sia trattata come categorica e otterrai un ulteriore coefficiente nell'output di regressione. Inoltre, sospetto che i set di dati BRFSS siano abbastanza grandi da non doverti preoccupare dell'alimentazione.


2
Inoltre, DK potrebbe avere un significato reale, cioè quegli individui non sono attenti alla salute e potrebbero essere a rischio.
Brandon Bertelsen,

2

Per prima cosa devi pensare se i dati mancanti mancano completamente a caso (MCAR), mancano a caso (MAR) o mancano a caso (MNAR) poiché la cancellazione (in altre parole analisi del caso completo) può portare a risultati distorti. Le alternative sono la ponderazione inversa della probabilità, l'imputazione multipla, il metodo di piena verosimiglianza e metodi doppiamente robusti. Imputazione multipla con equazioni concatenate (MICE) se spesso il modo più semplice di procedere.


Grazie. Si tratta di un dato di indagine e non sono sicuro che si tratti di MAR o MNAR. Per esempio, esiste una variabile che dice 1) "se una persona ha il diabete o no?" e un'altra variabile (2) Se sta assumendo insulina? Vedo che la variabile (2) ha voci solo quando la variabile (1) è "Sì" (ovvero una persona è diabetica). Altrimenti (2) è vuota. Inoltre (2) ha "sì", "No", "Non so / rifiutato" come risposta al caso diabetico. Quindi, come posso trattare le celle vuote e le risposte al sondaggio "Non so / rifiutato"?
user3897

Mi piacerebbe conoscere l'imputazione multipla e stavo cercando un materiale di apprendimento online. Potresti suggerire del materiale didattico per l'MI?
user3897

0

Hai qualche motivo per pensare che i soggetti dello studio con diabete avevano più probabilità o meno probabilità di finire con la risposta DK / R? In caso contrario (e sarei piuttosto sorpreso di scoprire che l'hai fatto), incluso questo predittore nel modello senza escludere questi casi, si otterrà un rumore. Cioè, finirai con meno precisione nella tua valutazione di come "sì" vs. "no" influenza la probabilità stimata di diabete (perché proverai a modellare l'influenza di "sì" o "no" rispetto a risposte DK / R casuali anziché solo "sì" vs. "no"). L'opzione più semplice è quella di escludere i casi con risposte DK / R. Supponendo che le loro risposte "sì / no" fossero effettivamente mancanti in modo casuale, escludendole non si pregiudicherà la stima dell'influenza di "sì" vs. "no." Tale approccio, tuttavia, ridurrà la dimensione del campione e quindi ridurrà il potere statistico rispetto ai restanti predittori. Se hai molto DK / R su questa variabile, potresti voler imputare le risposte "sì" / "no" mediante imputazione multipla (probabilmente la strategia di imputazione a valore mancante più, forse solo, difendibile).

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.