80% dei dati mancanti in una singola variabile


12

C'è una variabile nei miei dati con l'80% dei dati mancanti. I dati mancano a causa della inesistenza (ovvero della quantità di prestito bancario che la società deve). Mi sono imbattuto in un articolo in cui si afferma che il metodo di regolazione delle variabili fittizie è la soluzione a questo problema. Vuoi dire che ho bisogno di trasformare questa variabile continua in categoriale?

Questa è l'unica soluzione? Non voglio abbandonare questa variabile come penso teoricamente, è importante per la mia domanda di ricerca.

Risposte:


21

I dati "mancano" nel senso di essere sconosciuti o significa semplicemente che non esiste un prestito (quindi l'importo del prestito è zero)? Sembra quest'ultimo, nel qual caso è necessario un manichino binario aggiuntivo per indicare se esiste un prestito. Non è necessaria alcuna trasformazione dell'importo del prestito (a parte forse una re-espressione continua, come una radice o un registro avviato, che potrebbe essere indicata in base ad altre considerazioni).

Questo funziona bene in una regressione. Un semplice esempio è un modello concettuale del modulo

dependent variable (Y) = loan amount (X) + constant.

Con l'aggiunta di un indicatore di prestito ( ), il modello di regressione èI

Y=βII+βXX+β0+ϵ

con rappresenta errori casuali con zero aspettative. I coefficienti sono interpretati come:ϵ

è l'aspettativa di Y per le situazioni di non prestito, poiché quelle sono caratterizzate da X = 0 e I = 0 .β0YX=0I=0

è la variazione marginale in Y rispetto all'importo del prestito ( X ).βXYX

è l'intercetta per i casi con prestiti.βI+β0


2
Non saranno considerati mancanti, entreranno nella stima del valore per nessun prestito. Forse non hai prestato 'NA' in prestito, nel qual caso devi ricodificarli a 0.
John

2
XX=0I=1

3
@ lcl23 Se ho capito bene la situazione, l'imputazione non ha senso: i tuoi dati "mancanti" non mancano; indicano che non è stato stipulato alcun prestito.
whuber

1
I(X=1)I(X=0)

1
1βI0

1

Penso che tu abbia frainteso il suggerimento dell'articolo: principalmente perché il suggerimento non ha senso. Avresti quindi due problemi: come ricodificare una variabile e i suoi valori mancano ancora. Ciò che probabilmente è stato suggerito era quello di creare un indicatore di mancanza .

Un approccio in qualche modo pertinente alla gestione dei dati mancanti che corrisponde vagamente a questa descrizione è quello di adeguarsi a un indicatore di mancanza . Questo è certamente un approccio semplice e facile, ma in generale è di parte. Il pregiudizio può essere illimitato nella sua cattiveria. Ciò che fa effettivamente si adatta a due modelli e alla media dei loro effetti insieme: il primo è il modello completamente condizionale , il secondo è un modello fattoriale completo. Il modello completamente condizionale è il modello di caso completo in cui viene eliminata ogni osservazione con valori mancanti. Quindi è adatto per un sottoinsieme del 20% dei dati. Il secondo è un adattamento sul restante 80% che non si adatta affatto al valore mancante. Questo modello marginale stima gli stessi effetti del modello completo quando non vi sono interazioni non misurate, quando la funzione di collegamento è comprimibile e quando i dati mancano a caso (MAR). Questi effetti sono quindi combinati da una media ponderata. Anche in condizioni ideali, nessuna interazione non misurata e la mancanza di dati casuali (MCAR), l'approccio dell'indicatore mancante porta a effetti distorti perché il modello marginale e il modello condizionale stimano effetti diversi. Anche le previsioni sono distorte in questo caso.

Un'alternativa molto migliore è usare solo l'imputazione multipla. Anche quando il fattore mancante viene misurato con una prevalenza molto bassa, l'MI fa un lavoro relativamente buono nel generare realizzazioni sofisticate di quali possibili valori potrebbero essere stati. L'unico presupposto necessario qui è MAR.


Che cosa significa "la funzione link è pieghevole"?
Matthew Drury,

1
@MatthewDrury fondamentalmente, "collassabilità" significa che la regolazione per le variabili che predicono il risultato ma non gli effetti principali aumenterà la precisione, ma non modificherà l'effetto stimato.
AdamO,

Bene, grazie Adam. Non avevo mai sentito prima quella terminologia.
Matthew Drury,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.