Distinguere la mancanza a caso (MAR) dalla mancanza completamente a caso (MCAR)


13

Ho avuto queste due spiegazioni più volte. Continuano a cucinarmi il cervello. Mancare non a caso ha senso essere, e perdere completamente a caso ha senso ... è la mancanza a caso che non è così tanto.

Cosa dà origine a dati che sarebbero MAR ma non MCAR?


Alla tua domanda risponde questa altra domanda, c'è una buona ragione per il nome "Missing at Random"? e le risorse che elencano?
Andy W,

3
@AndyW Per essere schietto, no. Una discussione interessante sul perché il nome è imperfetto e un articolo in agguato dietro un muro di abbonamento.
Fomite

Risposte:


18

Mancare a caso (MAR) significa che la mancanza può essere spiegata da variabili su cui si dispone di informazioni complete. Non è un presupposto verificabile, ma ci sono casi in cui è ragionevole vs.

Ad esempio, prendi sondaggi di opinione politica. Molte persone si rifiutano di rispondere. Se supponi che le ragioni per cui le persone si rifiutano di rispondere siano interamente basate sui dati demografici e se hai tali dati demografici su ogni persona, i dati sono MAR. È noto che alcuni dei motivi per cui le persone si rifiutano di rispondere possono essere basati sui dati demografici (ad esempio, le persone a basso e alto reddito hanno meno probabilità di rispondere rispetto a quelle nel mezzo), ma non c'è davvero modo di sapere se è la spiegazione completa.

Quindi, la domanda diventa "è abbastanza piena?". Spesso metodi come l'imputazione multipla funzionano meglio di altri metodi, purché i dati non siano molto mancanti e non casuali.


5
Il Journal of Statistical Software (on-line) ha avuto un problema di recente su imputazione multipla, e sono stato a guardare le tre grandi pacchetti di imputazione multipla per R: Amelia, mi, e mice. Le somiglianze e le differenze sono affascinanti. ( AmeliaS' over imputeè molto interessante.)
Wayne

1
Ecco il link al problema JSS: jstatsoft.org/v45
gung -

11

Non sono sicuro che sia corretto, ma il modo in cui ho cercato di capirlo è come se ci fosse una matrice di possibilità 2x2 che non è abbastanza simmetrica. Qualcosa di simile a:

Pattern  /   Data Explains Pattern

            Yes         No

Yes         MAR        MNAR

No          --         MCAR

Cioè, se esiste un modello per la mancanza di una variabile e i dati che abbiamo non possono spiegarlo abbiamo MNAR, ma se i dati che abbiamo (cioè altre variabili nel nostro set di dati) possono spiegarlo abbiamo MAR. Se non vi è alcun modello per la mancanza, è MCAR.

Potrei essere molto fuori qui. Inoltre, questo lascia aperta la definizione di "Pattern" e "Data spiega". Penso a "Spiegazione dei dati" come significato che spiegano altre variabili nel tuo set di dati, ma credo che anche la tua procedura possa spiegarlo (ad esempio un buon esempio in un altro thread è se hai tre variabili di misurazione che misurano la stessa cosa e il tuo procedura è se le prime due misurazioni non sono troppo d'accordo con una terza misurazione).

È abbastanza preciso per intuizione, CV?


-1

Stavo anche lottando per capire la differenza, quindi forse alcuni esempi potrebbero essere d'aiuto.

MCAR : Manca completamente a caso , questo è fantastico. Significa che la mancata risposta è completamente casuale. Quindi il tuo sondaggio non è di parte.

MAR : Manca a caso , situazione peggiore. Immagina di chiedere il QI e di avere molte più donne partecipanti rispetto ai maschi. Fortunatamente per te, il QI non è legato al genere, quindi puoi controllare il genere (applicare la ponderazione) per ridurre la distorsione.

MNAR : non manca a caso , male. Considerare di avere un'indagine per livello di reddito. E ancora, hai più femmine rispetto ai maschi partecipanti. In questo caso, questo è un problema, perché il livello di reddito è legato al genere. Pertanto i tuoi risultati saranno distorti. Non è facile sbarazzarsi di.

Vedete, è una relazione "a triangolo" tra variabile target (Y, come reddito), variabile ausiliaria (X, come età) e comportamento di risposta (R, il gruppo di risposta). Se X è correlato solo a R, good-ish (MAR). Se esiste una relazione tra X e R e X e Y, è male (MNAR).

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.