Il problema con correlazioni su osservazioni complete a coppie
Nel caso che descrivi, il problema principale è l'interpretazione. Poiché stai utilizzando osservazioni complete a coppie, stai effettivamente analizzando set di dati leggermente diversi per ciascuna delle correlazioni, a seconda delle osservazioni mancanti.
Considera il seguente esempio:
a <- c(NA,NA,NA, 5, 6, 3, 7, 8, 3)
b <- c(2, 8, 3, NA,NA,NA, 6, 9, 5)
c <- c(2, 9, 6, 3, 2, 3, NA,NA,NA)
Tre variabili dell'insieme di dati, a
, b
, e c
, ognuno ha alcuni valori mancanti. Se calcoli le correlazioni su coppie di variabili qui, sarai in grado di usare solo casi che non hanno valori mancanti per entrambe le variabili in questione. In questo caso, ciò significa che verranno analizzati solo gli ultimi 3 casi per la correlazione tra a
e b
, solo i primi tre casi per la correlazione tra b
e c
, ecc.
Il fatto che si stiano analizzando casi completamente diversi quando si calcola ciascuna correlazione significa che il modello risultante di correlazioni può sembrare privo di senso. Vedere:
> cor(a,b, use = "pairwise.complete.obs")
[1] 0.8170572
> cor(b,c, use = "pairwise.complete.obs")
[1] 0.9005714
> cor(a,c, use = "pairwise.complete.obs")
[1] -0.7559289
Questo appare come una contraddizione logica --- a
e b
sono fortemente correlati positivamente, ed b
e c
sono anche correlati positivamente con forza, in modo che ci si aspetta a
e c
di essere correlato positivamente pure, ma c'è in realtà una forte associazione nella direzione opposta. Puoi capire perché a molti analisti non piace.
Modifica per includere utili chiarimenti da whuber:
Nota che parte dell'argomento dipende da cosa potrebbe significare una correlazione "forte". È del tutto possibile per a
e b
così come b
e c
di essere "fortemente correlati positivamente" mentre esiste una "forte associazione nella direzione opposta" tra a
e c
, ma non così estrema come in questo esempio. Il nocciolo della questione è che la matrice di correlazione (o covarianza) stimata potrebbe non essere definita positiva: è così che si dovrebbe quantificare "forte".
Il problema con il tipo di mancanza
Potresti pensare a te stesso: "Beh, non va bene supporre che il sottoinsieme di casi che ho a disposizione per ciascuna correlazione segua più o meno lo stesso modello che otterrei se avessi dati completi?" E sì, è vero --- non c'è nulla di fondamentalmente sbagliato nel calcolare una correlazione su un sottoinsieme dei tuoi dati (anche se perdi precisione e potenza, ovviamente, a causa delle dimensioni del campione più piccole), purché i dati disponibili siano casuali campione di tutti i dati che sarebbero stati lì se non avessi alcuna mancanza.
Quando la mancanza è puramente casuale, si chiama MCAR (manca completamente a caso). In tal caso, l'analisi del sottoinsieme dei dati che non presenta mancanza non pregiudicherà sistematicamente i risultati e sarebbe improbabile (ma non impossibile) ottenere il tipo di schema di correlazione matto che ho mostrato nell'esempio sopra.
Quando la tua mancanza è sistematica in qualche modo (spesso abbreviata in MAR o NI, delineando due diversi tipi di mancanza sistematica), allora hai problemi molto più seri, sia in termini di introduzione di pregiudizi nei tuoi calcoli sia in termini di capacità di generalizzare il tuo risultati per la popolazione di interesse (perché il campione che stai analizzando non è un campione casuale della popolazione, anche se il tuo set di dati completo sarebbe stato).
Ci sono un sacco di grandi risorse a disposizione per conoscere i dati mancanti e come trattare con esso, ma la mia raccomandazione è Rubin:
un classico ,
e un articolo più recente