Esiste un grave problema con la caduta di osservazioni con valori mancanti durante il calcolo della matrice di correlazione?


12

Ho questo enorme set di dati con 2500 variabili e 142 osservazioni.

Voglio eseguire una correlazione tra la variabile X e il resto delle variabili. Ma per molte colonne mancano voci.

Ho provato a farlo in R usando l'argomento "pairwise-complete" ( use=pairwise.complete.obs) e ha prodotto un sacco di correlazioni. Ma poi qualcuno su StackOverflow ha pubblicato un link a questo articolo http://bwlewis.github.io/covar/missing.html e rende inutilizzabile il metodo "pairwise-complete" in R.

La mia domanda: come faccio a sapere quando è appropriato utilizzare l'opzione "pairwise-complete"?

Il mio use = complete.obsritorno no complete element pairs, quindi se potessi spiegare cosa significhi anche quello, sarebbe fantastico.


4
Una storia classica da sapere è la storia di Abraham Wald e la questione di dove aggiungere armature agli aerei nella seconda guerra mondiale . È importante avere una certa comprensione del perché mancano i tuoi dati.
Matthew Gunn,

Risposte:


11

Il problema con correlazioni su osservazioni complete a coppie

Nel caso che descrivi, il problema principale è l'interpretazione. Poiché stai utilizzando osservazioni complete a coppie, stai effettivamente analizzando set di dati leggermente diversi per ciascuna delle correlazioni, a seconda delle osservazioni mancanti.

Considera il seguente esempio:

a <- c(NA,NA,NA, 5, 6, 3, 7, 8, 3)
b <- c(2, 8, 3, NA,NA,NA, 6, 9, 5)
c <- c(2, 9, 6, 3, 2, 3, NA,NA,NA) 

Tre variabili dell'insieme di dati, a, b, e c, ognuno ha alcuni valori mancanti. Se calcoli le correlazioni su coppie di variabili qui, sarai in grado di usare solo casi che non hanno valori mancanti per entrambe le variabili in questione. In questo caso, ciò significa che verranno analizzati solo gli ultimi 3 casi per la correlazione tra ae b, solo i primi tre casi per la correlazione tra be c, ecc.

Il fatto che si stiano analizzando casi completamente diversi quando si calcola ciascuna correlazione significa che il modello risultante di correlazioni può sembrare privo di senso. Vedere:

> cor(a,b, use = "pairwise.complete.obs")
[1] 0.8170572
> cor(b,c, use = "pairwise.complete.obs")
[1] 0.9005714
> cor(a,c, use = "pairwise.complete.obs")
[1] -0.7559289

Questo appare come una contraddizione logica --- ae bsono fortemente correlati positivamente, ed be csono anche correlati positivamente con forza, in modo che ci si aspetta ae cdi essere correlato positivamente pure, ma c'è in realtà una forte associazione nella direzione opposta. Puoi capire perché a molti analisti non piace.

Modifica per includere utili chiarimenti da whuber:

Nota che parte dell'argomento dipende da cosa potrebbe significare una correlazione "forte". È del tutto possibile per ae bcosì come be cdi essere "fortemente correlati positivamente" mentre esiste una "forte associazione nella direzione opposta" tra ae c, ma non così estrema come in questo esempio. Il nocciolo della questione è che la matrice di correlazione (o covarianza) stimata potrebbe non essere definita positiva: è così che si dovrebbe quantificare "forte".

Il problema con il tipo di mancanza

Potresti pensare a te stesso: "Beh, non va bene supporre che il sottoinsieme di casi che ho a disposizione per ciascuna correlazione segua più o meno lo stesso modello che otterrei se avessi dati completi?" E sì, è vero --- non c'è nulla di fondamentalmente sbagliato nel calcolare una correlazione su un sottoinsieme dei tuoi dati (anche se perdi precisione e potenza, ovviamente, a causa delle dimensioni del campione più piccole), purché i dati disponibili siano casuali campione di tutti i dati che sarebbero stati lì se non avessi alcuna mancanza.

Quando la mancanza è puramente casuale, si chiama MCAR (manca completamente a caso). In tal caso, l'analisi del sottoinsieme dei dati che non presenta mancanza non pregiudicherà sistematicamente i risultati e sarebbe improbabile (ma non impossibile) ottenere il tipo di schema di correlazione matto che ho mostrato nell'esempio sopra.

Quando la tua mancanza è sistematica in qualche modo (spesso abbreviata in MAR o NI, delineando due diversi tipi di mancanza sistematica), allora hai problemi molto più seri, sia in termini di introduzione di pregiudizi nei tuoi calcoli sia in termini di capacità di generalizzare il tuo risultati per la popolazione di interesse (perché il campione che stai analizzando non è un campione casuale della popolazione, anche se il tuo set di dati completo sarebbe stato).

Ci sono un sacco di grandi risorse a disposizione per conoscere i dati mancanti e come trattare con esso, ma la mia raccomandazione è Rubin: un classico , e un articolo più recente


2
abbcac

1
@whuber Grazie, questo è un punto importante. Ho aggiornato quella sezione della risposta per includere tale chiarimento.
Rose Hartman,

7

Una grande preoccupazione è se i dati mancano in qualche modo sistematico che danneggerebbe la tua analisi. I tuoi dati potrebbero non essere presenti in modo casuale.

Questo è stato sollevato nelle risposte precedenti, ma ho pensato di dare un esempio.

Esempio finanziario: i rendimenti mancanti possono essere rendimenti scadenti

  • A differenza dei fondi comuni di investimento, i fondi di private equity (e altri fondi privati) non sono tenuti per legge a riportare i propri rendimenti in alcuni database centrali.
  • Quindi una delle maggiori preoccupazioni è che la segnalazione sia endogena, più specificamente, che alcune aziende non segnalino rendimenti negativi.
  • 1niRiRi

Tutto ciò non è necessariamente perso in queste situazioni (ci sono cose che puoi fare), ma eseguire ingenuamente una regressione (o correlazioni di calcolo) sui dati non mancanti può portare a stime seriamente distorte e incoerenti dei parametri reali nella popolazione.


4

La correlazione a coppie è appropriata se i tuoi dati mancanti sono Missing Complete At Random (MCAR). Il libro dei dati mancanti di Paul Allison è un buon punto di partenza per il perché.

Puoi testarlo usando MCAR Test di Little (1988), che si trova nel BaylorEdPsychpacchetto.


1
C'è ancora motivo di preoccupazione: anche con i dati MCAR, la matrice di correlazione stimata tramite correlazione a coppie può non essere definita positiva.
whuber

Certo, ma la domanda si pone sulla correlazione, non fa alcun riferimento all'uso della matrice di correlazione risultante come input per qualche altro algoritmo. E, date le dimensioni del campione, MCAR è comunque abbastanza improbabile.
Tim

1
Se la matrice non è definita positiva, è una stima non valida. Almeno dobbiamo preoccuparci di quell'incoerenza. Temo di non vedere come la probabilità di MCAR (che è un meccanismo di mancanza) possa essere correlata alla dimensione del campione.
whuber

Il richiedente è interessato a una singola riga della matrice di correlazione. Hai una prova che mostra che le correlazioni di una riga sono tutte non valide se la matrice non è definita positiva? Mi piacerebbe vedere una prova di questo e acquisire un po 'di saggezza. MCAR è, in generale, abbastanza improbabile con i dati del mondo reale. Con una grande dimensione del campione, la potenza del test di Little aumenta, quindi ci sono buone possibilità di rigetto dell'ipotesi nulla di MCAR. Non fraintendetemi qui: non userei mai una matrice di correlazione di dati parziali come input in un metodo multivariato, ma non è questo il problema.
Tim

1
Vorrei chiarire: non ho affermato che le correlazioni sono "tutte non valide". Ho affermato che la raccolta di stime di correlazione (cioè la matrice) può essere non valida. Ciò è indiscutibile (non richiede prove), poiché tutto ciò che occorre fare è esibire un'istanza di una stima non valida, cosa che @RoseHartman ha già fatto in questo thread. Non contesterò la tua affermazione che MCAR potrebbe essere improbabile, a condizione che sia compreso in senso personale: nella tua esperienza, con i tipi di dati che conosci, MCAR è raro. Non vedo come si possa giustificare un'interpretazione più ampia di tale affermazione.
whuber
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.