Cosa fare con le variabili collineari


11

Disclaimer: questo è per un progetto di compiti a casa.

Sto cercando di trovare il modello migliore per i prezzi dei diamanti, a seconda di diverse variabili e finora sembra che abbia un modello abbastanza buono. Tuttavia ho incontrato due variabili che sono ovviamente collineari:

>with(diamonds, cor(data.frame(Table, Depth, Carat.Weight)))
                   Table       Depth Carat.Weight
Table         1.00000000 -0.41035485   0.05237998
Depth        -0.41035485  1.00000000   0.01779489
Carat.Weight  0.05237998  0.01779489   1.00000000

Tabella e profondità dipendono l'una dall'altra, ma voglio ancora includerle nel mio modello predittivo. Ho fatto alcune ricerche sui diamanti e ho scoperto che Tabella e Profondità sono la lunghezza attraverso la parte superiore e la distanza dalla punta superiore a quella inferiore di un diamante. Dato che questi prezzi dei diamanti sembrano essere correlati alla bellezza e la bellezza sembra essere proporzioni correlate, stavo per includere il loro rapporto, diciamo , per prevedere i prezzi. Questa procedura standard è per la gestione delle variabili collineari? In caso contrario, cos'è?TableDepth

Modifica: ecco un diagramma di Depth ~ Table: inserisci qui la descrizione dell'immagine


1
+1 per una domanda interessante ma, no, questa non è sicuramente una procedura standard per gestire variabili co-lineari. Spero che qualcuno ti dia una buona risposta sul perché no. Si potrebbe ancora essere una buona cosa da fare nel tuo caso ...
Peter Ellis

3
La cosa strana su questo sembra essere che la correlazione di -0,4 suggerisce che i diamanti che sono più lunghi nella parte superiore sono più corti dall'alto verso il basso. Questo sembra controintuitivo: sei sicuro che sia corretto?
Peter Ellis,

In generale, rivelerà solo la dipendenza lineare giusto? Cosa se la e la fossero correlate in modo non lineare? In tal caso, ci sarebbe un analogo della colliniarità che pone un problema? O è solo una dipendenza lineare un problema. T a b l e D e p t hcorTableDepth
curious_cat

@PeterEllis Mi è stato detto che si tratta di un vero set di dati, sì. Guardando un diagramma di Depth ~ Table, potrebbe essere perché la varianza si esaurisce per valori di Table elevati.
Mike Flynn,

Risposte:


14

Quelle variabili sono correlate.

L'estensione dell'associazione lineare implicita da quella matrice di correlazione non è abbastanza lontana da permettere alle variabili di essere considerate collineari.

In questo caso, sarei abbastanza felice di usare tutte e tre queste variabili per le tipiche applicazioni di regressione.

Un modo per rilevare la multicollinearità è controllare la decomposizione di Choleski della matrice di correlazione - se c'è multicollinearità ci saranno alcuni elementi diagonali vicini allo zero. Eccolo sulla tua matrice di correlazione:

> chol(co)
     [,1]       [,2]       [,3]
[1,]    1 -0.4103548 0.05237998
[2,]    0  0.9119259 0.04308384
[3,]    0  0.0000000 0.99769741

(La diagonale dovrebbe essere sempre positiva, anche se alcune implementazioni possono andare leggermente negative con l'effetto di errori di troncamento accumulati)

Come vedi, la diagonale più piccola è 0,91, che è ancora molto lontana da zero.

Al contrario, ecco alcuni dati quasi collineari:

> x<-data.frame(x1=rnorm(20),x2=rnorm(20),x3=rnorm(20))
> x$x4<-with(x,x1+x2+x3+rnorm(20,0,1e-4))
> chol(cor(x))
   x1         x2         x3           x4
x1  1 0.03243977 -0.3920567 3.295264e-01
x2  0 0.99947369  0.4056161 7.617940e-01
x3  0 0.00000000  0.8256919 5.577474e-01
x4  0 0.00000000  0.0000000 7.590116e-05   <------- close to 0.

Grazie, penso di essere semplicemente confuso tra "correlato" e "collineare"
Mike Flynn,

@kingledion Non utilizzare i commenti per cercare di convincere le persone a rispondere alla tua domanda.
Glen_b

6

Pensavo che questo schema di taglio del diamante potesse aggiungere approfondimenti alla domanda. Impossibile aggiungere un'immagine a un commento, quindi è diventata una risposta ....

inserisci qui la descrizione dell'immagine

PS. @ Commento di PeterEllis: Il fatto che "i diamanti più lunghi nella parte superiore sono più corti dall'alto verso il basso" potrebbe avere senso in questo modo: supponiamo che tutti i diamanti non tagliati siano approssimativamente rettangolari (diciamo). Ora il cutter deve scegliere il suo taglio con questo rettangolo di delimitazione. Questo introduce il compromesso. Se aumentano sia la larghezza che la lunghezza, scegli diamanti più grandi. Possibile ma più raro e più costoso. Ha senso?


2

L'uso dei rapporti nella regressione lineare dovrebbe essere evitato. In sostanza, quello che stai dicendo è che, se si facesse una regressione lineare su quelle due variabili, esse sarebbero linearmente correlate senza intercettazione; questo ovviamente non è il caso. Vedi: http://cscu.cornell.edu/news/statnews/stnews03.pdf

Inoltre, stanno misurando una variabile latente, la dimensione (volume o area) del diamante. Hai mai pensato di convertire i tuoi dati in una misura di superficie / volume piuttosto che includere entrambe le variabili?

Dovresti pubblicare un diagramma residuo di quella profondità e i dati della tabella. La tua correlazione tra i due potrebbe non essere valida comunque.


1

Dalla correlazione è difficile concludere se la tabella e la larghezza siano effettivamente correlate. Un coefficiente vicino a + 1 / -1 direbbe che sono collineari. Dipende anche dalla dimensione del campione .. se hai più dati usalo per confermare.

La procedura standard nel trattare le variabili collineari è di eliminarne una ... sapendo che l'una determinerebbe l'altra.


1
Non sono sicuro di essere d'accordo con questo. La correlazione è r = -. 41, che è una grandezza ragionevole per una correlazione, penso. Dato il probabile N (basato su uno sguardo alla trama) mi aspetto che la r sia altamente "significativa". Se Table & Depth sia abbastanza correlato da essere chiamato "collineare" sarà una questione di definizione (anche se non lo definirei neppure problematico collinearità). Infine, diffiderei di eliminare semplicemente una delle variabili a meno che la r non sia molto vicina a | 1 | (es. ~ .99) - Non riesco a dire se è questo che intendi.
gung - Ripristina Monica

1

Cosa ti fa pensare che tabella e profondità causino collinearità nel tuo modello? Dalla sola matrice di correlazione è difficile dire che queste due variabili causeranno problemi di collinearità. Cosa ti dice un test F congiunto sul contributo di entrambe le variabili al tuo modello? Come citato da curioso_cat, Pearson potrebbe non essere la migliore misura di correlazione quando la relazione non è lineare (forse una misura basata sul rango?). VIF e tolleranza possono aiutare a quantificare il grado di collinearità che potresti avere.

Penso che il tuo approccio all'utilizzo del loro rapporto sia appropriato (anche se non come soluzione alla collinearità). Quando vedo la figura, ho immediatamente pensato a una misura comune nella ricerca sulla salute quale rapporto vita-fianchi. Anche se, in questo caso, è più simile all'IMC (peso / altezza ^ 2). Se il rapporto è facilmente interpretabile e intuitivo nel tuo pubblico, non vedo un motivo per non usarlo. Tuttavia, potresti essere in grado di utilizzare entrambe le variabili nel tuo modello a meno che non ci siano prove chiare di collinearità.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.