Posso semplicemente rimuovere una delle due variabili predittive che sono altamente linearmente correlate?


18

Usando il coefficiente di correlazione di Pearson, ho diverse variabili altamente correlate ( e per 2 coppie di variabili che sono nel mio modello).ρ=0,978ρ=0.989

Il motivo per cui alcune variabili sono altamente correlate è perché una variabile viene utilizzata nel calcolo per un'altra variabile.

Esempio:

B=V/3000 ed E=V*D

B ed hannoEρ=0.989

È possibile per me "buttare via" una delle variabili?

Risposte:


26

Sia B che E sono derivati ​​da V. B ed E chiaramente non sono realmente variabili "indipendenti" l'una dall'altra. La variabile sottostante che conta davvero qui è V. Probabilmente in questo caso dovresti ignorare sia B che E e mantenere solo V.

In una situazione più generale, quando si hanno due variabili indipendenti che sono altamente correlate, si dovrebbe sicuramente rimuoverne una perché ci si imbatte nell'enigma della multicollinearità e i coefficienti di regressione del modello di regressione relativi alle due variabili altamente correlate saranno inaffidabili. Inoltre, in parole povere se due variabili sono così fortemente correlate, ovviamente forniranno quasi esattamente le stesse informazioni al tuo modello di regressione. Ma, includendo entrambi, si sta effettivamente indebolendo il modello. Non si stanno aggiungendo informazioni incrementali. Invece, stai infondendo rumore nel tuo modello. Non è una buona cosa.

Un modo in cui è possibile mantenere variabili altamente correlate all'interno del modello è utilizzare invece della regressione un modello di analisi dei componenti principali (PCA). I modelli PCA sono realizzati per sbarazzarsi della multicollinearità. Il compromesso è che finisci con due o tre componenti principali all'interno del tuo modello che sono spesso solo costrutti matematici e sono praticamente incomprensibili in termini logici. La PCA viene quindi spesso abbandonata come metodo ogni volta che devi presentare i tuoi risultati a un pubblico esterno come management, regolatori, ecc ... I modelli PCA creano scatole nere criptiche che sono molto difficili da spiegare.


1
(+1) per la spiegazione di PCA.
Steffen,

1
Grazie, questa è stata un'ottima spiegazione. Ho sentito e letto su PCA, ma questo è per un progetto finale per un corso di laurea "regressione" che sto seguendo, e il professore vuole solo che usiamo LR. Indipendentemente da ciò, apprezzo molto la spiegazione del PCA e probabilmente lo userò da solo per divertimento.
TheCloudlessSky il

3
In alcune circostanze le raccomandazioni contenute in questa risposta non funzionerebbero. Ad esempio, cosa succede se la relazione vera è Y = B + E = V / 3000 + V * D? Quindi le variabili hanno un'alta correlazione a causa degli intervalli di V e D nel set di dati - che è (o può essere) puro incidente - mentre buttare via uno di B o E si tradurrà in un modello sbagliato. In breve, la "dipendenza" non è in generale un motivo valido per rimuovere alcune variabili da un modello; includere variabili fortemente dipendenti non necessariamente "indebolisce" un modello; PCA non è sempre la via d'uscita.
whuber

@whuber, non sono sicuro di essere d'accordo con i tuoi commenti. Penso che la "dipendenza" sia in generale una ragione abbastanza valida per rimuovere alcune variabili da un modello di regressione. Altrimenti, i tuoi coefficienti di regressione non possono essere affidabili. Nell'esempio che usi sarebbe problematico per la regressione, una soluzione semplice è usare l'intera espressione (V / 3000 + V * D) come singola variabile.
Sympa,

3
Più in generale, se il modello è beta1 * (V / 3000) + beta2 * (V D) non puoi farlo: in altre parole, il tuo suggerimento presume di conoscere un vincolo lineare tra i coefficienti. È vero che i coefficienti di regressione possono avere * VIF relativamente grandi o errori standard, ma con una quantità sufficiente di dati - o con osservazioni ben scelte - le stime saranno abbastanza affidabili. Quindi, siamo d'accordo che c'è un problema e in effetti sono d'accordo con la tua soluzione come una delle diverse alternative da considerare . Non sono d'accordo sul fatto che sia tanto generale e necessario quanto tu pensi che sia.
whuber

7

Ecco una risposta dal punto di vista di uno studente di macchine, anche se temo che sarò battuto da veri statistici per questo.

È possibile per me "buttare via" una delle variabili?

Bene, la domanda è: che tipo di modello vuoi usare per la previsione. Dipende ad esempio da ...

  • può il modello con predittori correlati? Ad esempio, sebbene NaiveBayes abbia teoricamente problemi con variabili correlate, gli esperimenti hanno dimostrato che può ancora funzionare bene.
  • in che modo il modello elabora le variabili predittive? Ad esempio, la differenza tra B e V sarà normalizzata in una stima della densità di probabilità, forse la stessa per E e V a seconda della varianza di D (come già detto l'euforia)
  • quale combinazione di utilizzo di B ed E (uno, nessuno, entrambi) fornisce il risultato migliore, stimato da una valorizzazione incrociata consapevole + un test su un set di controllo?

A volte noi studenti delle macchine eseguiamo persino l'ottimizzazione genetica per trovare la migliore combinazione aritmetica di un insieme di predittori.


7

B è una trasformazione lineare di V. E rappresenta un'interazione tra V e D. Hai considerato di specificare un modello che è Y = Intercetta + V + D + V: D? Come suggerisce @ euphoria83, sembra probabile che ci siano poche variazioni in D, quindi potrebbe non risolvere il tuo problema; tuttavia dovrebbe almeno rendere chiari i contributi indipendenti di V e D. Assicurati di centrare in anticipo sia V che D.


4
+1: Questo suggerimento non è solo un buon approccio al problema in questione, ma mostra che buttare via le variabili non è sempre l'approccio giusto (o addirittura un buon) per risolvere i problemi di collinearità.
whuber

0

Se D non è una costante, allora B ed E sono effettivamente due diverse variabili a causa delle variazioni in D. L'alta correlazione indica che D è praticamente costante in tutti i dati di allenamento. In tal caso, puoi scartare B o E.


1
D=n12*N2n2

Se scarti B o E e li tratti come equivalenti, stai implicitamente affermando che V è tutto ciò che conta davvero. In tal caso, sarebbe meglio conservare B nel modello poiché la sua interpretazione è chiara. Inoltre, se conservi E, ma D ha effettivamente una varianza limitata, la validità dell'interpretazione dei tuoi risultati sarebbe ancora più sospetta (del solito) per diversi valori di D.
russellpierce,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.