Trattare con regressori correlati


23

In una regressione lineare multipla con regressori altamente correlati, qual è la migliore strategia da utilizzare? È un approccio legittimo aggiungere il prodotto di tutti i regressori correlati?


1
Mi dispiace vedere la risposta di @ Suncoolsu è stata eliminata. E i commenti che seguirono chiarirono una differenza tra multicollinearità e mal condizionamento. Inoltre, in un commento Suncoolsu ha sottolineato come la standardizzazione preliminare può aiutare con la regressione polinomiale. Se dovesse capitare di riapparire, lo voterei ;-).
whuber

@ Ηλίας: è probabile che il prodotto sia instabile in molte applicazioni. Può essere afflitto da molti zeri se i singoli regressori hanno degli zeri; è probabile che il suo valore assoluto abbia una forte inclinazione positiva, dando origine ad alcuni punti di leva elevata; potrebbe amplificare i dati periferici, in particolare i valori anomali simultanei, aumentando ulteriormente la loro influenza. Potrebbe anche essere piuttosto difficile da interpretare, soprattutto se i regressori sono già re-espressioni delle variabili originali (come i log o le radici).
whuber

Risposte:


13

I componenti principali hanno molto senso ... matematicamente. Tuttavia, diffiderei di usare semplicemente qualche trucco matematico in questo caso e sperando di non aver bisogno di pensare al mio problema.

Consiglierei di pensare un po 'al tipo di predittori che ho, qual è la variabile indipendente, perché i miei predittori sono correlati, se alcuni dei miei predittori stanno effettivamente misurando la stessa realtà sottostante (in tal caso, se posso semplicemente lavorare con un misurazione singola e quale dei miei predittori sarebbe meglio per questo), per cosa sto facendo l'analisi - se non mi interessa l'inferenza, solo la previsione, allora potrei davvero lasciare le cose così come sono, per il futuro i valori dei predittori sono simili a quelli precedenti.


4
Completamente concordato, +1. Ma la caratterizzazione della PCA come "trucco matematico" lo denigra ingiustamente, IMHO. Se sei d'accordo (non sono sicuro di farlo) che la somma o la media dei gruppi di regressori, come suggerisce Srikant, sarebbe accettabile, allora la PCA dovrebbe essere altrettanto accettabile e di solito migliora l'adattamento. Inoltre, i componenti principali possono fornire informazioni su quali gruppi di predittori sono correlati e come sono correlati: questo è uno strumento eccellente per il pensiero che stai sostenendo.
whuber

2
@whuber, vedo e sono d'accordo con il tuo punto e non voglio denigrare PCA, quindi sicuramente +1. Volevo solo sottolineare che l'uso cieco di PCA senza guardare e pensare al problema di fondo (che nessuno qui sta sostenendo) mi lascerebbe con una brutta sensazione ...
S. Kolassa - Reinstata Monica

11

È possibile utilizzare i componenti principali o la regressione della cresta per affrontare questo problema. D'altra parte, se hai due variabili che sono abbastanza correlate da causare problemi con la stima dei parametri, allora potresti quasi sicuramente abbandonare uno dei due senza perdere molto in termini di previsione - perché le due variabili portano le stesse informazioni . Ovviamente, ciò funziona solo quando il problema è dovuto a due indipendenti altamente correlati. Quando il problema riguarda più di due variabili che sono quasi collineari (due delle quali possono avere solo correlazioni moderate), probabilmente avrai bisogno di uno degli altri metodi.


2
(+1) Ora, il problema è che l'OP non ha indicato quante variabili entrano nel modello, perché nel caso siano numerose potrebbe essere meglio fare sia la riduzione che la selezione delle variabili, ad esempio attraverso il criterio elasticnet (che è una combinazione delle sanzioni di Lasso e Ridge).
chl

3

Ecco un altro pensiero che si ispira alla risposta di Stephan :

Se alcuni dei tuoi regressori correlati sono significativamente correlati (ad esempio, sono diverse misure di intelligenza, ad esempio verbale, matematica, ecc.), Puoi creare una singola variabile che misura la stessa variabile utilizzando una delle seguenti tecniche:

  • Somma i regressori (appropriato se i regressori sono componenti di un intero, ad esempio QI verbale + QI matematico = QI complessivo)

  • Media dei regressori (appropriato se i regressori misurano lo stesso costrutto sottostante, ad es. Dimensioni della scarpa sinistra, dimensioni della scarpa destra per misurare la lunghezza dei piedi)

  • Analisi fattoriale (per tenere conto degli errori nelle misurazioni ed estrarre un fattore latente)

È quindi possibile eliminare tutti i regressori correlati e sostituirli con l'unica variabile che emerge dall'analisi precedente.


1
Ciò ha senso se i regressori sono tutti misurati sulla stessa scala. In psicologia, varie sottoscale sono spesso misurate su scale diverse (e ancora correlate), quindi una somma ponderata o media (che è davvero la stessa qui) sarebbe appropriata. E, naturalmente, si potrebbe vedere PCA come fornire proprio questo tipo di ponderazione calcolando gli assi della massima varianza.
S. Kolassa - Ripristina Monica il

2

Stavo per dire più o meno la stessa cosa di Stephan Kolassa sopra (quindi ho annullato la sua risposta). Aggiungo solo che a volte la multicollinearità può essere dovuta all'uso di variabili estese che sono tutte altamente correlate con una certa misura di dimensione, e che le cose possono essere migliorate usando variabili intensive, ovvero dividendo tutto per una certa misura di dimensione. Ad esempio, se le tue unità sono paesi, potresti dividere per popolazione, area o PNL, a seconda del contesto.

Oh - e rispondere alla seconda parte della domanda originale: non posso pensare a nessuna situazione quando si aggiunge il prodotto di tutti i regressori correlati sarebbe una buona idea. Come sarebbe d'aiuto? Cosa significherebbe?


La mia idea iniziale era quella di aggiungere prendere in considerazione l'interazione a coppie dei regressori
Octλίας

È spesso una buona idea prendere in considerazione l'interazione a coppie. Ma non tutti: li devi pensare a ciò che ha senso!
kjetil b halvorsen,

1

Non sono esperto in questo, ma il mio primo pensiero sarebbe quello di eseguire un'analisi dei componenti principali sulle variabili predittive, quindi utilizzare i componenti principali risultanti per prevedere la variabile dipendente.


Bella idea (Non generalizza bene ai predittori categorici, però.) Sospetto che molte altre strategie potrebbero essere interpretate anche da questo punto di vista. Ad esempio, selezionando un sottoinsieme diK dei predittori potrebbe essere interpretato come approssimativo di una base per l'arco di Ki più grandi autovettori in un PCA.
whuber

In un approccio esplicativo, allora devi interpretare come le tue combinazioni lineari di ple variabili si riferiscono al risultato e questo a volte potrebbe essere complicato.
chl,

@chl buon punto. Ma poiché i componenti principali sono combinazioni lineari, è semplice (anche se a volte un po 'doloroso) comporre il modello di regressione adattato (= una trasformazione lineare) con la proiezione sui componenti (= un'altra trasformazione lineare) per ottenere un modello lineare interpretabile coinvolgendo tutte le variabili originali. Questo è in qualche modo simile alle tecniche di ortogonalizzazione. Si noti inoltre che le ultime proposte di Srikant (somma o media dei regressori) si avvicinano essenzialmente al principale autovettore ma provocano simili difficoltà esplicative.
whuber

@whuber Sì, sono d'accordo con entrambi i tuoi punti. Ho ampiamente utilizzato la regressione del PLS e il CCA, quindi in questo caso abbiamo a che fare con combinazioni lineari su entrambi i lati (st. A max. Covarianza o criteri di correlazione); con un gran numero di predittori, interpretare i vettori canonici è doloroso, quindi guardiamo semplicemente alle variabili che contribuiscono. Ora, posso immaginare che non ci siano così tanti predittori in modo che tutti i tuoi argomenti (@Stephan, @Mike) abbiano un senso.
chl

-1

Uno dei modi per ridurre gli effetti della correlazione è standardizzare i regressori . Nella standardizzazione, tutti i regressori vengono sottratti con i rispettivi mezzi e divisi per le rispettive deviazioni standard. In particolare, seX è la matrice di regressione:

XiojStun'ndun'rdiozed=Xioj-X.j¯Sj

Questo non è un rimedio, ma sicuramente un passo nella giusta direzione.


8
Le trasformazioni lineari (come queste) non cambiano mai i coefficienti di correlazione. Il punto alla standardizzazione è migliorare il condizionamento della matrice normale.
whuber

1
La standardizzazione delle variabili non influirà sulle correlazioni tra le variabili indipendenti e non "ridurrà l'effetto della correlazione" in alcun modo a cui io possa pensare rispetto a questo problema.
Brett,

2
@Brett, un tipico esempio in cui la standardizzazione aiuta è la regressione polinomiale . Si consiglia sempre di standardizzare i regressori. La standardizzazione non cambia la matrice di correlazione, ma rende la matrice var cov (che ora è la matrice correlata) ben educata (chiamata condizionamento da @whuber che punta al numero di condizione della matrice, IMHO).
suncoolsu,

Concordato. Il centraggio è utile quando si inseriscono termini di ordine superiore, come termini polinomiali o di interazione. Questo non sembra essere il caso qui e non aiuterà altrimenti con il problema dei predittori correlati.
Brett,

L'ho eliminato perché non volevo confondere le persone con una risposta sbagliata. Probabilmente i moderatori lo hanno ripreso.
suncoolsu,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.