In una regressione lineare multipla con regressori altamente correlati, qual è la migliore strategia da utilizzare? È un approccio legittimo aggiungere il prodotto di tutti i regressori correlati?
In una regressione lineare multipla con regressori altamente correlati, qual è la migliore strategia da utilizzare? È un approccio legittimo aggiungere il prodotto di tutti i regressori correlati?
Risposte:
I componenti principali hanno molto senso ... matematicamente. Tuttavia, diffiderei di usare semplicemente qualche trucco matematico in questo caso e sperando di non aver bisogno di pensare al mio problema.
Consiglierei di pensare un po 'al tipo di predittori che ho, qual è la variabile indipendente, perché i miei predittori sono correlati, se alcuni dei miei predittori stanno effettivamente misurando la stessa realtà sottostante (in tal caso, se posso semplicemente lavorare con un misurazione singola e quale dei miei predittori sarebbe meglio per questo), per cosa sto facendo l'analisi - se non mi interessa l'inferenza, solo la previsione, allora potrei davvero lasciare le cose così come sono, per il futuro i valori dei predittori sono simili a quelli precedenti.
È possibile utilizzare i componenti principali o la regressione della cresta per affrontare questo problema. D'altra parte, se hai due variabili che sono abbastanza correlate da causare problemi con la stima dei parametri, allora potresti quasi sicuramente abbandonare uno dei due senza perdere molto in termini di previsione - perché le due variabili portano le stesse informazioni . Ovviamente, ciò funziona solo quando il problema è dovuto a due indipendenti altamente correlati. Quando il problema riguarda più di due variabili che sono quasi collineari (due delle quali possono avere solo correlazioni moderate), probabilmente avrai bisogno di uno degli altri metodi.
Ecco un altro pensiero che si ispira alla risposta di Stephan :
Se alcuni dei tuoi regressori correlati sono significativamente correlati (ad esempio, sono diverse misure di intelligenza, ad esempio verbale, matematica, ecc.), Puoi creare una singola variabile che misura la stessa variabile utilizzando una delle seguenti tecniche:
Somma i regressori (appropriato se i regressori sono componenti di un intero, ad esempio QI verbale + QI matematico = QI complessivo)
Media dei regressori (appropriato se i regressori misurano lo stesso costrutto sottostante, ad es. Dimensioni della scarpa sinistra, dimensioni della scarpa destra per misurare la lunghezza dei piedi)
Analisi fattoriale (per tenere conto degli errori nelle misurazioni ed estrarre un fattore latente)
È quindi possibile eliminare tutti i regressori correlati e sostituirli con l'unica variabile che emerge dall'analisi precedente.
Stavo per dire più o meno la stessa cosa di Stephan Kolassa sopra (quindi ho annullato la sua risposta). Aggiungo solo che a volte la multicollinearità può essere dovuta all'uso di variabili estese che sono tutte altamente correlate con una certa misura di dimensione, e che le cose possono essere migliorate usando variabili intensive, ovvero dividendo tutto per una certa misura di dimensione. Ad esempio, se le tue unità sono paesi, potresti dividere per popolazione, area o PNL, a seconda del contesto.
Oh - e rispondere alla seconda parte della domanda originale: non posso pensare a nessuna situazione quando si aggiunge il prodotto di tutti i regressori correlati sarebbe una buona idea. Come sarebbe d'aiuto? Cosa significherebbe?
Non sono esperto in questo, ma il mio primo pensiero sarebbe quello di eseguire un'analisi dei componenti principali sulle variabili predittive, quindi utilizzare i componenti principali risultanti per prevedere la variabile dipendente.
Uno dei modi per ridurre gli effetti della correlazione è standardizzare i regressori . Nella standardizzazione, tutti i regressori vengono sottratti con i rispettivi mezzi e divisi per le rispettive deviazioni standard. In particolare, se è la matrice di regressione:
Questo non è un rimedio, ma sicuramente un passo nella giusta direzione.