Stavo leggendo il capitolo di regressione multipla di Analisi dei dati e grafica usando R: un approccio basato su esempi ed ero un po 'confuso nello scoprire che raccomandava di controllare le relazioni lineari tra le variabili esplicative (usando un diagramma a dispersione) e, nel caso in cui non ci fossero " t qualsiasi, trasformando loro in modo che non diventino più linearmente correlati. Ecco alcuni estratti di questo:
6.3 Una strategia per l'adattamento di più modelli di regressione
(...)
Esaminare la matrice scatterplot che coinvolge tutte le variabili esplicative. (Includere la variabile dipendente è, a questo punto, facoltativo. ) Cercare prima l'evidenza di non linearità nei grafici delle variabili esplicative l'una contro l'altra.
(...)
Questo punto identifica una strategia di ricerca del modello: cerca modelli in cui le relazioni di regressione tra variabili esplicative seguano una forma lineare "semplice" . Pertanto, se alcuni grafici a coppie mostrano prove di non linearità, considerare l'uso della trasformazione o delle trasformazioni per fornire relazioni più quasi lineari . Anche se potrebbe non essere necessariamente possibile, seguendo questa strategia, modellare adeguatamente la relazione di regressione, questa è una buona strategia, per i motivi indicati di seguito, da seguire all'inizio della ricerca.
(...)
Se le relazioni tra variabili esplicative sono approssimativamente lineari, forse dopo la trasformazione, è quindi possibile interpretare i grafici delle variabili predittive rispetto alla variabile di risposta con fiducia.
(...)
Potrebbe non essere possibile trovare trasformazioni di una o più delle variabili esplicative che assicurano che le relazioni (a coppie) mostrate nei pannelli appaiano lineari. Ciò può creare problemi sia per l' interpretazione dei grafici diagnostici per qualsiasi equazione di regressione adattata sia per l' interpretazione dei coefficienti nell'equazione adattata. Vedi Cook e Weisberg (1999).
Non dovrei preoccuparmi delle relazioni lineari tra variabili dipendenti (a causa del rischio di multicollinearità) invece di perseguirle attivamente? Quali sono i vantaggi di avere variabili approssimativamente linearmente correlate?
Gli autori affrontano il problema della multicollinearità più avanti nel capitolo, ma queste raccomandazioni sembrano essere in contrasto con l'evitare la multicollinearità.