Relazione lineare tra variabili esplicative nella regressione multipla


10

Stavo leggendo il capitolo di regressione multipla di Analisi dei dati e grafica usando R: un approccio basato su esempi ed ero un po 'confuso nello scoprire che raccomandava di controllare le relazioni lineari tra le variabili esplicative (usando un diagramma a dispersione) e, nel caso in cui non ci fossero " t qualsiasi, trasformando loro in modo che non diventino più linearmente correlati. Ecco alcuni estratti di questo:

6.3 Una strategia per l'adattamento di più modelli di regressione

(...)

Esaminare la matrice scatterplot che coinvolge tutte le variabili esplicative. (Includere la variabile dipendente è, a questo punto, facoltativo. ) Cercare prima l'evidenza di non linearità nei grafici delle variabili esplicative l'una contro l'altra.

(...)

Questo punto identifica una strategia di ricerca del modello: cerca modelli in cui le relazioni di regressione tra variabili esplicative seguano una forma lineare "semplice" . Pertanto, se alcuni grafici a coppie mostrano prove di non linearità, considerare l'uso della trasformazione o delle trasformazioni per fornire relazioni più quasi lineari . Anche se potrebbe non essere necessariamente possibile, seguendo questa strategia, modellare adeguatamente la relazione di regressione, questa è una buona strategia, per i motivi indicati di seguito, da seguire all'inizio della ricerca.

(...)

Se le relazioni tra variabili esplicative sono approssimativamente lineari, forse dopo la trasformazione, è quindi possibile interpretare i grafici delle variabili predittive rispetto alla variabile di risposta con fiducia.

(...)

Potrebbe non essere possibile trovare trasformazioni di una o più delle variabili esplicative che assicurano che le relazioni (a coppie) mostrate nei pannelli appaiano lineari. Ciò può creare problemi sia per l' interpretazione dei grafici diagnostici per qualsiasi equazione di regressione adattata sia per l' interpretazione dei coefficienti nell'equazione adattata. Vedi Cook e Weisberg (1999).

Non dovrei preoccuparmi delle relazioni lineari tra variabili dipendenti (a causa del rischio di multicollinearità) invece di perseguirle attivamente? Quali sono i vantaggi di avere variabili approssimativamente linearmente correlate?

Gli autori affrontano il problema della multicollinearità più avanti nel capitolo, ma queste raccomandazioni sembrano essere in contrasto con l'evitare la multicollinearità.

Risposte:


8

Ci sono due punti qui:

  1. Il passaggio raccomanda di trasformare gli IV in linearità solo quando vi sono prove di non linearità. Le relazioni non lineari tra IV possono anche causare collinearità e, più centralmente, possono complicare altre relazioni. Non sono sicuro di essere d'accordo con i consigli nel libro, ma non è sciocco.

  2. Certamente relazioni lineari molto forti possono essere cause di collinearità, ma alte correlazioni non sono né necessarie né sufficienti per causare collinearità problematica. Un buon metodo per diagnosticare la collinearità è l'indice di condizione.

MODIFICA in risposta al commento

Gli indici di condizione sono descritti brevemente qui come "radice quadrata dell'autovalore massimo diviso per l'autovalore minimo". Ci sono alcuni post qui sul CV che ne discutono e i loro meriti. I testi fondamentali su di essi sono due libri di David Belsley: Diagnostica di condizionamento e Diagnostica di regressione (che ha anche una nuova edizione, 2005).


1
+1 - buona risposta ma puoi espandere l'indice delle condizioni? Devo ancora trovare un modo soddisfacente per affrontare la collinearità nelle variabili esplicative del candidato.
BGreene,

Grazie per la risposta informativa. Potresti per favore approfondire quali altre relazioni sono complicate dalla non linearità tra exp. variabili? E adesso di cosa parlano gli autori quando affermano che le relazioni non lineari tra Expl. le variabili possono causare problemi con l'interpretazione dei coefficienti e dei grafici diagnostici?
RicardoC,

Non riesco a trovare un esempio in questo momento, ma l'ho visto accadere. Può sembrare che ci siano relazioni non lineari tra Y e X
Peter Flom

3

Le relazioni lineari tra ciascuna delle variabili esplicative e la variabile dipendente garantiranno anche relazioni lineari tra le variabili esplicative. Il contrario non è ovviamente vero.

È vero che le trasformazioni progettate per dare una linearità approssimativa aumenteranno la collinearità. In assenza di tali trasformazioni, tuttavia, la collinearità è nascosta. Insistere nel mantenere così nascosta la collinearlità può provocare un'equazione di regressione complicata e non interpretabile, in cui è disponibile una semplice forma di equazione.

Supponiamo che ysia vicino a una funzione lineare di log(x1), in un caso in cui xvaria oltre valori che differiscono di un fattore di 10 o più. Quindi se xviene usato come regressore, altre variabili esplicative saranno invocate per quanto possibile per tener conto della non linearità nella relazione con x1. Il risultato può essere una relazione di regressione molto complicata, con coefficienti non interpretabili, al posto di una semplice forma di equazione di regressione che cattura tutto il potere esplicativo disponibile.

Le bizzarre conseguenze che possono derivare dall'incapacità di trovare e lavorare con variabili linearmente correlate sono ben illustrate nel recente documento che affermava una femminilità dell'effetto del nome dell'uragano nei dati sulle morti di 94 uragani dell'Atlantico che fecero sbarcare negli Stati Uniti negli anni 1950-2012. Vedi http://www.pnas.org/content/111/24/8782.abstract . I dati sono disponibili come parte delle informazioni supplementari. Si noti che lavorare con log(deaths)e utilizzare un modello lineare di teoria normaL (funzione di R lm()) equivale all'incirca all'uso di un modello di regressione binomiale negativo di Jung et al.

Se uno regressi log(E[deaths])su log(NDAM), non c'è più niente per la variabile pressione minima, la variabile femminilità, e interazioni, per spiegare. La variabile log(NDAM), no NDAM, appare in una matrice scatterplot come linearmente correlata alla variabile di pressione minima. La sua distribuzione è anche molto meno inclinata, molto più vicina alla simmetria.

Jung et al regredita log(E[deaths])su NDAM(danni normalizzato), oltre a quelle altre variabili e interazioni. L'equazione che è emersa è stata usata per raccontare una storia in cui la femminilità del nome ha un grande effetto.

Per vedere quanto sia bizzarro usare NDAMcome variabile esplicativa in una regressione in cui la variabile di risultato è log(E[deaths]), trama log(deaths+0.5)o log(deaths+1)contro NDAM. Quindi ripetere la trama con log(NDAM)al posto di NDAM. Il contrasto è ancora più evidente se Katrina e Audrey, che Jung et al. Hanno omesso come valori anomali, sono inclusi nella trama. Insistendo sull'uso NDAMcome variabile esplicativa, anziché su log(NDAM), Jung et al. Hanno perso l'opportunità di trovare una forma molto semplice di relazione di regressione.

NB questo E[deaths]è il numero di decessi previsti dal modello.

Nei dati di Jung et al, le trasformazioni necessarie possono essere identificate da una matrice scatterplot di tutte le variabili. Prova forse la funzione R spm()nell'ultima versione del pacchetto auto per R, con transform=TRUEe (con deathscome variabile) family="yjPower". Oppure sperimenta le trasformazioni suggerite da una matrice scatterplot iniziale. In generale, il consiglio preferito potrebbe essere quello di cercare prima le variabili esplicative che soddisfano il requisito dei predittori lineari, quindi seguire la variabile del risultato, magari usando la funzione auto invTranPlot().

Vedi, oltre a "Analisi dei dati e grafica mediante R" a cui fa riferimento l'interrogatore:

  • Weisberg: regressione lineare applicata. 4th edn, Wiley 2014, pagg .85-203.
  • Fox e Weisberg: un compagno R per la regressione applicata. 2nd edn, Sage, 2011, pp.127-148.

1

Trovo questo passaggio piuttosto criptico se non addirittura discutibile. Idealmente, si desidera che le variabili indipendenti siano il più non correlate tra loro in modo da fornire informazioni incrementali e aggiuntive al modello nella stima della variabile dipendente. Sollevi il problema della multicollinearità attraverso elevate correlazioni tra variabili indipendenti e hai perfettamente ragione a sollevare tale problema in questa circostanza.

È più critico esaminare il grafico a dispersione e la relativa relazione lineare tra ciascuna delle variabili indipendenti e la variabile dipendente, ma non tra le variabili indipendenti. Quando si osservano tali grafici a dispersione (indipendenti sull'asse X e dipendenti dall'asse Y) in quel momento potrebbero esserci opportunità di trasformare la variabile indipendente per osservare una migliore corrispondenza, sia attraverso un registro, un esponente o una forma polinomiale.


1
Sulla tua seconda frase: se le variabili indipendenti fossero totalmente non correlate, allora gran parte della logica della regressione diventerebbe controversa. Ogni relazione bivariata di un predittore con Y si presenterebbe come la relazione quando tutti gli altri predittori erano controllati. In tal caso, perché controllare?
rolando2,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.