Multicollinearità quando le regressioni individuali sono significative, ma i VIF sono bassi


13

Ho 6 variabili ( ) che sto usando per prevedere . Durante l'esecuzione della mia analisi dei dati, ho prima provato una regressione lineare multipla. Da questo, solo due variabili erano significative. Tuttavia, quando ho eseguito una regressione lineare confrontando ciascuna variabile singolarmente con , tutte tranne una erano significative ( ovunque da meno di 0,01 a meno di 0,001). È stato suggerito che ciò fosse dovuto alla multicollinearità.x1...x6yyp

La mia ricerca iniziale su questo suggerisce di verificare la multicollinearità usando i VIF . Ho scaricato il pacchetto appropriato da R e ho finito con i VIF risultanti: 3.35, 3.59, 2.64, 2.24 e 5.56. Secondo varie fonti online, il punto che dovresti preoccupare della multicollinearità con i tuoi VIF è a 4 o 5.

Ora sono sconcertato sul significato dei miei dati. Posso o non ho un problema di multicollinearità? Se lo faccio, come devo procedere? (Non riesco a raccogliere più dati e le variabili sono parti di un modello che non sono ovviamente correlate) Se non ho questo problema, cosa dovrei prendere dai miei dati, in particolare il fatto che queste variabili sono altamente significative individualmente, ma non significativo affatto quando combinato.

Modifica: sono state poste alcune domande relative al set di dati, quindi vorrei espandere ...

In questo caso particolare, stiamo cercando di capire come specifici segnali sociali (gesto, sguardo, ecc.) Influenzano la probabilità che qualcuno produca qualche altro indizio. Vorremmo che il nostro modello includesse tutti gli attributi significativi, quindi mi sento a disagio nel rimuoverne alcuni che sembrano ridondanti.

Non ci sono ipotesi con questo in questo momento. Piuttosto, il problema non è studiato e stiamo cercando di comprendere meglio quali attributi sono importanti. Per quanto ne so, questi attributi dovrebbero essere relativamente indipendenti l'uno dall'altro (non si può semplicemente dire che lo sguardo e i gesti sono gli stessi, o uno il sottoinsieme di un altro). Sarebbe bello poter riportare i valori di p per tutto, dal momento che vorremmo che altri ricercatori capissero cosa è stato visto.

Modifica 2: Da quando è arrivato da qualche parte in basso, il mio è 24.n


Dando per scontato che non dispone di multicollinearità, si può ampliare, come @ rolando2 suggerisce, sulla destinazione del modello? È vero che tutti i predittori sono importanti per gli altri investigatori (nel qual caso vorresti segnalare i livelli di significatività per ciascuno di essi) o potresti semplicemente buttarne uno o due?

@jlovegren Ho aggiunto alcune informazioni sopra - fammi sapere se hai bisogno di maggiori informazioni.
cryptic_star

Le variabili esplicative sono misurate su una scala continua? In quel caso, ci sono metodi per residualizzare che non sono troppo difficili. Se sono categorici, non lo so, ma spero che qualcun altro lo abbia fatto (ho fatto una domanda simile su questo sito).

@jlovegren Cinque delle sei variabili sono conteggi.
cryptic_star

un'altra cosa, solo per essere sicuri. i conteggi hanno un chiaro limite superiore che viene spesso raggiunto, o se il valore massimo del conteggio non è limitato in linea di principio?

Risposte:


18

Per capire cosa può succedere, è istruttivo generare (e analizzare) dati che si comportano nel modo descritto.

Per semplicità, dimentichiamoci di quella sesta variabile indipendente. Quindi, la domanda descrive le regressioni di una variabile dipendente rispetto a cinque variabili indipendenti x 1 , x 2 , x 3 , x 4 , x 5 , in cuiyx1,x2,x3,x4,x5

  • Ogni regressione ordinaria è significativa a livelli da 0,01 a meno di 0,001 .yxi0.010.001

  • La regressione multipla produce coefficienti significativi solo per x 1 e x 2 .yx1++x5x1x2

  • Tutti i fattori di inflazione della varianza (VIF) sono bassi, indicando un buon condizionamento nella matrice del progetto (ovvero mancanza di collinearità tra la ).xi

Facciamo in modo che ciò accada come segue:

  1. Genera valori normalmente distribuiti per x 1 e x 2 . (Sceglieremo n più tardi.)nx1x2n

  2. Sia dove ε è un errore normale indipendente della media 0 . Sono necessari alcuni tentativi ed errori per trovare una deviazione standard adatta per ε ; 1 / 100 funziona bene (ed è piuttosto drammatica: y è estremamente ben correlata con x 1 e x 2 , anche se è solo moderatamente correlato con x 1 e x 2 singolarmente).y=x1+x2+εε0ε1/100yx1x2x1x2

  3. Let = x 1 / 5 + δ , j = 3 , 4 , 5 , dove δ è errore normale standard indipendente. Questo rende x 3 , x 4 , x 5 solo leggermente dipendente da x 1 . Tuttavia, tramite la stretta correlazione tra x 1 e y , ciò induce una minuscola correlazione tra y e questi x j .xjx1/5+δj=3,4,5δx3,x4,x5x1x1yyxj

Ecco il problema: se rendiamo abbastanza grande, queste lievi correlazioni si tradurranno in coefficienti significativi, anche se y è quasi interamente "spiegato" solo dalle prime due variabili.ny

Ho scoperto che funziona perfettamente per la riproduzione dei valori p riportati. Ecco una matrice scatterplot di tutte e sei le variabili:n=500

SPM

Ispezionando la colonna di destra (o la riga in basso) si può vedere che ha una buona (positiva) correlazione con x 1 e x 2 ma poca correlazione apparente con le altre variabili. Ispezionando il resto di questa matrice, puoi vedere che le variabili indipendenti x 1 , ... , x 5 sembrano mutuamente non correlate (il casuale δyx1x2x1,,x5δmascherare le minuscole dipendenze che sappiamo siano lì.) Non ci sono dati eccezionali - niente di terribilmente estraneo o con una leva elevata. Gli istogrammi mostrano che tutte e sei le variabili sono approssimativamente distribuite normalmente, tra l'altro: questi dati sono ordinari e "semplici vaniglia" come si potrebbe desiderare.

Nella regressione di contro x 1 e x 2 , i valori di p sono essenzialmente 0. Nelle regressioni individuali di y contro x 3 , quindi y contro x 4 e y contro x 5 , i valori di p sono 0,0024, 0,0083 e 0.00064, rispettivamente: cioè, sono "altamente significativi". Ma nella regressione multipla completa, i corrispondenti valori p si gonfiano rispettivamente a .46, .36 e .52: per nulla significativi. La ragione di ciò è che una volta che y è stato regredito rispetto a x 1 e xyx1x2yx3yx4yx5yx1 , l'unica cosa rimasta da "spiegare" è la minuscola quantità di errore nei residui, che approssimerà ε , e questo errore è quasi completamente estraneo alla restante x i . ("Quasi" è corretto: esiste una relazione davvero minuscola indotta dal fatto che i residui sono stati calcolati in parte dai valori di x 1 e x 2 e che x i , i = 3 , 4 , 5 , hanno qualche debole relazione con x 1 e x 2. Questa relazione residua è praticamente non rilevabile, tuttavia, come abbiamo visto.)x2εxix1x2xii=3,4,5x1x2

Il numero di condizionamento della matrice di progettazione è solo 2,17: è molto basso e non mostra alcuna indicazione di elevata multicollinearità. (La perfetta mancanza di collinearità si rifletterebbe in un numero di condizionamento di 1, ma in pratica questo si vede solo con dati artificiali ed esperimenti progettati. I numeri di condizionamento nell'intervallo 1-6 (o anche superiore, con più variabili) sono irrilevanti.) Questo completa la simulazione: ha riprodotto con successo ogni aspetto del problema.

Gli approfondimenti importanti offerti da questa analisi includono

  1. i valori p non ci dicono direttamente nulla sulla collinearità. Dipendono fortemente dalla quantità di dati.

  2. Le relazioni tra i valori di p nelle regressioni multiple e i valori di p nelle regressioni correlate (che coinvolgono sottoinsiemi della variabile indipendente) sono complesse e generalmente imprevedibili.

Di conseguenza, come altri hanno sostenuto, i valori di p non dovrebbero essere la tua unica guida (o anche la tua guida principale) alla selezione del modello.


modificare

Non è necessario che sia grande quanto 500 perché compaiano questi fenomeni. n500 Ispirato da ulteriori informazioni nella domanda, il seguente è un set di dati costruito in modo simile con (in questo caso x j = 0,4 x 1 + 0,4 x 2 + δ per j = 3 , 4 , 5 ). Questo crea correlazioni da 0,38 a 0,73 tra x 1 - 2 e x 3 - 5n=24xj=0.4x1+0.4x2+δj=3,4,5x12x35. Il numero di condizione della matrice di progettazione è 9,05: un po 'alto, ma non terribile. (Alcune regole empiriche dicono che i numeri delle condizioni fino a 10 sono ok.) I valori p delle singole regressioni rispetto a sono 0,002, 0,015 e 0,008: da significativi a molto significativi. Pertanto, è coinvolta una certa multicollinearità, ma non è così grande che si dovrebbe lavorare per cambiarla. L'intuizione di base rimane la stessax3,x4,x5: significato e multicollinearità sono cose diverse; vi sono solo lievi vincoli matematici; ed è possibile che l'inclusione o l'esclusione anche di una singola variabile abbia effetti profondi su tutti i valori p anche senza che la multicollinearità grave sia un problema.

x1 x2 x3 x4 x5 y
-1.78256    -0.334959   -1.22672    -1.11643    0.233048    -2.12772
0.796957    -0.282075   1.11182 0.773499    0.954179    0.511363
0.956733    0.925203    1.65832 0.25006 -0.273526   1.89336
0.346049    0.0111112   1.57815 0.767076    1.48114 0.365872
-0.73198    -1.56574    -1.06783    -0.914841   -1.68338    -2.30272
0.221718    -0.175337   -0.0922871  1.25869 -1.05304    0.0268453
1.71033 0.0487565   -0.435238   -0.239226   1.08944 1.76248
0.936259    1.00507 1.56755 0.715845    1.50658 1.93177
-0.664651   0.531793    -0.150516   -0.577719   2.57178 -0.121927
-0.0847412  -1.14022    0.577469    0.694189    -1.02427    -1.2199
-1.30773    1.40016 -1.5949 0.506035    0.539175    0.0955259
-0.55336    1.93245 1.34462 1.15979 2.25317 1.38259
1.6934  0.192212    0.965777    0.283766    3.63855 1.86975
-0.715726   0.259011    -0.674307   0.864498    0.504759    -0.478025
-0.800315   -0.655506   0.0899015   -2.19869    -0.941662   -1.46332
-0.169604   -1.08992    -1.80457    -0.350718   0.818985    -1.2727
0.365721    1.10428 0.33128 -0.0163167  0.295945    1.48115
0.215779    2.233   0.33428 1.07424 0.815481    2.4511
1.07042 0.0490205   -0.195314   0.101451    -0.721812   1.11711
-0.478905   -0.438893   -1.54429    0.798461    -0.774219   -0.90456
1.2487  1.03267 0.958559    1.26925 1.31709 2.26846
-0.124634   -0.616711   0.334179    0.404281    0.531215    -0.747697
-1.82317    1.11467 0.407822    -0.937689   -1.90806    -0.723693
-1.34046    1.16957 0.271146    1.71505 0.910682    -0.176185

Dato che sto lavorando per spiegare le relazioni tra queste variabili e la loro importanza nel prevedere la y, la mancanza di collinearità mi dice essenzialmente ciò che la regressione lineare multipla iniziale mi ha detto: che solo due variabili sono importanti? Se le variabili mostrassero collinearità, significherebbe che molte sono importanti, ma forniscono informazioni simili? Per favore fatemi sapere se mi manca completamente il punto - non sono affatto un esperto di statistiche.
cryptic_star

Oh, e lo aggiungerò al mio post originale, ma la mia n è 24 (i soggetti umani funzionano, quindi è piuttosto alto). Sulla base del tuo post, posso presumere che questo sia il motivo per cui le persone multicollinearità suggeriscono di ottenere più dati per evidenziare meglio le differenze.
cryptic_star

Fornisco un nuovo esempio che mostra come i tuoi fenomeni possono verificarsi anche quando . Potrebbe essere facilmente modificato in modo che tutti i numeri coinvolti siano numeri interi positivi: conta, cioè. n=24
whuber

1
Per quanto riguarda il tuo primo commento: la collinearità suggerisce che alcune delle variabili esplicative (IV) potrebbero essere ridondanti, ma non è sempre necessariamente così. Ciò che conta sono le relazioni tra gli IV e la variabile dipendente (DV). È possibile che uno dei IV sia fortemente dipendente dagli altri IV, ma contenga informazioni unicamente utili relative al DV. Questo è un concetto critico: nessuna quantità di analisi delle relazioni tra i soli IV ti dirà quali variabili spiegano meglio il DV. La mancanza di collinearità - una proprietà esclusivamente degli IV - non rivela nulla sul DV.
whuber

9

Posso o non ho un problema di multicollinearità? Se lo faccio, come devo procedere?

Non è una situazione o. E sono scettico sulla linea guida "4 o 5". Per ciascuno dei tuoi predittori, l'errore standard del coefficiente è compreso tra 2,2 e 5,6 volte più grande di quanto sarebbe se il predittore non fosse correlato con gli altri. E la porzione di un determinato predittore che non può essere spiegata dagli altri va da 1 / 2,2 a 1 / 5,6 o dal 18% al 45%. Complessivamente, sembra una quantità abbastanza notevole di collinearità.

Ma facciamo un passo indietro per un minuto. Stai davvero cercando di prevedere * Y *, invece di cercare di spiegarlo ? Se la prima, allora non suppongo che abbiate bisogno di cure se il livello di significatività di una data variabile cambia quando altre sono presenti nel modello. Il tuo lavoro è davvero molto più semplice di quanto sarebbe se fosse necessaria una vera spiegazione.

Se la spiegazione è il tuo obiettivo, dovrai considerare il modo in cui queste variabili si collegano, cosa che richiede più di informazioni statistiche. Chiaramente si sovrappongono in modo si riferiscono a Y , e questo collinearità renderà difficile stabilire, ad esempio, il loro ordine rango di importanza per la contabilizzazione di Y . In questa situazione non esiste un percorso chiaro da seguire.

In ogni caso, spero che stiate prendendo in considerazione metodi di crossvalidation.


Questa risposta, come quella di John, sembra confondere bassi valori di p con alta correlazione. Ricorda: gli errori standard dei coefficienti diminuiscono con l'aumentare della quantità di dati ( caeteris paribus ), quindi i valori p bassi possono essere raggiunti con dati che non hanno quasi correlazioni, purché siano presenti abbastanza osservazioni.
whuber

Confondere bassi valori di p con alta correlazione? Pas du tout!
rolando2,

Quindi spiega come un concetto di valore p rigorosamente ("l'errore standard del coefficiente è compreso tra 2,2 e 5,6 volte più grande di quanto sarebbe se il predittore non fosse correlato con gli altri") ti porta a concludere "che sembra piuttosto sostanziale quantità di collinearità ", che è fortemente correlata alla correlazione (le misure di collinearità sono proprietà della matrice di correlazione quando le variabili sono standardizzate).
whuber

Lo guardo così. Quando VIF è 5.6, l'82% della varianza in quel predittore può essere contabilizzato dagli altri predittori. Non vedo come ciò possa dipendere da N.
rolando2

1
Come contrappunto a questa valutazione pessimistica (che ha una qualche giustificazione nelle regole empiriche come richiedere 5-10 volte più osservazioni delle variabili), è degno di nota che interi campi di modellazione e analisi dei dati sono cresciuti attorno a problemi che hanno pochi osservazioni e molti predittori, come DACE (progettazione e analisi di esperimenti al computer). Vedi ressources-actuarielles.net/EXT/ISFA/1226.nsf/… per un documento fondamentale.
whuber

6

Hai multicollinearità. La tua analisi iniziale lo ha dimostrato. Per quanto sia un problema, questa è un'altra domanda che sembra avere molte risposte nel tuo caso.

Forse se hai risolto meglio il problema di base sarebbe più ovvio cosa fare? ...

Con la multicollinearità i tuoi coefficienti di regressione riguardano i contributi unici (ben più vicini agli unici) di ciascuna variabile al tuo modello. Se alcuni sono correlati tra loro, allora ciascun contributo unico di ciascuno correlato è minore. Questo è probabilmente in parte il motivo per cui nessuno è significativo quando sono tutti insieme, ma se usati da soli possono esserlo.

La prima cosa che probabilmente devi fare è considerare cosa significa l'intercorrelazione tra le tue variabili. Ad esempio, hai un sacco di variabili che rappresentano solo la stessa cosa? Ti è capitato di misurare i tuoi predittori su scala ridotta e ottenere correlazioni accidentali? Non provare a correggere la regressione, prova a capire le tue variabili.

Considera X1 e X2 con una correlazione molto forte tra loro, diciamo r = 0.90. Se si inserisce X1 nel modello ed è un predittore significativo, anche un altro modello con X2 da solo sarà molto significativo perché sono quasi la stessa cosa. Se li metti insieme nel modello, almeno uno di loro deve soffrire perché la regressione multipla risolverà i loro contributi unici. Entrambi potrebbero non essere significativi. Ma non è questo il punto, il punto è riconoscere perché si sovrappongono così tanto e se addirittura dicono qualcosa di diverso l'uno dall'altro e se ne hai bisogno o no? Forse uno esprime un'idea più significativa e più correlata alla tua variabile di risposta rispetto all'altra. Forse concluderai che sono la stessa cosa con diversi livelli di variabilità.

Inoltre, quando si guardano modelli di qualsiasi tipo, ma soprattutto con predittori intercorrelati, i valori p sono un modo terribile per dire se un nuovo predittore fornisce un contributo significativo (se è quello che stai cercando di fare ... non sei sicuro di cosa tu stai cercando di farlo perché sembra che tu stia solo cercando di rendere la regressione o A) semplice o B) uscire nel modo desiderato ... nessuno dei due è fattibile). Probabilmente è meglio guardare AIC per aiutarti a determinare quali predittori dovresti tenere e quali non contribuiscono a nulla.


In che modo bassi valori p dimostrano la multicollinearità? I due concetti sono completamente diversi. Con abbastanza dati, puoi avere bassi valori p e quasi nessuna collinearità.
whuber

Questo è esattamente ciò che sto contestando, John: hai concluso nella tua prima frase che ciò che l'OP descrive implica "Hai multicollinearità". Ma questo è esattamente ciò che l'OP vuole sapere: "ho o non ho un problema di multicollinearità"? Io sostengo che la risposta corretta è "non ci hai fornito abbastanza informazioni, ma probabilmente no" perché i fenomeni descritti nella domanda sono perfettamente coerenti con problemi ben condizionati. In effetti, i bassi VIF riportati dal PO suggeriscono che la tua affermazione è falsa.
whuber

Non l'ho detto da nessuna parte. Forse intendi quello che ho detto sull'analisi iniziale. L'analisi iniziale è stata che gli effetti cambiano molto a seconda di quali altri effetti sono stati aggiunti. Ciò era dovuto alla multi-collinearità (anche se non la quantifica). Naturalmente il significato è un problema diverso. Davvero non so a cosa stai arrivando?
Giovanni

Scusa Whuber per l'aggiornamento del commento, ma il tuo funziona comunque bene .... lettori, gli ultimi due sopra sono invertiti ed è colpa mia. Whuber, ero solo concentrato sulla parola "problema". La multicollinearità è qualcosa che quantificate. Ce ne sono alcuni. Suggerisce di pensare seriamente alle variabili a prescindere. Suggerisce anche che la ragione per cui i predittori additivi cambiano quando aggiunti o rimossi è dovuta a quella multicollinearità. Non ho avuto l'impressione che l'interrogante desiderasse davvero una risposta in quanto si trattava di un "problema" di calcolo.
Giovanni

È possibile che interpretiamo la domanda in diversi modi, John. Poiché non voglio lasciare il problema probabilmente confuso dai miei commenti qui, ho aggiunto una risposta per spiegare il mio punto.
whuber

2

Personalmente, utilizzerei gli indici delle condizioni e la tabella spiegata della varianza per analizzare la collinearità.

Inoltre non userei i valori di p come criterio per la costruzione del modello e, confrontando i modelli con 6 IV con i modelli con 1, osserverei le modifiche nella dimensione dell'effetto del parametro per la variabile che è entrambe.

Ma puoi sicuramente avere i risultati che menzioni senza collinearità. La collinearità riguarda solo le variabili X e la loro relazione. Ma due variabili potrebbero entrambe essere fortemente correlate a Y senza essere strettamente correlate l'una all'altra.


1
Ciò non mi sembra intuitivo, secondo cui due variabili potrebbero essere fortemente correlate a Y senza essere strettamente correlate l'una all'altra. C'è un esempio che potresti indicarmi o una spiegazione più lunga?
cryptic_star

@Peter - con 1- (1 / 5.6) = 82% della varianza nell'ultimo predittore spiegato dagli altri, perché dici che potrebbe non esserci collinearità?
rolando2,

3
Allie, questa è una buona domanda. Prendi due variabili non correlateX1 e X2, di variazioni e forma comparabili y=X1+X2. Adessoy è fortemente correlato a ciascuno di X1 e X2 senza X1 e X2avere alcuna relazione a tutti.
whuber

0

Per quanto riguarda la multicollinearità, vengono menzionate varie soglie che di solito convergono attorno a un VIF di 10 corrispondente a un valore R Square sottostante di 0,90 tra la variabile testata rispetto alle altre variabili indipendenti. I VIF delle tue variabili sembrano accettabili e potresti tecnicamente tenerli in un modello.

Tuttavia, vorrei utilizzare un metodo di regressione graduale per vedere quali sono la migliore combinazione di variabili e quanta più spiegazione (aumento incrementale in R Square) ottieni aggiungendo variabili. Il benchmark arbitrario dovrebbe essere il valore del quadrato R rettificato che regola il valore del quadrato R verso il basso penalizzando il modello per l'aggiunta di variabili.

Le tue variabili sono in qualche modo correlate tra loro. Questo è inevitabile, è solo una questione di laurea. Dati i VIF che menzioni, sospetto intuitivamente che otterrai la maggior parte delle informazioni / spiegazioni dalla migliore combinazione di 2 variabili. Inoltre, l'aggiunta di variabili può aggiungere solo un valore incrementale marginale.

Quando osservo la combinazione di variabili che sono selezionate dal processo di regressione graduale, guarderei anche quali variabili sono selezionate e se i loro segni di coefficiente di regressione sono coerenti con la loro correlazione con y. In caso contrario, potrebbe essere dovuto a un'interazione legittima tra le variabili. Ma potrebbe anche essere il risultato di un eccessivo adattamento del modello e che i coefficienti di regressione siano spuri. Riflettono un adattamento matematico, ma sono privi di significato in termini di causalità sottostante.

Un altro modo per selezionare le variabili è decidere dal punto di vista logico quali sono le 2 o 3 variabili principali che dovrebbero essere nel modello. Inizi con quelli e poi controlli quante più informazioni ottieni aggiungendo una variabile. Controllare il rettangolo R rettificato, la coerenza del coefficiente di regressione rispetto alla regressione originale e ovviamente testare tutti i modelli con periodo di attesa. Molto presto, sarà evidente qual è il tuo modello migliore.


4
Non sono d'accordo sul fatto che sarebbe preferibile una procedura di selezione graduale automatica. In tal caso, selezioneresti in base a una variabile casuale, che causa molti problemi. Discuto questo fenomeno qui . Se la selezione graduale fosse applicata comunque, consiglierei di usare l'AIC, invece diRun'dj2, poiché la pena più marcata sarebbe più appropriata; tuttavia, non consiglio di usare la selezione graduale.
gung - Ripristina Monica

Many of the problems you outline are common to linear regressions model in general. I am not sure that such technical problems are reasons to throw out all stepwise regression methods and linear regression in general. I am unclear why stepwise regression "is selecting based on a random variable, which causes a lot of problems." Stepwise finds the best fit, like any model does. What I think is more important is to ensure that the mathematical fit corresponds to the underlying theory or logic of the problem you are solving for.
Sympa

3
I can edit it if need be, but the problems quoted are not about linear models in general, just stepwise selection. I do not advocate throwing out linear regression. Stepwise algorithms return highly biased betas & inaccurate CIs that are largely impossible to correct. R2, Radj2, F, p, etc. are random variables: if you get more data from the same data generating process & fit an identical model repeatedly, these values will vary. Selecting a model based on them incorporates error in ways that eliminate the value of the model. I do agree w/ using theory & logic to select a model.
gung - Reinstate Monica

gung, I am not sure we are talking of the same thing. I am using Stepwise Regression in two ways. One is manual, you build a model using the best regressor. And, you add on to it using the 2nd best variable that best explain the error of the first model. And, you keep going till your AIC score deteriorates. The 2nd method I have used is using XLStat software that automates the process and was developed by Thierry Fahmy and his team. He has I understand a PhD in math along with others on his team. And, I am not confident they would have fallen into all the traps you mentioned.
Sympa

2
Gaetan, I think what @gung is trying to say is that stepwise methods may cause severe damage to the initial statistical regression framework (loss function, p-values, etc.). See Frank Harrell's response and comments here. Penalized regression, as discussed in several threads, might be a good alternative. "(...) software that automates the process" reminds me of R fortune(224): no troll here, just want to highlight that you don't necessarily need to trust what software automagically gives (or offers) you as an option.
chl

0

If your explanatory variables are count data, and it is not unreasonable to assume that they are normally distributed, you can transform them into standard normal variates using the R scale command. Doing this can reduce the collinearity. But that will probably not solve the whole problem.

A useful batch of R commands for analyzing and dealing with collinearity are found on Florian Jaeger's blog, including:

z. <- function (x) scale(x)
r. <- function (formula, ...) rstandard(lm(formula, ...))

The z. function converts a vector into a standard normal variate. The r. function returns standardized residuals for regressing one predictor against another. You can use this to effectively divide the model deviance into different tranches so that only some variables have access to the most senior tranche, then the next tranche will be offered to residualized variables. (Sorry for my homespun terminology) So if a model of the form

Y ~ A + B

suffers from multicollinearity, then you can run either of

Y ~ A + r.(B)
Y ~ r.(A) + B

so that only the residuals of the "junior tranche" variable (when regressed against the "senior tranche" variable) are fitted to the model. This way, you are shielded from multicollinearity, but have a more complicated set of parameters to report.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.