Domande taggate «multicollinearity»

Situazione in cui esiste una forte relazione lineare tra le variabili predittive, in modo che la loro matrice di correlazione diventi (quasi) singolare. Questa "malattia" rende difficile determinare il ruolo unico di ciascuno dei predittori: sorgono problemi di stima e aumentano gli errori standard. I predittori bivaramente molto correlati sono un esempio di multicollinearità.

9
C'è una spiegazione intuitiva del perché la multicollinearità è un problema nella regressione lineare?
Il wiki discute i problemi che sorgono quando la multicollinearità è un problema di regressione lineare. Il problema di base è che la multicollinearità si traduce in stime di parametri instabili che rendono molto difficile valutare l'effetto di variabili indipendenti su variabili dipendenti. Comprendo le ragioni tecniche alla base dei …


1
Quale correlazione rende singolare una matrice e quali sono le implicazioni della singolarità o della quasi-singolarità?
Sto facendo alcuni calcoli su matrici diverse (principalmente nella regressione logistica) e comunemente ottengo l'errore "Matrix is ​​singular", dove devo tornare indietro e rimuovere le variabili correlate. La mia domanda qui è cosa considereresti una matrice "altamente" correlata? Esiste un valore soglia di correlazione per rappresentare questa parola? Come se …


6
Perché la multicollinearità non è controllata nelle moderne statistiche / apprendimento automatico
Nelle statistiche tradizionali, durante la creazione di un modello, controlliamo la multicollinearità utilizzando metodi come le stime del fattore di inflazione della varianza (VIF), ma nell'apprendimento automatico, invece, utilizziamo la regolarizzazione per la selezione delle funzionalità e non sembriamo verificare se le funzionalità sono correlate affatto. Perché lo facciamo?

2
Le variabili altamente correlate nella foresta casuale distorcono la precisione e la selezione delle caratteristiche?
A mio avviso, le variabili altamente correlate non causeranno problemi di multi-collinearità nel modello di foresta casuale (correggimi se sbaglio). Tuttavia, in caso contrario, se ho troppe variabili contenenti informazioni simili, il modello peserà troppo su questo set piuttosto che sugli altri? Ad esempio, ci sono due serie di informazioni …

3
Quale fattore di inflazione della varianza dovrei usare: o ?
Sto cercando di interpretare i fattori di inflazione della varianza utilizzando la viffunzione nel pacchetto di R car. La funzione stampa sia un generalizzato che anche . Secondo il file di aiuto , quest'ultimo valoreVIFVIF\text{VIF}GVIF1/(2⋅df)GVIF1/(2⋅df)\text{GVIF}^{1/(2\cdot\text{df})} Per regolare la dimensione dell'ellissoide di confidenza, la funzione stampa anche GVIF ^ [1 / …



2
Diagnostica di collinearità problematica solo quando è incluso il termine di interazione
Ho registrato una regressione sulle contee statunitensi e sto verificando la collinearità nelle mie variabili "indipendenti". Belsley, Kuh e Welsch's Regression Diagnostics suggeriscono di esaminare l'indice delle condizioni e le proporzioni di decomposizione della varianza: library(perturb) ## colldiag(, scale=TRUE) for model with interaction Condition Index Variance Decomposition Proportions (Intercept) inc09_10k …


2
La PCA è instabile in multicollinearità?
So che in una situazione di regressione, se si dispone di un insieme di variabili altamente correlate, questo è generalmente "negativo" a causa dell'instabilità dei coefficienti stimati (la varianza va verso l'infinito mentre il determinante va verso lo zero). La mia domanda è se questa "cattiveria" persista in una situazione …


1
C'è un motivo per preferire una misura specifica di multicollinearità?
Quando lavoriamo con molte variabili di input, ci preoccupiamo spesso della multicollinearità . Esistono diverse misure di multicollinearità utilizzate per rilevare, riflettere e / o comunicare la multicollinearità. Alcuni consigli comuni sono: Il multiplo per una particolare variabile R2jRj2R^2_j La tolleranza, , per una particolare variabile 1 - R2j1-Rj21-R^2_j Il …

1
Come gestire l'alta correlazione tra predittori nella regressione multipla?
Ho trovato un riferimento in un articolo che recita come: Secondo Tabachnick & Fidell (1996) le variabili indipendenti con una correlazione bivariata superiore a .70 non dovrebbero essere incluse nell'analisi di regressione multipla. Problema: ho usato in un progetto di regressione multipla 3 variabili correlate> .80, VIF a circa .2 …

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.