Ho trovato un riferimento in un articolo che recita come:
Secondo Tabachnick & Fidell (1996) le variabili indipendenti con una correlazione bivariata superiore a .70 non dovrebbero essere incluse nell'analisi di regressione multipla.
Problema: ho usato in un progetto di regressione multipla 3 variabili correlate> .80, VIF a circa .2 - .3, Tolleranza ~ 4- 5. Non posso escludere nessuna di esse (predittori e risultati importanti). Quando ho regredito il risultato sui 2 predittori che erano correlati a 0,80, sono rimasti entrambi significativi, ciascuno ha predetto varianze importanti e queste stesse due variabili hanno la maggior parte e coefficienti di correlazione semipartiale tra tutte e 10 le variabili incluse (5 controlli).
Domanda: il mio modello è valido nonostante le alte correlazioni? Qualsiasi riferimento è stato molto apprezzato!
Grazie per le risposte!
Non ho usato Tabachnick e Fidell come linea guida, ho trovato questo riferimento in un articolo che trattava di elevata collinearità tra i predittori.
Quindi, fondamentalmente, ho troppi pochi casi per il numero di predittori nel modello (molte variabili di controllo categoriche e fittizie codificate - età, possesso, genere, ecc.) - 13 variabili per 72 casi. L'indice di condizione è ~ 29 con tutti i controlli in e ~ 23 senza di essi (5 variabili).
Non posso eliminare alcuna variabile o utilizzare l'analisi fattoriale per combinarle perché teoricamente hanno senso da sole. È troppo tardi per ottenere più dati. Dato che sto conducendo l'analisi in SPSS, forse sarebbe meglio trovare una sintassi per la regressione della cresta (anche se non l'ho mai fatto prima e interpretare i risultati sarebbe nuovo per me).
Se è importante, quando ho condotto una regressione graduale, le stesse 2 variabili altamente correlate sono rimaste i singoli predittori significativi del risultato.
E ancora non capisco se le correlazioni parziali che sono alte per ciascuna di queste variabili contano come una spiegazione del perché le ho mantenute nel modello (nel caso in cui la regressione della cresta non possa essere eseguita).
Diresti che "Diagnostica della regressione: identificazione di dati influenti e fonti di collinearità / David A. Belsley, Edwin Kuh e Roy E. Welsch, 1980" sarebbe utile per comprendere la multicollinearità? O potrebbero essere utili altri riferimenti?