Finora ho rimosso le variabili collineari come parte del processo di preparazione dei dati guardando le tabelle di correlazione ed eliminando le variabili che si trovano al di sopra di una certa soglia. Esiste un modo più accettato di farlo? Inoltre, sono consapevole che guardare solo la correlazione tra 2 variabili alla volta non è l'ideale, misurazioni come VIF tengono conto della potenziale correlazione tra più variabili. Come si potrebbe scegliere sistematicamente combinazioni variabili che non presentano multicollinearità?
Ho i miei dati all'interno di un frame di dati Panda e sto usando i modelli di sklearn.