Disclaimer: questo è per un progetto di compiti a casa.
Sto cercando di trovare il modello migliore per i prezzi dei diamanti, a seconda di diverse variabili e finora sembra che abbia un modello abbastanza buono. Tuttavia ho incontrato due variabili che sono ovviamente collineari:
>with(diamonds, cor(data.frame(Table, Depth, Carat.Weight)))
Table Depth Carat.Weight
Table 1.00000000 -0.41035485 0.05237998
Depth -0.41035485 1.00000000 0.01779489
Carat.Weight 0.05237998 0.01779489 1.00000000
Tabella e profondità dipendono l'una dall'altra, ma voglio ancora includerle nel mio modello predittivo. Ho fatto alcune ricerche sui diamanti e ho scoperto che Tabella e Profondità sono la lunghezza attraverso la parte superiore e la distanza dalla punta superiore a quella inferiore di un diamante. Dato che questi prezzi dei diamanti sembrano essere correlati alla bellezza e la bellezza sembra essere proporzioni correlate, stavo per includere il loro rapporto, diciamo , per prevedere i prezzi. Questa procedura standard è per la gestione delle variabili collineari? In caso contrario, cos'è?
Modifica: ecco un diagramma di Depth ~ Table: