Ho un set di dati con 9 variabili indipendenti continue. Sto cercando di scegliere tra queste variabili per adattarsi a un modello per una sola percentuale variabile (dipendente), Score
. Sfortunatamente, so che ci sarà una seria collinearità tra alcune delle variabili.
Ho provato a usare la stepAIC()
funzione in R per la selezione delle variabili, ma quel metodo, stranamente, sembra sensibile all'ordine in cui le variabili sono elencate nell'equazione ...
Ecco il mio codice R (poiché sono dati percentuali, utilizzo una trasformazione logit per Punteggio):
library(MASS)
library(car)
data.tst = read.table("data.txt",header=T)
data.lm = lm(logit(Score) ~ Var1 + Var2 + Var3 + Var4 + Var5 + Var6 + Var7 +
Var8 + Var9, data = data.tst)
step = stepAIC(data.lm, direction="both")
summary(step)
Per qualche motivo, ho scoperto che le variabili elencate all'inizio dell'equazione finiscono per essere selezionate dalla stepAIC()
funzione e il risultato può essere manipolato elencando, ad esempio, Var9
prima (seguendo la tilde).
Qual è un modo più efficace (e meno controverso) di adattare un modello qui? In realtà non sono stanco di usare la regressione lineare: l'unica cosa che voglio è riuscire a capire quale delle 9 variabili sta realmente guidando la variazione nella Score
variabile. Preferibilmente, questo sarebbe un metodo che tiene conto del forte potenziale di collinearità in queste 9 variabili.
Score
variabile", che è la frase su cui potrei essermi troppo concentrato. In presenza di una forte collinearità, il lazo non aiuterà a ciò, almeno nelle interpretazioni più rigorose dell'osservazione del PO.