Pensavo di aver capito questo problema, ma ora non sono così sicuro e vorrei verificare con gli altri prima di procedere.
Ho due variabili X
e Y
. Y
è un rapporto e non è limitato da 0 e 1 ed è generalmente distribuito normalmente. X
è una proporzione ed è delimitata da 0 e 1 (va da 0,0 a 0,6). Quando eseguo una regressione lineare di Y ~ X
e lo scopro X
e Y
sono significativamente linearmente correlati. Fin qui tutto bene.
Ma poi indago oltre e comincio a pensare che forse X
e Y
's rapporto potrebbe essere più curvilineo che lineare. A me, sembra che il rapporto tra X
e Y
potrebbe essere più vicino a Y ~ log(X)
, Y ~ sqrt(X)
o Y ~ X + X^2
, o qualcosa del genere. Ho ragioni empiriche per ritenere che la relazione possa essere curvilinea, ma non ragioni per ritenere che una relazione non lineare potrebbe essere migliore di qualsiasi altra.
Ho un paio di domande correlate da qui. Innanzitutto, la mia X
variabile accetta quattro valori: 0, 0,2, 0,4 e 0,6. Quando registro o trasformo la radice quadrata di questi dati, la spaziatura tra questi valori si distorce in modo che i valori 0 siano molto più lontani da tutti gli altri. Per mancanza di un modo migliore di chiedere, è questo quello che voglio? Suppongo di no, perché ottengo risultati molto diversi a seconda del livello di distorsione che accetto. Se questo non è quello che voglio, come dovrei evitarlo?
In secondo luogo, per trasformare questi dati in log, devo aggiungere una quantità a ciascun X
valore perché non puoi prendere il log di 0. Quando aggiungo una quantità molto piccola, diciamo 0.001, ottengo una distorsione molto sostanziale. Quando aggiungo una quantità maggiore, diciamo 1, ottengo una distorsione molto piccola. C'è un importo "corretto" da aggiungere a una X
variabile? Oppure è inappropriato aggiungere qualcosa a una X
variabile anziché scegliere una trasformazione alternativa (ad esempio radice cubica) o un modello (ad esempio regressione logistica)?
Quel poco che sono stato in grado di scoprire lì su questo problema mi fa sentire come se dovessi camminare con attenzione. Per gli altri utenti R, questo codice creerebbe alcuni dati con una sorta di struttura simile alla mia.
X = rep(c(0, 0.2,0.4,0.6), each = 20)
Y1 = runif(20, 6, 10)
Y2 = runif(20, 6, 9.5)
Y3 = runif(20, 6, 9)
Y4 = runif(20, 6, 8.5)
Y = c(Y4, Y3, Y2, Y1)
plot(Y~X)