Qual è il modo più appropriato per trasformare le proporzioni quando sono una variabile indipendente?


12

Pensavo di aver capito questo problema, ma ora non sono così sicuro e vorrei verificare con gli altri prima di procedere.

Ho due variabili Xe Y. Yè un rapporto e non è limitato da 0 e 1 ed è generalmente distribuito normalmente. Xè una proporzione ed è delimitata da 0 e 1 (va da 0,0 a 0,6). Quando eseguo una regressione lineare di Y ~ Xe lo scopro Xe Ysono significativamente linearmente correlati. Fin qui tutto bene.

Ma poi indago oltre e comincio a pensare che forse Xe Y's rapporto potrebbe essere più curvilineo che lineare. A me, sembra che il rapporto tra Xe Ypotrebbe essere più vicino a Y ~ log(X), Y ~ sqrt(X)o Y ~ X + X^2, o qualcosa del genere. Ho ragioni empiriche per ritenere che la relazione possa essere curvilinea, ma non ragioni per ritenere che una relazione non lineare potrebbe essere migliore di qualsiasi altra.

Ho un paio di domande correlate da qui. Innanzitutto, la mia Xvariabile accetta quattro valori: 0, 0,2, 0,4 e 0,6. Quando registro o trasformo la radice quadrata di questi dati, la spaziatura tra questi valori si distorce in modo che i valori 0 siano molto più lontani da tutti gli altri. Per mancanza di un modo migliore di chiedere, è questo quello che voglio? Suppongo di no, perché ottengo risultati molto diversi a seconda del livello di distorsione che accetto. Se questo non è quello che voglio, come dovrei evitarlo?

In secondo luogo, per trasformare questi dati in log, devo aggiungere una quantità a ciascun Xvalore perché non puoi prendere il log di 0. Quando aggiungo una quantità molto piccola, diciamo 0.001, ottengo una distorsione molto sostanziale. Quando aggiungo una quantità maggiore, diciamo 1, ottengo una distorsione molto piccola. C'è un importo "corretto" da aggiungere a una Xvariabile? Oppure è inappropriato aggiungere qualcosa a una Xvariabile anziché scegliere una trasformazione alternativa (ad esempio radice cubica) o un modello (ad esempio regressione logistica)?

Quel poco che sono stato in grado di scoprire lì su questo problema mi fa sentire come se dovessi camminare con attenzione. Per gli altri utenti R, questo codice creerebbe alcuni dati con una sorta di struttura simile alla mia.

X = rep(c(0, 0.2,0.4,0.6), each = 20)
Y1 = runif(20, 6, 10)
Y2 = runif(20, 6, 9.5)
Y3 = runif(20, 6, 9)
Y4 = runif(20, 6, 8.5)
Y = c(Y4, Y3, Y2, Y1)
plot(Y~X)

Dici che Y è una proporzione, ma nei tuoi dati è tra 6 e 10?

Sì, l'ho risolto sopra - è un rapporto, non una proporzione.
Bajcz,

Risposte:


13

La domanda principale sulla trasformazione delle proporzioni (userò come simbolo, in modo simile ma non identico alla tua notazione) consente alcuni commenti generali.x

In ciò che segue ritengo che il motivo principale per trasformare le proporzioni che sono covariate (predittori, variabili indipendenti) sia di migliorare l'approssimazione alla linearità della relazione, o se in modalità esplorativa per avere un'idea più chiara graficamente della forma o dell'esistenza di qualsiasi relazione. Come al solito, se una covariata sia (ad esempio) distribuita approssimativamente normalmente non è fondamentale in quanto tale. (Le proporzioni sono un parente non troppo distante delle variabili dell'indicatore con valori che non possono mai essere distribuiti normalmente e anche le proporzioni sono necessariamente limitate.)0,1

Se le proporzioni possono raggiungere zeri esatti o esatti, è essenziale definire una trasformazione per quei limiti, che esclude chiaramente , poiché il log 0 è indeterminato. Oltre a ciò, una forma particolare richiede idealmente una giustificazione sostanziale (scientifica, pratica), ma manca che da una semplice analisi derivi che log ( x + c ) sia altamente sensibile al valore di c , come suggerisci. logxlog0log(x+c)c

10c=10klog10(x+10k)x=0k

k=0,c=1x=00x=10.301k=3,c=0.001x=03x=10

k=6,9,0x=10

c0

log(x+c)logxcxxlogxxx0

x=0x=1

xpx=0,10

xp(1x)pp=1/2p=1/3

logit x=logxlog(1x)p0x=0,1p0

01

  • 0.010.02x0.01

  • 0.980.99x0.011x

  • 0.500.51x0.01

01

x=0,1

log(x+0.001)

I due punti principali che desidero sottolineare sono quelli

  1. log(x+c)x

  2. Per i tuoi dati di esempio, nessuna trasformazione che ho provato sembra aiutare.

Allo stesso tempo, altre possibilità sono tutt'altro che esaurite. (In particolare, non ho provato la radice quadrata o la radice cubica e ho sottolineato che in molti altri problemi quelli potrebbero essere candidati ovvi e seri.)

01

inserisci qui la descrizione dell'immagine

R2=3.7=0.994

inserisci qui la descrizione dell'immagine

y610

EDIT: i dati originali potrebbero essere tracciati qui perché l'OP ha pubblicato brevemente i dati, ma in seguito li ha rimossi.

Altri thread qui che usano poteri piegati includono

Trasformazione dei dati proporzionali: quando arcsin radice quadrata non è sufficiente

Regressione: grafico a dispersione con basso R al quadrato e alti valori p

Tracciare un set di dati altamente distorto


Risposta eccellente e molto approfondita. Penso che dovrei dire che il mio Yè un rapporto piuttosto che una proporzione, che è probabilmente una differenza abbastanza sostanziale, quindi è stato bello da parte tua sottolineare.
Bajcz,

Le proporzioni sono limitate come le definisco io. Grazie per il chiarimento, che non fa alcuna differenza per la mia analisi (motivo per cui l'ho etichettato come un piccolo dettaglio).
Nick Cox,

2
Ulteriori commenti: in linea di principio, è possibile verificare la presenza di curvature ecc. Utilizzando spline o leviganti, ma con solo 4 livelli distinti del predittore non è facile. Considererei la regressione quantile per i tuoi dati.
Nick Cox,

x2x310x=0,1
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.