Insidie ​​da evitare durante la trasformazione dei dati?


15

Ho raggiunto una forte relazione lineare tra la mia variabile X e dopo aver trasformato doppiamente la risposta. Il modello era ma l'ho trasformato in migliorando da .19 a .76.YYXYXXR2

Chiaramente ho fatto un discreto intervento chirurgico su questa relazione. Qualcuno può discutere le insidie ​​di farlo, come i pericoli di trasformazioni eccessive o possibili violazioni dei principi statistici?


1
Da quello che hai, dalla sola algebra sembra proprio . Puoi pubblicare i dati o mostrare un grafico? Ci sono ragioni scientifiche per aspettarsi quando ? YαX2Y=0X=0
Nick Cox,

1
@NickCox: Penso che sia una notazione non convenzionale per ; forse l'OP sta parlando di R piuttosto che di matematica (qualcosa da scoraggiare ovviamente). E Y = β 0 + β 1 XYXEY=β0+β1X
Scortchi - Ripristina Monica

@Scortchi Temo che tu abbia ragione. Vedere i dati sarebbe di aiuto in entrambi i casi.
Nick Cox,

In questo caso uno 0 X implicherebbe uno 0 Y poiché Y sta guidando i decessi e X è il KM totale guidato da tutti i conducenti.
Info5ek,

2
@AaronHall L'equazione non è necessariamente inutile, poiché (moltiplicando per X è Y=β0X+β1X+Xϵ , che potrebbe essere un modello potenzialmente plausibile in alcune situazioni ). Tuttavia R2 sulla forma dell'equazione fornita nella domanda non è molto utile, non è possibile confrontarlo con qualcosa adattato su una scala diversa. (Per inciso, se quello fosse il tuo
voto negativo

Risposte:


20

Non puoi davvero confrontare prima e dopo, perché la variabilità sottostante in è diversa. Quindi, letteralmente, non puoi trarre conforto dal cambiamento in . Questo non ti dice nulla di valore nel confrontare i due modelli.R2YR2

I due modelli sono diversi in diversi modi, quindi significano cose diverse: assumono cose molto diverse sulla forma della relazione e sulla variabilità del termine di errore (se considerato in termini di relazione tra e ). Quindi, se sei interessato a modellare (se stesso è significativo), produci un buon modello per quello. Se sei interessato a modellare (/ è significativo), produci un buon modello per quello. Se ha un significato, crea un buon modello per questo. Ma confronta tutti i modelli concorrenti su scale comparabili. su risposte diverse semplicemente non sono comparabili.YXYYYYY/XR2

Se stai solo provando relazioni diverse nella speranza di trovare una trasformazione con un alto - o qualsiasi altra misura di 'buona misura' - le proprietà di qualsiasi inferenza che potresti voler condurre saranno influenzate dall'esistenza di quel processo di ricerca.R2

Le stime tenderanno ad essere distorte da zero, gli errori standard saranno troppo piccoli, i valori p saranno troppo piccoli, gli intervalli di confidenza troppo stretti. I tuoi modelli sembreranno in media "troppo buoni" (nel senso che il loro comportamento fuori campione sarà deludente rispetto al comportamento all'interno del campione).

Per evitare questo tipo di overfitting, è necessario, se possibile, eseguire l'identificazione e la stima del modello su diversi sottoinsiemi di dati (e la valutazione del modello su un terzo). Se ripeti questo tipo di procedura su molte "divisioni" dei dati presi a caso, hai una migliore idea di quanto siano riproducibili i tuoi risultati.

Ci sono molti post qui con punti rilevanti su questi temi: potrebbe valere la pena provare alcune ricerche.

(Se hai buone ragioni a priori per scegliere una particolare trasformazione, questo è un problema diverso. Ma cercare nello spazio delle trasformazioni per trovare qualcosa che si adatta porta con sé ogni sorta di problemi di tipo "snooping dei dati".)


Grazie per la risposta Glen. Il motivo per cui ho fatto questa trasformazione è perché è l'unico che non mi ha dato residui distorti. Ho provato lo standard y / x, log (y), sqrt (y) e varie combinazioni di questi. Tutto ha provocato una trama residua inclinata. Solo dopo aver effettuato una trasformazione in due fasi ho ottenuto dei residui casuali. Tuttavia affermi che questo modello è potenzialmente non informativo per i dati fuori campione in quanto potrei averlo appena adattato ai dati, giusto?
Info5ek,

Bene, sì, ma è un problema con qualsiasi forma di specifica del modello quando si guardano i dati, quindi succede molto. In molte situazioni è difficile evitare, ed è qui che può entrare la suddivisione del campione. (La convalida incrociata può essere uno strumento utile per tali situazioni.)
Glen_b -Reinstate Monica

Sarebbe utile conoscere le ragioni del downvote. Cosa c'è che non va nella risposta? Forse può essere migliorato. (Se non può essere migliorato, perché il downvote?)
Glen_b -Reinstate Monica

1
@Glen_b: Tricky per convalidare in modo incrociato una procedura mal definita però - in ogni piega dovresti ripetere il processo di esame della diagnostica, pensare a un'altra trasformazione quando non ti piacevano, provarla e così via.
Scortchi - Ripristina Monica

1
@Scortchi Sì, se le trasformazioni non vengono selezionate da un pool noto di candidati da una semplice regola, potrebbe essere impossibile.
Glen_b

16

C'è un problema più grande di quelli identificati da @Glen_b.

set.seed(123)
x <- rnorm(100, 20, 2)
y <- rnorm(100, 20, 2)
dv <- (y/x)^.5
iv <- x^.5
m1 <- lm(dv~iv)
summary(m1)

E ho un di 0,49 e un P-valore che è 5,5 × 10 - 16 .R25.5×1016

Hai su entrambi i lati dell'equazione.X


2
Non sono sicuro che sia un problema diverso dal non avere buone ragioni a priori per esprimere il modello in un modo piuttosto che in un altro. Se si lascia eZ=W=YX allora puoi anche dire che il primo modello (YX) haZ2su entrambi i lati dell'equazione. Z=XYXZ2
Scortchi - Ripristina Monica

4
Se & Z sono rumori casuali, regredire Y su X dà una relazione forte. Da dove deriva l'asimmetria che identifica una regressione spuria piuttosto che l'altra senza considerare il significato delle variabili? Questo genere di cose è stato discusso tra Pearson e Yule ( Aldrich (1995) ) e io sono con Yule: ciò che è falso non è la correlazione ma l'affermazione di una relazione causale basata su quella correlazione. WZYX
Scortchi - Ripristina Monica

1
Sì, ma qui la regressione è iniziata con X e Y. Non importa quali variabili sono, per così dire, le variabili?
Peter Flom - Ripristina Monica

2
Non riesco a capire perché dovrebbe, tranne nella misura in cui, come sottolineato da @Glen_b nella sua prima frase, se il tuo obiettivo era predire , allora un alto coefficiente di determinazione di un modello per W non è nulla di entusiasmante. E ovviamente se hai idee forti su come appare il termine di errore, un modello è più tracciabile dell'altro. YW
Scortchi - Ripristina Monica

4
Sollevi un buon punto su W & Z, @Scortchi, ma mi sembra che sia importante ciò che consideri le variabili che ti interessano e quali variabili hai creato solo per ottenere un modello migliore. Quali sono le variabili reali è determinato dal significato di X ecc., Nel contesto della domanda sostanziale. Ne deduco dal testo che l'OP vuole capire la relazione b / t X & Y e ho creato W & Z per migliorare l'adattamento del modello. Vale a dire, in questo caso concreto, mi sembra che Peter abbia ragione, non puoi provare a migliorare il tuo modello mettendo X su entrambi i lati.
gung - Ripristina Monica

4

Ci sono due elementi nell'esempio di @Peter, che potrebbe essere utile districare:

(1) Specifiche errate del modello. I modelli

yio=β0+β1Xio+εio(1)

&

wio=γ0+γ1zio+ζio(2)

, dove &zi=wio=yioXio , non possono essere entrambi veri. Se riesprimi ciascuno in termini di risposta dell'altro, questi diventano non lineari nei parametri, con errori eteroschedastici.zio=Xio

wio=β0zio2+β1+εiozio2(1)

yio=(γ0Xio+γ1Xio+ζioXio)2(2)

Se si presume che sia una variabile casuale gaussiana indipendente da X , questo è un caso speciale del modello 1 in cui β 1 = 0 , e non dovresti usare il modello 2. Ma allo stesso modo se W si presume che sia un gaussiano casuale variabile indipendente da Z , non dovresti usare il Modello 1. Qualsiasi preferenza per un modello piuttosto che per l'altro deve venire dalla teoria sostanziale o dalla loro adattabilità ai dati.YXβ1=0WZ

(2) Trasformazione della risposta. Se sapessi che & X sono variabili casuali gaussiane indipendenti, perché la relazione tra W & Z dovrebbe ancora sorprenderti o la chiameresti falsa? L'aspettativa condizionale di W può essere approssimata con il metodo delta:YXWZW

EYX=EYzβ0+VarY8β03/2z

È davvero una funzione di .z

Seguendo l'esempio ...

set.seed(123)
x <- rnorm(100, 20, 2)
y <- rnorm(100, 20, 2)
w <- (y/x)^.5
z <- x^.5
wrong.model <- lm(w~z)
right.model <- lm(y~x)
x.vals <- as.data.frame(seq(15,25,by=.1))
names(x.vals) <- "x"
z.vals <- as.data.frame(x.vals^.5)
names(z.vals) <- "z"
plot(x,y)
lines(x.vals$x, predict(right.model, newdata=x.vals), lty=3)
lines(x.vals$x, (predict(wrong.model, newdata=z.vals)*z.vals)^2, lty=2)
abline(h=20)
legend("topright",legend=c("data","y on x fits","w on z fits", "truth"), lty=c(NA,3,2,1), pch=c(1,NA,NA,NA))
plot(z,w)
lines(z.vals$z,sqrt(predict(right.model, newdata=x.vals))/as.matrix(z.vals), lty=3)
lines(z.vals$z,predict(wrong.model, newdata=z.vals), lty=2)
lines(z.vals$z,(sqrt(20) + 2/(8*20^(3/2)))/z.vals$z)
legend("topright",legend=c("data","y on x fits","w on z fits","truth"),lty=c(NA,3,2,1), pch=c(1,NA,NA,NA))

inserisci qui la descrizione dell'immagine

inserisci qui la descrizione dell'immagine

yXwzwzzw

Aldrich (2005), "Correlazioni autentiche e spurie in Pearson e Yule", Statistical Science , 10 , 4 fornisce una prospettiva storica interessante su questi temi.


Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.