Regressione con variabile indipendente inversa


10

Supponiamo che io abbia un -vettore di variabili dipendenti e un -vettore di variabile indipendente. Quando viene tracciato contro , vedo che esiste una relazione lineare (tendenza al rialzo) tra i due. Ora, anche questo significa che v'è una tendenza lineare ribasso tra e X .Y N X Y 1NYNXY YX1XYX

Ora, se eseguo la regressione: Y=β*X+ε e ottengo il valore adattato Y^=β^X

Quindi eseguo la regressione: Y=α*1X+ε e ottengo il valore adattato Y~=α^1X

I due valori previsti, Y^ e Y~ saranno approssimativamente uguali?

Risposte:


10

 Quando Y viene tracciato contro 1X , vedo che esiste una relazione lineare (tendenza al rialzo) tra i due. Ora, questo significa anche che esiste una tendenza al ribasso lineare tra Y e X

L'ultima frase è sbagliata: c'è una tendenza al ribasso, ma non è affatto lineare: Y ~ 1 / X Y ~ X

Ho usato un f(X)=1X come la funzione più un bit di rumore Y . Come puoi vedere, mentre tracciare Y su 1X produce un comportamento lineare, Y su X è tutt'altro che lineare.

(@whuber sottolinea che la trama contro non sembra omoscedastica. Penso che sembra avere una varianza più alta per bassa perché la densità del case molto più alta porta a un intervallo più ampio che è essenzialmente ciò che noi percepire. In realtà, i dati sono omoscedastici: ero solito generare i dati, quindi nessuna dipendenza dalla dimensione di )1Y YX1XYY = 1 / X + rnorm (length (X), sd = 0.1)X

Quindi in generale la relazione è molto non lineare. Cioè, a meno che il tuo intervallo di sia così stretto da poter approssimareEcco un esempio:d 1Xd1XdX=-1X2conSt.

Y ~ 1 / X Y ~ X

Linea di fondo:

  • In generale, è molto difficile approssimare una funzione di tipo con una funzione lineare o polinomiale. E senza termine di compensazione non otterrai mai un'approssimazione ragionevole.1X
  • Se l' intervallo è abbastanza stretto da consentire un'approssimazione lineare, dai dati non sarà comunque possibile indovinare che la relazione dovrebbe essere e non lineare ( ).1X X1XX

Si inizia con un'ipotesi non valida: l'OP non ha mai affermato che e sono linearmente correlati. L'unica affermazione era che e sembrano essere linearmente correlati (con una pendenza negativa). Ciò, ovviamente, indica che e sono correlati in modo non lineare . Penso che questa sia una deviazione così grave da ciò che la domanda pone che il resto del tuo post potrebbe solo fuorviare ulteriormente i lettori. YXY1/XYX
whuber

2
@whuber: mi dispiace molto, ma sembra essere abbastanza denso in questo momento. La domanda dice: "Quando Y viene tracciato rispetto a 1 / X, vedo che esiste una relazione lineare (tendenza al rialzo)". Questo è quello che ho cercato di rappresentare nella prima e terza immagine: Y su 1 / X in aumento lineare. Ho quindi tracciato la Y corrispondente su X (non lineare, decrescente). Dove posso fraintendere il PO?
cbeleites insoddisfatto di SX il

1
Non essere dispiaciuto, ho semplicemente letto male il tuo post (trasponendo le etichette degli assi X nella prima immagine)! La colpa è tutta mia. Pertanto sto votando la tua risposta, che è corretta e istruttiva. Se hai la possibilità, tuttavia, potresti voler commentare l'effetto di questa trasformazione sull'omoscedasticità (o la sua mancanza) dei residui (che possono essere rilevati nel tuo diagramma vs 1 / X ). Y1/X
whuber

Grazie per le osservazioni sull'omoscedasticità. Trasformando la variabile indipendente non si modifica l'omoscedasticità della risposta, ma il suo aspetto certamente può cambiare, come si fa notare, che è utile sapere. (Abbiamo visto questo fenomeno in molti altri posti, dove le persone mis-attributo heteroscedasticity a semplici differenze nelle popolazioni di gruppo, per esempio.)
whuber

Risposta e commenti molto approfonditi! Grazie @cbeleites e @whuber!
Mayou,

2

Non vedo alcun motivo per cui siano "approssimativamente uguali" in generale - ma cosa intendi esattamente con approssimativamente uguale?

Ecco un esempio di giocattolo:

library(ggplot2)
n <- 10^3
df <- data.frame(x=runif(n, min=1, max=2))
df$y <- 5 / df$x + rnorm(n)
p <- (ggplot(df, aes(x=x, y=y)) +
      geom_point() +
      geom_smooth(method="lm", formula=y ~ 0 + x) +  # Blue, OP's y hat
      geom_smooth(method="lm", formula=y ~ 0 + I(x^-1), color="red"))  # Red, OP's y tilde
p

La foto:

Direi che sono tutt'altro che "approssimativamente uguali"

Il modello "blu" farebbe molto meglio se gli fosse permesso di avere un termine di intercettazione (cioè costante) ...


È difficile dire cosa stai facendo con il modello blu, ma certamente non è niente di simile a ciò che descrive l'OP! Quello rosso è molto più vicino alla situazione presentata nella domanda.
whuber

Y1/XYXY1/X
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.