Qual è il significato intuitivo di avere una relazione lineare tra i registri di due variabili?


20

Ho due variabili che non mostrano molta correlazione quando vengono tracciate una contro l'altra così com'è, ma una relazione lineare molto chiara quando tracciamo i log di ciascuna variabile di nuovo rispetto all'altra.

Quindi finirei con un modello del tipo:

log(Y)=alog(X)+b
, che è ottimo matematicamente ma non sembra avere il valore esplicativo di un modello lineare regolare.

Come posso interpretare un modello del genere?


5
Non ho nulla di sostanziale da aggiungere alle risposte esistenti, ma un logaritmo nel risultato e il predittore è un'elasticità. Le ricerche per quel termine dovrebbero trovare delle buone risorse per interpretare quella relazione, il che non è molto intuitivo.
Upper_Case-Stop fa del male a Monica il

L'interpretazione di un modello log-log, in cui la variabile dipendente è log (y) e la variabile indipendente è log (x), è: . %Δ=β1%Δx
Bob

3
Il collegamento log-log complementare è una specifica GLM ideale quando il risultato è binario (modello di rischio) e l'esposizione è cumulativa, come il numero di partner sessuali rispetto all'infezione da HIV. jstor.org/stable/2532454
AdamO

2
@Alexis puoi vedere i punti appiccicosi se sovrapponi le curve. Prova curve(exp(-exp(x)), from=-5, to=5)vs curve(plogis(x), from=-5, to=5). La concavità accelera. Se il rischio di evento derivante da un singolo incontro era p , il rischio dopo il secondo evento dovrebbe essere 1(1p)2 e così via, questa è una forma probabilistica che il logit non acquisirà. Alte esposizioni elevate altererebbero i risultati della regressione logistica in modo più drammatico (falsamente secondo la precedente regola della probabilità). Alcune simulazioni ti mostrerebbero questo.
AdamO

1
@AdamO Probabilmente c'è un articolo pedagogico da scrivere che incorpora una tale simulazione che motiva come scegliere un particolare collegamento esito dicotomico tra i tre, comprese le situazioni in cui lo fa e non fa differenza.
Alexis,

Risposte:


27

Devi solo prendere esponenziale di entrambi i lati dell'equazione e otterrai una relazione potenziale, che potrebbe avere senso per alcuni dati.

log(Y)=alog(X)+b

exp(log(Y))=exp(alog(X)+b)

Y=ebXa

E poiché è solo un parametro che può assumere qualsiasi valore positivo, questo modello è equivalente a:eb

Y=cXa

Va notato che l'espressione del modello dovrebbe includere il termine di errore e questi cambiamenti di variabili hanno effetti interessanti su di esso:

log(Y)=alog(X)+b+ϵ

Y=ebXaexp(ϵ)

Cioè, il tuo modello con errori additivi che si conformano alle condizioni per OLS (errori normalmente distribuiti con varianza costante) è equivalente a un modello potenziale con errori moltiplicativi il cui logaritmo segue una distribuzione normale con varianza costante.


3
OP potrebbe essere interessato a sapere che questa distribuzione ha un nome, il log-normal: en.wikipedia.org/wiki/Log-normal_distribution
gardenhead

2
Che dire dell'effetto della disuguaglianza di Jensen? Generalmente per convesso g,E[g(X)]g(E[X])
Statistiche

14

Puoi prendere il tuo modello e calcolare il differenziale totale, con qualcosa del tipo: che cede a log(Y)=alog(X)+b

1YdY=a1XdX
dYdXXY=a

Quindi una semplice interpretazione del coefficiente sarà la variazione percentuale per una variazione percentuale . Ciò implica inoltre che la variabile crescite ad una costante frazione ( ) del tasso di crescita di .aYXYaX


Quindi se il diagramma log-log è lineare, ciò implicherebbe un tasso di crescita costante?
Dimitriy V. Masterov il

In realtà, il tasso di crescita di sarà costante se e solo se . Ya=0
RScrlli,

Non nel tempo, il tasso di crescita rispetto alla crescita in x.
Dimitriy V. Masterov il

il riordino non aiuta, lo rimuoverei
Aksakal il

1
@ DimitriyV.Masterov Ok, quindi poiché il è lineare in indica che la variabile cresce ad una frazione costante del tasso di crescita di . C'è qualcosa che non va nella mia risposta secondo te? log(Y)log(X)YX
RScrlli,

7

Intuitivamente ci fornisce l' ordine di grandezza di una variabile, quindi possiamo vedere la relazione come gli ordini di grandezza delle due variabili sono linearmente correlati. Ad esempio, l'aumento del predittore di un ordine di grandezza può essere associato ad un aumento di tre ordini di grandezza della risposta.log

Quando si stampa usando un diagramma log-log speriamo di vedere una relazione lineare. Utilizzando un esempio di questa domanda , possiamo verificare i presupposti del modello lineare:

log-log


3
+1 per una risposta intuitiva a un concetto non intuitivo. Tuttavia, l'immagine che hai incluso viola chiaramente la variazione costante dell'errore nel predittore.
Frans Rodenburg,

1
La risposta è giusta, ma l'attribuzione della paternità è sbagliata. L'immagine non dovrebbe essere attribuita a Google Immagini ma, almeno, alla pagina web in cui si trova, che può essere scoperto semplicemente facendo clic su Google images.
Pere

@Pere Purtroppo non riesco a trovare la fonte originale dell'immagine (almeno usando la ricerca inversa dell'immagine)
qwr

Sembra provenire originariamente da diagramss.us anche se quel sito è inattivo e la maggior parte delle sue pagine non si trovano nell'Archivio Web a parte la sua homepage
Henry

4

Concilia la risposta di @Rscrill con i dati discreti effettivi, considera

log(Yt)=alog(Xt)+b,log(Yt1)=alog(Xt1)+b

log(Yt)log(Yt1)=a[log(Xt)log(Xt1)]

Ma

log(Yt)log(Yt1)=log(YtYt1)log(Yt1+ΔYtYt1)=log(1+ΔYtYt1)

ΔYtYt1 è la variazione percentuale di tra periodi e , o il tasso di crescita , dire . Quando è inferiore a , abbiamo un'approssimazione accettabileYt1tYtgYt0.1

log(1+ΔYtYt1)ΔYtYt1=gYt

Quindi otteniamo

gYtagXt

che convalida negli studi empirici il trattamento teorico di @Rscrill.


1
Questo è probabilmente ciò che un matematico chiamerebbe intuitivo :)
Richard Hardy il

2

Una relazione lineare tra i registri equivale a una dipendenza dalla legge di potenza : In fisica tale comportamento significa che il sistema è libero da scala o invariante . Ad esempio, se è distanza o tempo, ciò significa che la dipendenza da non può essere caratterizzata da una lunghezza o scala temporale caratteristica (al contrario dei decadimenti esponenziali). Di conseguenza, un tale sistema presenta una dipendenza a lungo termine della su .

YXα
X X Y XXXYX

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.