Interpretazione del predittore e / o della risposta trasformati in tronchi


46

Mi chiedo se fa differenza nell'interpretazione se solo le variabili dipendenti, dipendenti e indipendenti, o solo le variabili indipendenti, vengono trasformate in log.

Considera il caso di

log(DV) = Intercept + B1*IV + Error 

Posso interpretare il IV come l'aumento percentuale, ma come cambia quando lo faccio

log(DV) = Intercept + B1*log(IV) + Error

o quando ho

DV = Intercept + B1*log(IV) + Error

?


1
Ho la sensazione che l'interpretazione dell '"aumento percentuale" non sia corretta, ma non ho abbastanza conoscenza per dire esattamente il perché. Spero che qualcuno possa aiutare .... Oltre a ciò, consiglierei di modellare usando i log se aiutano a stabilire meglio una relazione XY, ma riportando esempi selezionati di quella relazione usando le variabili originali. Soprattutto se si tratta di un pubblico che non è tecnicamente esperto.
rolando2,

3
@ rolando2: non sono d'accordo. Se un modello valido richiede trasformazione, un'interpretazione valida si baserà generalmente sui coefficienti del modello trasformato. È compito dello sperimentatore comunicare in modo appropriato il significato di tali coefficienti al pubblico. Questo è, ovviamente, il motivo per cui veniamo pagati così tanto che gli stipendi devono essere prima trasformati in tronchi.
jthetzel,

1
@BigBucks: beh, guarda in questo modo. Supponiamo che il tuo pubblico non riesca a capire cosa intendi quando spieghi che per ogni cambiamento di 1 nel registro (base 10) di X, Y cambierà di b. Ma supponiamo che possano comprendere 3 esempi usando i valori X di 10, 100 e 1000. A quel punto probabilmente afferreranno la natura non lineare della relazione. Potresti comunque riportare la b complessiva, basata su log, ma dare quegli esempi potrebbe fare la differenza.
rolando2,

1
.... Anche se ora ho letto la tua grande spiegazione di seguito, forse usare quei "modelli" potrebbe aiutare molti di noi a chiarire questo tipo di problemi nella comprensione.
rolando2,

Risposte:


43

Charlie fornisce una spiegazione piacevole e corretta. Il sito di calcolo statistico presso l'UCLA ha alcuni ulteriori esempi: http://www.ats.ucla.edu/stat/sas/faq/sas_interpret_log.htm e http://www.ats.ucla.edu/stat/mult_pkg/ faq / general / log_transformed_regression.htm

Solo per integrare la risposta di Charlie, di seguito sono riportate interpretazioni specifiche dei tuoi esempi. Come sempre, le interpretazioni dei coefficienti presuppongono che tu possa difendere il tuo modello, che la diagnostica di regressione sia soddisfacente e che i dati provengano da uno studio valido.

Esempio A : nessuna trasformazione

DV = Intercept + B1 * IV + Error 

"Un aumento di unità in IV è associato a un ( B1) aumento di unità in DV."

Esempio B : risultato trasformato

log(DV) = Intercept + B1 * IV + Error 

"Un aumento di unità in IV è associato ad un ( B1 * 100) percento in aumento di DV."

Esempio C : esposizione trasformata

DV = Intercept + B1 * log(IV) + Error 

"L'aumento dell'1% di IV è associato a un B1 / 100aumento ( ) di unità in DV."

Esempio D : risultato trasformato e esposizione trasformata

log(DV) = Intercept + B1 * log(IV) + Error 

"L'aumento dell'1 percento di IV è associato ad un ( B1) percento di aumento di DV."


1
Queste interpretazioni sono valide indipendentemente dalla base del logaritmo?
Ayalew A.

Esempio B: Registro trasformato risultato (DV) = Intercetta + B1 * IV + Errore "Un aumento di unità in IV è associato a un aumento (B1 * 100) percentuale in DV In questo caso, come si fa se si desidera 30 Riduzione DV? Grazie per la risposta
Antouria,

Quindi un registro DV ~ B1 * (IV) è un buon modello per la variabile dipendente continua a limite zero?
Bakaburg,

3
Potrei essere confuso. Se si trasforma il risultato in modo logaritmico, è necessario riesponere il coefficiente per trovare la differenza moltiplicativa. L'interpretazione sulla scala del log funziona solo come approssimazione quando il rapporto è molto vicino a 1.
AdamO

I collegamenti sono interrotti.
Nick Cox,

22

Nel modello log-log, vedi che Ricorda che log(y)

β1=log(y)log(x).
log(y)y=1y
log(y)=yy.
yx

β1yx

Seguendo la stessa logica, per il modello log di livello, abbiamo

β1=ylog(x)=100y100×log(x).
β1/100yx

log(y)=yy?

1
log(y)yyyy1y0yyy

7

Lo scopo principale della regressione lineare è stimare una differenza media dei risultati confrontando i livelli adiacenti di un regressore. Esistono molti tipi di mezzi. Conosciamo meglio la media aritmetica.

AM(X)=(X1+X2++Xn)n

L'AM è ciò che viene stimato usando OLS e variabili non trasformate. La media geometrica è diversa:

GM(X)=(X1×X2××Xn)n=exp(AM(log(X))

inserisci qui la descrizione dell'immagine

Praticamente una differenza GM è una differenza moltiplicativa: paghi l'X% di un premio in interessi quando assumi un prestito, i livelli di emoglobina diminuiscono dell'X% dopo l'avvio della metformina, il tasso di fallimento delle molle aumenta dell'X% come frazione della larghezza. In tutti questi casi, una differenza media grezza ha meno senso.

log(y) ~ xβ1Xeβ1

eβ1=0.40

log(x)1xXexp(0.05)1.05Xexp(0.5)=1.65YX

y ~ log(x, base=2)xXβ1

Infine, log(y) ~ log(x)applica semplicemente entrambe le definizioni per ottenere una differenza moltiplicativa confrontando i gruppi che si differenziano moltiplicativamente nei livelli di esposizione.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.