Come interpretare i coefficienti trasformati logaritmicamente nella regressione lineare?


10

La mia situazione è:

Ho 1 variabile continua dipendente e 1 variabile predittore continua che ho trasformato logaritmicamente per normalizzare i loro residui per una semplice regressione lineare.

Gradirei qualsiasi aiuto su come posso collegare queste variabili trasformate al loro contesto originale.

Voglio utilizzare una regressione lineare per prevedere il numero di giorni in cui gli alunni hanno perso la scuola nel 2011 in base al numero di giorni persi nel 2010. La maggior parte degli alunni perde 0 giorni o solo pochi giorni i dati sono distorti positivamente a sinistra. Pertanto, è necessaria una trasformazione per utilizzare la regressione lineare.

Ho usato log10 (var + 1) per entrambe le variabili (ho usato +1 per gli alunni che avevano perso la scuola per 0 giorni). Sto usando la regressione perché voglio aggiungere fattori categorici - genere / etnia ecc.

Il mio problema è:

Il pubblico a cui voglio rispondere non capirà log10 (y) = log (costante) + log (var2) x (e francamente nemmeno io).

Le mie domande sono:

a) Esistono modi migliori per interpretare le variabili trasformate in regressione? Vale a dire per sempre 1 giorno perso nel 2010, mancheranno 2 giorni nel 2011, invece di 1 cambio unità di registro nel 2010 ci sarà un cambio di x unità di registro nel 2011?

b) In particolare, dato il passaggio citato da questa fonte come segue:

"Questa è la stima della regressione binomiale negativa per un aumento di una unità nel punteggio del test matematico standardizzato, date le altre variabili mantenute costanti nel modello. Se uno studente dovesse aumentare il suo punteggio del test matematico di un punto, la differenza nei registri di i conteggi previsti dovrebbero diminuire di 0,0016 unità, mantenendo le altre variabili nella costante del modello ".

Mi piacerebbe sapere:

  • Questo passaggio sta dicendo che per ogni aumento di unità del punteggio della UNTRANSFORMEDmatematica variabile si ottiene una diminuzione di 0,0016 dalla costante (a), quindi se il UNTRANSFORMEDpunteggio di matematica aumenta di due punti, sottraggo 0,0016 * 2 dalla costante a?
  • Vuol dire che ottengo la media geometrica usando esponenziale (a)) ed esponenziale (a + beta * 2) e che devo calcolare la differenza percentuale tra questi due per dire quale effetto hanno le variabili predittive / avere sulla variabile dipendente?
  • O ho sbagliato totalmente?

Sto usando SPSS v20. Ci scusiamo per averlo inquadrato in una lunga domanda.



8
Hai mai pensato di usare la regressione di Poisson? È naturalmente indicato con dati di conteggio dipendenti e il tuo successo con una trasformazione del registro è coerente con le distribuzioni di Poisson. I coefficienti sarebbero interpretati in termini di aumenti proporzionali della probabilità attesa di perdere un giorno di scuola. Un vantaggio è che non è necessario alcun trattamento speciale degli zeri (anche se è comunque una buona idea guardare un modello alternativo a zero inflazione).
whuber

Ciao Whuber, Sì, stavo pensando alla regressione di Poisson ma non ero sicuro di questo o optando per la regressione binomiale negativa. Immagino che il binomio negativo sia dato che i dati sono troppo dispersi, cioè la media è inferiore alla varianza nel set di dati (quindi inclinazione positiva). Inoltre, rigorosamente, esiste un limite massimo al numero di sessioni scolastiche nell'anno, mentre Poisson assume un denominatore illimitato? O pensi ancora che Poisson sia più appropriato? Sfortunatamente SPSS non supporta i modelli zero gonfiati per quanto ho visto ...) Grazie Whuber :)
JimBob

3
Non vedo un problema con il supporto illimitato delle distribuzioni di Poisson: è simile all'uso delle distribuzioni normali per modellare, diciamo, valori che devono essere non negativi. A condizione che le possibilità associate a valori impossibili siano minime, può essere comunque un buon modello. Il binomio negativo è l'alternativa standard a Poisson utilizzata per testare la bontà di adattamento e sovraispersione; è una buona idea. Se SPSS è troppo limitato, usa qualcos'altro! ( Rha pacchetti per modelli a gonfiaggio zero; cerca in questo sito .)
whuber

2
Sono d'accordo con @whuber Penso che probabilmente desideri un modello ZIP o ZINB. Aggiungo solo che sono disponibili anche in SAS tramite PROC COUNTREG (in ETS) e, a partire da SAS 9.2, in PROC GENMOD (in STAT)
Peter Flom

2
Ci sono ottime informazioni su stats.stackexchange.com/questions/18480/… .
rolando2,

Risposte:


7

Penso che il punto più importante sia suggerito nel commento di @buber. Il tuo intero approccio è errato perché, prendendo i logaritmi, stai effettivamente gettando fuori dal set di dati tutti gli studenti con zero giorni mancanti nel 2010 o 2011. Sembra che ci siano abbastanza di queste persone per essere un problema, e sono sicuro che i tuoi risultati lo faranno sii sbagliato in base all'approccio che stai adottando.

Invece, devi adattare un modello lineare generalizzato con una risposta di poisson. SPSS non può farlo a meno che tu non abbia pagato per il modulo appropriato, quindi suggerirei l'aggiornamento a R.

Avrai ancora il problema di interpretare i coefficienti, ma questo è secondario all'importanza di avere un modello che è fondamentalmente appropriato.


Perché non usare la trasformazione ? Ciò risolverebbe il problema che sollevi. Tuttavia, la trasformazione inversa sarebbe leggermente più coinvolta e l'interpretazione sarebbe più difficile. C'è un post a riguardo qui: stats.stackexchange.com/questions/18694/…xlog(x+1)
toypajme,

3

Concordo con gli altri intervistati, in particolare per quanto riguarda la forma del modello. Se ho ben capito la motivazione della sua domanda, tuttavia, si sta affrontando il pubblico generale e vuole trasmettere la sostanziale(teorico) significato della tua analisi. A tale scopo, confronto i valori previsti (ad es. Giorni stimati mancati) in vari "scenari". In base al modello scelto, è possibile confrontare il numero o il valore previsto della variabile dipendente quando i predittori si trovano su determinati valori fissi (i loro valori medi o zero, ad esempio) e quindi mostrare come un cambiamento "significativo" dei predittori influenza le previsioni. Ovviamente, devi ripristinare i dati nella scala originale e comprensibile con cui inizi. Dico "cambiamento significativo" perché spesso il "cambiamento di una unità in X" standard non trasmette la reale importazione o la mancanza di una variabile indipendente. Con i "dati sulle presenze", non sono sicuro di quale simile cambiamento sarebbe. (Se uno studente non ha perso giorni nel 2010 e un giorno nel 2011, Non sono sicuro che impareremmo nulla. Ma non lo so.)


2

Se abbiamo il modello , allora potremmo aspettarci che un aumento di 1 unità di produca un aumento di unità ab in Y. Invece, se abbiamo , allora prevediamo un aumento dell'1% in per ottenere un aumento dell'unità di in Y.X Y = b log ( X ) X b log ( 1.01 )Y=bXXY=blog(X)Xblog(1.01)

Modifica: whoops, non ho capito che anche la tua variabile dipendente è stata trasformata in log. Ecco un link con un buon esempio che descrive tutte e tre le situazioni:

1) viene trasformato solo Y 2) vengono trasformati solo i predittori 3) vengono trasformati sia Y che i predittori

http://www.ats.ucla.edu/stat/mult_pkg/faq/general/log_transformed_regression.htm


1
Ciao JC, grazie per la tua risposta. Ho adottato l'approccio di trasformare le mie variabili dipendenti e indipendenti per coerenza, ma ho letto che è solo il DV che ha davvero bisogno di trasformarsi per la normalità rispetto ai suoi IV.
JimBob,

In realtà ho visto il link che hai suggerito (grazie comunque) ma non ero chiaro su un paio di punti, in particolare per quanto riguarda il confronto della media geometrica con la "vita reale", ma immagino che l'uso della media geometrica abbia più a che fare con la modellazione l'effetto del cambiamento in x su y piuttosto che il risultato di y per unità cambia in x? Penso di dover tornare indietro e dargli una seconda lettura ...
JimBob,

2

Uso spesso la trasformazione del log, ma tendo a usare le covariate binarie perché porta a un'interpretazione naturale in termini di moltiplicatori. Supponiamo di voler prevedere dato, diciamo 3 covariate binarie , e assumono valori in . Ora, invece di presentare:X 1 X 2 X 3 { 0 , 1 }YX1X2X3{0,1}

log(Y)log(C)+X1W1+X2W2 ,

puoi semplicemente mostrare:

YC M1X1 M2X2 M3X3 ,

dove: , e sono moltiplicatori. Vale a dire, ogni volta che la covariata uguale a 1, la previsione viene moltiplicata per . Ad esempio, se , e , la previsione è:M1=eW1M2=eW2M3=eW3XiMiX1=0X2=1X3=1

YC M2 M3 .

Sto usando perché questa non è esattamente la previsione della media di : il parametro medio di una distribuzione log-normale non è in generale la media della variabile casuale (come nel caso della regressione lineare classica senza il log-Transform). Non ho riferimenti precisi qui, ma penso che questo sia un ragionamento semplice.Y


3
Non devi preoccuparti dei problemi lognormali: i moltiplicatori sono corretti indipendentemente. (Ci sarebbe un problema con i modelli eteroscedastici.) Questo perché dove è la varianza di . A proposito, per favore scansiona le tue definizioni di per errori di battitura. E[Y]=Ceσ2/2e(X1W1+X2W2+X3W3)σ2log(Y)Mi
whuber
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.