Nella regressione lineare, quando è appropriato utilizzare il registro di una variabile indipendente anziché i valori effettivi?


164

Sto cercando una distribuzione meglio condotta per la variabile indipendente in questione, o per ridurre l'effetto di valori anomali o qualcos'altro?


1
Stai chiedendo come ridurre l'effetto dei valori anomali o quando utilizzare il registro di alcune variabili?
Benjamin Bannier,

23
Penso che l'OP stia dicendo "Ho sentito parlare di persone che usano il log on variabili di input: perché lo fanno?"
Shane,

Perché solo il registro? Questa domanda non dovrebbe applicarsi a nessuna tecnica di trasformazione dei dati che può essere utilizzata per ridurre al minimo i residui associati a mx + b?
AsymLabs

1
@AsymLabs - Il registro potrebbe essere speciale nella regressione, in quanto è l'unica funzione che converte un prodotto in una somma.
probabilityislogic

12
Un avvertimento per i lettori: la domanda si pone sulla trasformazione dei IV, ma alcune delle risposte sembrano parlare di motivi per trasformare i DV. Non essere indotto a pensare che quelle siano anche tutte ragioni per trasformare IVs - alcuni possono essere, altri certamente no. In particolare, la distribuzione del IV non è generalmente rilevante (anzi, neanche la distribuzione marginale del DV).
Glen_b

Risposte:


168

Esito sempre a saltare in un thread con tante risposte eccellenti come questa, ma mi sembra che poche delle risposte forniscano qualsiasi motivo per preferire il logaritmo ad altre trasformazioni che "schiacciano" i dati, come una radice o reciproco.

Prima di arrivare a questo, ricapitoliamo la saggezza nelle risposte esistenti in un modo più generale. Alcune re-espressioni non lineari della variabile dipendente sono indicate quando si applica una delle seguenti condizioni:

  • I residui hanno una distribuzione distorta. Lo scopo di una trasformazione è quello di ottenere residui distribuiti approssimativamente simmetricamente (circa zero, ovviamente).

  • La diffusione dei residui cambia sistematicamente con i valori della variabile dipendente ("eteroscedasticità"). Lo scopo della trasformazione è di rimuovere quel cambiamento sistematico nella diffusione, ottenendo una "omoscedasticità" approssimativa.

  • Per linearizzare una relazione.

  • Quando la teoria scientifica indica. Ad esempio, la chimica spesso suggerisce di esprimere le concentrazioni come logaritmi (dando attività o persino il noto pH).

  • Quando una teoria statistica più nebulosa suggerisce che i residui riflettano "errori casuali" che non si accumulano in modo additivo.

  • Per semplificare un modello. Ad esempio, a volte un logaritmo può semplificare il numero e la complessità dei termini di "interazione".

(Queste indicazioni possono essere in conflitto tra loro; in questi casi è necessario un giudizio.)

Quindi, quando viene specificamente indicato un logaritmo invece di qualche altra trasformazione?

  • I residui hanno una distribuzione "fortemente" positivamente distorta. Nel suo libro sull'EDA, John Tukey fornisce metodi quantitativi per stimare la trasformazione (all'interno della famiglia di Box-Cox, o potenza, trasformazioni) basata su statistiche di classificazione dei residui. Dipende davvero dal fatto che se prendere il tronco simula i residui, probabilmente era la giusta forma di reespressione; in caso contrario, è necessaria un'altra re-espressione.

  • Quando la DS dei residui è direttamente proporzionale ai valori montati (e non a una certa potenza dei valori montati).

  • Quando la relazione è vicina all'esponenziale.

  • Quando si ritiene che i residui riflettano errori che si accumulano in modo moltiplicativo.

  • Volete davvero un modello in cui i cambiamenti marginali nelle variabili esplicative siano interpretati in termini di cambiamenti moltiplicativi (percentuali) nella variabile dipendente.

Infine, alcuni non motivi per utilizzare una reespressione :

  • Rendere gli outlier non sembrano degli outlier. Un valore anomalo è un dato che non corrisponde a una descrizione parsimoniosa e relativamente semplice dei dati. Modificare la propria descrizione per far apparire meglio i valori anomali è di solito un'inversione errata delle priorità: ottenere prima una descrizione scientificamente valida e statisticamente buona dei dati, quindi esplorare eventuali valori anomali. Non lasciare che l'outlier occasionale determini come descrivere il resto dei dati!

  • Perché il software l'ha fatto automaticamente. (È stato detto abbastanza!)

  • Perché tutti i dati sono positivi. (La positività implica spesso asimmetria positiva, ma non è necessario. Inoltre, altre trasformazioni possono funzionare meglio. Ad esempio, una radice spesso funziona meglio con i dati conteggiati.)

  • Per rendere i dati "cattivi" (forse di bassa qualità) sembrano ben educati.

  • Per essere in grado di tracciare i dati. (Se è necessaria una trasformazione per essere in grado di tracciare i dati, probabilmente è necessaria per una o più buone ragioni già menzionate. Se l'unico motivo della trasformazione è veramente per la stampa, andare avanti e farlo - ma solo per tracciare il dati. Lasciare i dati non trasformati per l'analisi.)


1
Che dire delle variabili come la densità di popolazione in una regione o il rapporto bambino-insegnante per ogni distretto scolastico o il numero di omicidi per 1000 nella popolazione? Ho visto i professori prendere il registro di queste variabili. Non mi è chiaro il perché. Ad esempio, il tasso di omicidi non è già una percentuale? Il registro cambierebbe la percentuale della tariffa? Perché sarebbe preferito il registro del rapporto bambino insegnante? La trasformazione del log dovrebbe essere presa per ogni variabile continua quando non esiste una teoria di base su una vera forma funzionale?
user1690130,

1
@JG Piccoli rapporti tendono ad avere distribuzioni distorte; logaritmi e radici probabilmente li renderanno più simmetrici. Non capisco le tue domande relative alle percentuali: forse stai combinando diversi usi delle percentuali (uno per esprimere qualcosa come una proporzione di un intero e un altro per esprimere un cambiamento relativo)? Non credo di aver scritto nulla a sostegno del fatto che i logaritmi vengano sempre applicati - tutt'altro! Quindi non capisco le basi per la tua ultima domanda.
whuber

2
"Quando si ritiene che i residui riflettano errori che si accumulano in modo moltiplicativo". Ho problemi a interpretare questa frase. È possibile chiarire un po 'questo con un'altra frase o due? Qual è l'accumulo a cui ti riferisci?
Hatshepsut,

@ user1690130 per rapporti e densità, questi dovrebbero generalmente essere montati come una distribuzione della famiglia di poisson per conteggi con offset per l'esposizione. Ad esempio, il numero di persone è il conteggio e l'offset è l'area della regione. Vedi questa domanda per una buona spiegazione - stats.stackexchange.com/questions/11182/…
Michael Barton,

2
@Hatshepsut un semplice esempio di errori cumulativi cumulativi sarebbe il volume come variabile dipendente e gli errori nelle misurazioni di ciascuna dimensione lineare.
abalter

73

Dico sempre agli studenti che ci sono tre ragioni per trasformare una variabile prendendo il logaritmo naturale. Il motivo della registrazione della variabile determinerà se si desidera registrare le variabili indipendenti, dipendenti o entrambe. Per essere chiari, sto parlando del logaritmo naturale.

In primo luogo, per migliorare l'adattamento del modello, come hanno notato altri poster. Ad esempio, se i tuoi residui non sono normalmente distribuiti, prendere il logaritmo di una variabile inclinata può migliorare l'adattamento modificando la scala e rendendo la variabile più "normalmente" distribuita. Ad esempio, le entrate vengono troncate a zero e spesso presentano inclinazioni positive. Se la variabile ha un'inclinazione negativa, è possibile invertire la variabile prima di prendere il logaritmo. Sto pensando qui in particolare alle scale di Likert che vengono inserite come variabili continue. Mentre questo di solito si applica alla variabile dipendente, occasionalmente si verificano problemi con i residui (ad es. Eteroscedasticità) causati da una variabile indipendente che a volte possono essere corretti prendendo il logaritmo di quella variabile. Ad esempio, quando si esegue un modello che spiega le valutazioni del docente su un set di docenti e covariate di classe, la variabile "dimensione della classe" (ovvero il numero di studenti nella lezione) presentava valori anomali che inducevano l'eteroscedasticità perché la varianza nelle valutazioni del docente era minore in maggiore coorti che coorti più piccoli. La registrazione della variabile studente sarebbe utile, anche se in questo esempio il calcolo di errori standard robusti o l'utilizzo di minimi quadrati ponderati può facilitare l'interpretazione.

β β aumento del % in Y (in media). La registrazione di un solo lato dell '"equazione" di regressione porterebbe a interpretazioni alternative come indicato di seguito:

β aumento / diminuzione in Y

β aumento / diminuzione del % in Y

β100

β/100

E infine potrebbe esserci una ragione teorica per farlo. Ad esempio alcuni modelli che vorremmo stimare sono moltiplicativi e quindi non lineari. La presa dei logaritmi consente di stimare questi modelli mediante regressione lineare. Buoni esempi di ciò includono la funzione di produzione di Cobb-Douglas in economia e la Mincer Equation in materia di istruzione. La funzione di produzione Cobb-Douglas spiega come gli input vengono convertiti in output:

Y=ALαKβ

dove

Y

A

L

K

αβ

Prendendo i logaritmi di questo è facile stimare la funzione usando la regressione lineare OLS come tale:

log(Y)=log(A)+αlog(L)+βlog(K)

5
"Log Y e X - un aumento di una unità in X porterebbe ad un aumento / diminuzione del β ∗ 100% in Y": Penso che ciò si applichi solo quando β è piccolo in modo che exp (β) ≈ 1 + β
Ida

1
bello e chiaro grazie! Una domanda, come si interpretano le intercettazioni nel caso Log Y e X? e generalmente sono preoccupato su come segnalare le regressioni trasformate nel registro ...
Bakaburg,

2
Sono un fanatico delle risposte che contengono esempi di Economia ["Mi avevi alla ' Funzione di produzione di Cobb-Douglas '"] .... Una cosa, però: dovresti cambiare il termine di intercettazione nella seconda equazione da registrare (A ) per renderlo coerente con la prima equazione.
Steve S,

100×(eβ1)

21

Per ulteriori dettagli su ottimo punto di whuber merito motivi per preferire il logaritmo in alcune altre trasformazioni come una radice o reciproca, ma concentrandosi sul unico interpretabilità dei coefficienti di regressione derivanti dal log-trasformazione rispetto ad altre trasformazioni, vedi:

Oliver N. Keene. La trasformazione del registro è speciale. Statistics in Medicine 1995; 14 (8): 811-819. DOI: 10.1002 / sim.4780140810 . (PDF di dubbia legalità disponibile su http://rds.epi-ucsf.org/ticr/syllabus/courses/25/2009/04/21/Lecture/readings/log.pdf ).

Se si registra la variabile indipendente x su base b , è possibile interpretare il coefficiente di regressione (e CI) come la variazione della variabile dipendente y per b - aumento di piega di x . (I registri sulla base 2 sono quindi spesso utili in quanto corrispondono alla variazione in y per il raddoppio in x , oppure i registri sulla base 10 se x varia su molti ordini di grandezza, che è più raro). Altre trasformazioni, come la radice quadrata, non hanno un'interpretazione così semplice.

Se registri la variabile dipendente y (non la domanda originale ma una a cui sono state affrontate molte delle risposte precedenti), allora trovo l'idea di Tim Cole di "sympercents" attraente per presentare i risultati (li ho persino usati in un documento una volta), anche se non sembrano aver attecchito così tanto:

Tim J Cole. Sympercents: differenze percentuali simmetriche sulla scala 100 log (e) semplificano la presentazione dei dati trasformati in log. Statistics in Medicine 2000; 19 (22): 3109-3125. DOI: 10.1002 / 1097-0258 (20001130) 19:22 <3109 :: AID-SIM558> 3.0.CO; 2-F [Sono così felice che Stat Med abbia smesso di usare le SICI come DOI ...]


1
Grazie per il riferimento e punti molto buoni. La domanda di interesse è se questo problema si applica a tutte le trasformazioni, non solo ai log. Per noi le statistiche / probabilità sono utili in quanto consentono un'efficace previsione delle prestazioni o criteri / indicazioni efficaci. Nel corso degli anni abbiamo usato trasformazioni di potenza (registri con un altro nome), trasformazioni polinomiali e altre (anche trasformazioni a tratti) per cercare di ridurre i residui, restringere gli intervalli di confidenza e generalmente migliorare la capacità predittiva da un dato set di dati. Ora stiamo dicendo che questo non è corretto?
AsymLabs

1
@AsymLabs, quanto sono separate le due culture di Breiman (approssimativamente predittori e modellatori)? Cf. Due culture : controverse.
denis,

15

Uno in genere prende il registro di una variabile di input per ridimensionarla e modificare la distribuzione (ad esempio per renderla normalmente distribuita). Tuttavia, non può essere fatto alla cieca; devi fare attenzione quando esegui qualsiasi ridimensionamento per assicurarti che i risultati siano ancora interpretabili.

Questo è discusso nella maggior parte dei testi statistici introduttivi. Puoi anche leggere l'articolo di Andrew Gelman su "Ridimensionare gli input di regressione dividendo per due deviazioni standard" per una discussione su questo. Ha anche avuto una bella discussione su questo all'inizio di "Analisi dei dati usando la regressione e modelli multilivello / gerarchici" .

Prendere il registro non è un metodo appropriato per gestire dati / valori erratici errati.


12

Si tende a prendere registri dei dati quando c'è un problema con i residui. Ad esempio, se si tracciano i residui su una particolare covariata e si osserva un modello crescente / decrescente (una forma a imbuto), una trasformazione può essere appropriata. I residui non casuali di solito indicano che i presupposti del modello sono errati, ovvero dati non normali.

Alcuni tipi di dati si prestano automaticamente alle trasformazioni logaritmiche. Ad esempio, di solito prendo i registri quando mi occupo di concentrazioni o età.

Sebbene le trasformazioni non vengano utilizzate principalmente per gestire i valori anomali, aiutano in quanto i log vengono compressi dai dati.


1
Tuttavia, usando log cambia il modello - per regressione lineare è y ~ a * x + b, per regressione lineare su log è y ~ y0 * exp (x / x0).

1
Sono d'accordo - prendendo le modifiche del registro il tuo modello. Ma se devi trasformare i tuoi dati, ciò implica che il tuo modello non era adatto in primo luogo.
csgillespie,

2
@cgillespie: concentrazioni, sì; ma l'età? Questo è strano.
whuber

@whuber: Suppongo che dipenda molto dai dati, ma i set di dati che ho usato vedresti una grande differenza tra 10 e 18 anni, ma una piccola differenza tra 20 e 28 anni. Anche per i bambini piccoli la differenza tra 0-1 anni non è la stessa differenza tra 1-2.
csgillespie,

1
@landroni È brevemente formulato. Non direi che è povero, tranne che è probabile che "ad esempio" fosse inteso invece di "cioè" Capisco l'uso di "casuale" qui nel senso di "indipendente e identicamente distribuito", che in effetti è l'assunto più generale assunto da OLS. In alcuni contesti, le persone assumono inoltre che questa comune distribuzione sottostante sia normale, ma ciò non è strettamente necessario nella pratica o nella teoria: tutto ciò che è necessario è che le distribuzioni campionarie delle statistiche pertinenti siano vicine alla normale.
whuber

10

XXX

XXX3rmsXx

require(rms)
dd <- datadist(mydata); options(datadist='dd')
cr <- function(x) x ^ (1/3)
f <- ols(y ~ rcs(cr(X), 5), data=mydata)
ggplot(Predict(f))  # plot spline of cr(X) against X

X3X


E[Y|X]=f(X)

9

Vorrei rispondere alla domanda di user1690130 che è stata lasciata come commento alla prima risposta il 26 ottobre 12 e recita come segue: "Che cosa circa le variabili come la densità di popolazione in una regione o il rapporto bambino-insegnante per ogni distretto scolastico o il numero di omicidi per 1000 nella popolazione? Ho visto i professori prendere il registro di queste variabili. Non mi è chiaro il motivo. Ad esempio, il tasso di omicidi non è già una percentuale? Il registro cambierebbe la percentuale della tasso? Perché dovrebbe essere preferito il registro del rapporto bambino insegnante? "

Stavo cercando di rispondere a un problema simile e volevo condividere ciò che dice il mio vecchio libro di testo sulle statistiche ( Jeffrey Wooldridge. 2006. Econometria introduttiva - Un approccio moderno, 4a edizione. Capitolo 6 Analisi di regressione multipla: ulteriori problemi. 191 ). Wooldridge consiglia:

Le variabili che compaiono in forma proporzionale o percentuale, come il tasso di disoccupazione, il tasso di partecipazione a un piano pensionistico, la percentuale di studenti che superano un esame standardizzato e il tasso di arresto per reati denunciati - possono apparire in forma originale o logaritmica , sebbene vi sia la tendenza ad usarli in forme livellate . Questo perché qualsiasi coefficiente di regressione che coinvolge la variabile originale, sia essa dipendente o indipendente, avrà un'interpretazione del cambiamento in punti percentuali. Se utilizziamo, diciamo, log ( unem ) in una regressione, dove unem è la percentuale di persone disoccupate, dobbiamo fare molta attenzione a distinguere tra una variazione in punti percentuali e una variazione percentuale. Ricorda, se unemva da 8 a 9, questo è un aumento di un punto percentuale, ma un aumento del 12,5% dal livello di disoccupazione iniziale. L'uso del log significa che stiamo osservando la variazione percentuale del tasso di disoccupazione: log (9) - log (8) = 0,118 o 11,8%, che è l'approssimazione logaritmica all'aumento effettivo del 12,5%.

Sulla base di questo e del salvadanaio sul precedente commento di Whuber alla domanda di user1690130, eviterei di usare il logaritmo di una variabile di densità o percentuale per mantenere semplice l'interpretazione a meno che l'uso del modulo di log produca un grave compromesso come la capacità di ridurre l'asimmetria della densità o tasso variabile.


Spesso per le percentuali (ovvero le proporzioni su (0,1), viene utilizzata una trasformazione logit. Questo perché i dati proporzionali spesso violano l'assunzione della normalità dei residui, in un modo che una trasformazione log non correggerà.
Colin

3

Il punto di Shane secondo cui prendere il registro per gestire dati errati è ben accolto. Come lo è Colin riguardo all'importanza dei normali residui. In pratica trovo che di solito puoi ottenere residui normali se anche le variabili di input e output sono relativamente normali. In pratica ciò significa bloccare la distribuzione dei set di dati trasformati e non trasformati e assicurarsi che siano diventati più normali e / o condurre test di normalità (ad esempio test di Shapiro-Wilk o Kolmogorov-Smirnov) e determinare se il risultato è più normale. Interpretazione e tradizione sono anche importanti. Ad esempio, nella psicologia cognitiva vengono spesso utilizzate trasformazioni dei log dei tempi di reazione, tuttavia, almeno per me, l'interpretazione di un log RT non è chiara. Inoltre,


2
Le risposte verranno riordinate in base ai voti, quindi cerca di non fare riferimento ad altre risposte.
Vebjorn Ljosa,

4
Un test di normalità è di solito troppo severo. Spesso è sufficiente ottenere residui distribuiti simmetricamente. (In pratica, i residui tendono ad avere distribuzioni fortemente al vertice, in parte come sospetto di un artefatto della stima, e quindi
testeranno

@whuber: concordato. Ecco perché ho specificato "diventare più normale". L'obiettivo dovrebbe essere quello di controllare la statistica del test per le modifiche piuttosto che una decisione di accettazione / rifiuto basata sul valore p del test.
Russellpierce,

Bisogna SEMPRE fare riferimento ad altre risposte come appropriato!
abalter

@abalter? Non seguo
Russellpierce,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.