Qual è il motivo per cui la trasformazione del registro viene utilizzata con le distribuzioni distorte?


18

L'ho sentito una volta

la trasformazione del log è la più popolare per le distribuzioni distorte a destra nella regressione lineare o regressione quantile

Vorrei sapere c'è qualche motivo alla base di questa affermazione? Perché la trasformazione del registro è adatta per una distribuzione distorta?

Che ne dici di una distribuzione inclinata a sinistra?

Risposte:


26

Gli economisti (come me) adorano la trasformazione dei tronchi. Ci piace particolarmente nei modelli di regressione, come questo:

lnYio=β1+β2lnXio+εio

Perché lo amiamo così tanto? Ecco l'elenco dei motivi che do agli studenti quando insegno su di esso:

  1. Rispetta la positività di . Molte volte nelle applicazioni del mondo reale in economia e altrove, Y è, per sua natura, un numero positivo. Potrebbe essere un prezzo, un'aliquota fiscale, una quantità prodotta, un costo di produzione, una spesa per una categoria di beni, ecc. I valori previsti da una regressione lineare non trasformata possono essere negativi. I valori previsti da una regressione trasformata nel registro non possono mai essere negativi. Sono Y j = exp ( β 1 + β 2 ln X j )1YY(Vediuna mia precedente rispostaY^j=exp(β1+β2lnXj)1NΣexp(eio) per derivazione).
  2. Il modulo funzionale log-log è sorprendentemente flessibile. Avviso: che ci dà: sono molte forme diverse. Una linea (la cui pendenza sarebbe determinata daexp ( β 1 ) , quindi che può avere qualsiasi pendenza positiva), un'iperbole, una parabola e una forma "a radice quadrata". L'ho disegnato conβ1=0eϵ=0, ma in una vera applicazione nessuna di queste sarebbe vera, quindi la pendenza e l'altezza delle curve suX=
    lnYio=β1+β2lnXio+εioYio=exp(β1+β2lnXio)exp(εio)Yio=(Xio)β2exp(β1)exp(εio)
    Amare i moduli funzionali log-logexp(β1)β1=0ε=0X=1 sarebbe controllato da quelli anziché impostato su 1.
  3. Come menziona TrynnaDoStat, il modulo log-log "disegna" grandi valori che spesso rendono i dati più facili da guardare e talvolta normalizzano la varianza tra le osservazioni.
  4. Il coefficiente viene interpretato come elasticità. È l'aumento percentuale Y da un aumento di un punto percentuale X .β2YX
  5. Se è una variabile fittizia, la includi senza registrarla. In questo caso, β 2 è la differenza percentuale in Y tra la categoria X = 1 e la categoria X = 0 .Xβ2YX=1X=0
  6. Se è l'ora, di nuovo la includi senza registrarla, in genere. In questo caso,X è il tasso di crescita in Y --- misurato in qualsiasi momento in cuiviene misurata l'unità X. Se X è anni, il coefficiente è il tasso di crescita annuale in Y , ad esempio.β2YXXY
  7. Il coefficiente di pendenza, , diventa invariante alla scala. Ciò significa, da un lato, che non ha unità e, dall'altro, che se ridimensionate (cioè cambiate le unità di) X o Y , non avrà assolutamente alcun effetto sul valore stimato di β 2 . Bene, almeno con OLS e altri stimatori correlati.β2XYβ2
  8. Se i tuoi dati sono normalmente distribuiti in modo logico, la trasformazione del log li rende normalmente distribuiti. I dati normalmente distribuiti hanno molto da offrire.

Gli statistici in genere trovano gli economisti troppo entusiasti di questa particolare trasformazione dei dati. Questo, penso, è perché giudicano il mio punto 8 e la seconda metà del mio punto 3 molto importanti. Pertanto, nei casi in cui i dati non sono distribuiti in modo logaritmico o in cui la registrazione dei dati non comporta che i dati trasformati abbiano la stessa varianza tra le osservazioni, uno statistico tenderà a non apprezzare molto la trasformazione. È probabile che l'economista precipiti comunque, poiché ciò che ci piace davvero della trasformazione sono i punti 1,2 e 4-7.


7
Questi sono punti standard ma è molto bello averli riuniti in modo conciso. Molti account coprono solo alcuni di questi punti. Piccolo punto: penso che il tuo contrasto tra gli atteggiamenti degli economisti e quelli degli statistici sia un po 'esagerato. Ad esempio, l'importanza del collegamento rispetto alla famiglia di errori passa attraverso la letteratura generalizzata sui modelli lineari, sebbene possa fare con più tromba. Keene, Oliver N. 1995. La trasformazione dei tronchi è speciale. Statistica in medicina 14: 811-819. DOI: 10.1002 / sim.4780140810 è un altro esempio.
Nick Cox,

21

Per prima cosa vediamo cosa succede di solito quando prendiamo i registri di qualcosa che è giusto inclinato.

La riga superiore contiene istogrammi per campioni provenienti da tre diverse distribuzioni, sempre più inclinate.

La riga inferiore contiene istogrammi per i loro registri.

inserisci qui la descrizione dell'immagine

yXz ) è ancora (leggermente) inclinata a destra, anche dopo aver preso i registri.

Se volevamo che le nostre distribuzioni sembrassero più normali, la trasformazione avrebbe sicuramente migliorato il secondo e il terzo caso. Possiamo vedere che questo potrebbe aiutare.


Quindi perché funziona?

Si noti che quando guardiamo un'immagine della forma distributiva, non stiamo prendendo in considerazione la media o la deviazione standard, che influenza solo le etichette sull'asse.

Quindi possiamo immaginare di osservare una sorta di variabili "standardizzate" (pur rimanendo positivi, tutti hanno una posizione e diffusione simili, diciamo)

Prendere i log "tira dentro" valori più estremi a destra (valori alti) rispetto alla mediana, mentre i valori all'estrema sinistra (valori bassi) tendono ad allungarsi indietro, più lontano dalla mediana.

inserisci qui la descrizione dell'immagine

Xyz hanno tutti un valore vicino a 178, tutti hanno una mediana vicino a 150 e tutti i loro registri hanno una mediana vicino a 5.

y , è 5 intervalli interquartili sopra la mediana.

Ma quando prendiamo i tronchi, viene tirato indietro verso la mediana; dopo aver preso i tronchi è solo circa 2 intervalli interquartili sopra la mediana.

y

inserisci qui la descrizione dell'immagine

Non è un caso che il rapporto 750/150 e 150/30 siano entrambi 5 quando sia il registro (750) che il registro (30) sono finiti alla stessa distanza dalla mediana del registro (y). Ecco come funzionano i log: conversione di rapporti costanti in differenze costanti.

Non sempre il registro è di grande aiuto. Ad esempio, se prendi in considerazione una variabile casuale lognormale e la sposti sostanzialmente a destra (cioè aggiungi una costante grande ad essa) in modo che la media diventi grande rispetto alla deviazione standard, quindi prendere il registro di quella farebbe poca differenza per la forma. Sarebbe meno inclinato, ma a malapena.


Ma altre trasformazioni - diciamo la radice quadrata - tireranno anche grandi valori in questo modo. Perché i registri in particolare sono più popolari?

-0,162 nel registro naturale è una riduzione del 15% nei numeri originali, indipendentemente dalla grandezza del numero originale.

Molti dati economici e finanziari si comportano in questo modo, ad esempio (effetti costanti o quasi costanti sulla scala percentuale). In questo caso, la scala del registro ha molto senso. Inoltre, a seguito di tale effetto su scala percentuale. la diffusione dei valori tende ad essere maggiore all'aumentare della media - e anche prendere i registri tende a stabilizzare la diffusione. Di solito è più importante della normalità. In effetti, tutte e tre le distribuzioni nel diagramma originale provengono da famiglie in cui la deviazione standard aumenterà con la media e, in ogni caso, prendere i registri stabilizza la varianza. [Questo non accade con tutti i dati distorti, però. È molto comune nel tipo di dati che emergono in particolari aree di applicazione.]

Ci sono anche momenti in cui la radice quadrata renderà le cose più simmetriche, ma tende ad accadere con distribuzioni meno inclinate di quelle che uso nei miei esempi qui.

Potremmo (abbastanza facilmente) costruire un altro gruppo di tre esempi leggermente più inclinati a destra, in cui la radice quadrata faceva uno skew a sinistra, uno simmetrico e il terzo era ancora a sbalzo (ma un po 'meno inclinato rispetto a prima).


Che dire delle distribuzioni distorte?

Se hai applicato la trasformazione del registro a una distribuzione simmetrica, tenderà a renderla inclinata a sinistra per lo stesso motivo per cui spesso rende una inclinazione a destra più simmetrica - vedi la discussione correlata qui .

Di conseguenza, se si applica la trasformazione del registro a qualcosa che è già stato inclinato, tenderà a renderlo ancora di più inclinato, tirando le cose sopra la mediana ancora più strettamente e allungando le cose sotto la mediana ancora più duramente.

Quindi la trasformazione del registro non sarebbe utile allora.

Vedi anche trasformazioni di potenza / scala di Tukey. Le distribuzioni che sono lasciate storte possono essere rese più simmetriche prendendo un potere (maggiore di 1 - si dice quadratura), o esponenziando. Se ha un evidente limite superiore, si potrebbero sottrarre osservazioni dal limite superiore (dando un risultato distorto a destra) e quindi tentare di trasformarlo.


Grazie Glen_b per questa eccellente risposta. Ci fornite dati empirici per illustrare e quindi fornire una spiegazione intuitiva del perché / come funziona questa trasformazione. Molto apprezzato.
Ram

5

y=ln(X)X

http://www.librow.com/content/common/images/articles/article-11/graph-ln.gif

Ora, in una distribuzione distorta a destra hai alcuni valori molto grandi. La trasformazione del registro essenzialmente avvolge questi valori al centro della distribuzione rendendola più simile a una distribuzione normale.


1

Tutte queste risposte sono punti di vendita per la trasformazione naturale dei tronchi. Ci sono avvertimenti al suo uso, avvertimenti che sono generalizzabili a qualsiasi trasformazione. Come regola generale, tutte le trasformazioni matematiche rimodellano il PDF delle variabili grezze sottostanti indipendentemente dal fatto che agiscano per comprimere, espandere, invertire, riscalare. La più grande sfida che ciò presenta da un punto di vista puramente pratico è che, quando utilizzati nei modelli di regressione in cui le previsioni sono un output chiave del modello, le trasformazioni della variabile dipendente, Y-hat, sono soggetti a distorsioni di ritrasformazione potenzialmente significative. Si noti che le trasformazioni logaritmiche naturali non sono immuni da questo pregiudizio, non ne sono influenzate come altre trasformazioni ad azione simile. Ci sono documenti che offrono soluzioni per questo pregiudizio, ma in realtà non funzionano molto bene. A mio avviso, sei su un terreno molto più sicuro e non stai scherzando con il tentativo di trasformare Y e trovare forme funzionali robuste che ti consentono di conservare la metrica originale. Ad esempio, oltre al registro naturale, ci sono altre trasformazioni che comprimono la coda di variabili distorte e kurtotiche come il seno iperbolico inverso o W di Lambert. Entrambe queste trasformazioni funzionano molto bene nel generare file PDF simmetriche e, di conseguenza, di Gauss-come errori, ai dati pesanti dalla coda, ma attenzione per il bias quando si tenta di portare le previsioni indietro nella scala originale per il DV, Y . Può essere brutto.


3
Questo sembra finire focalizzato su cosa fare con le distribuzioni dalla coda pesante (per kurtotic intendi possedere un'alta kurtosi). Penso che sia necessario precisare come ciò si collega alla domanda. Allo stesso modo, come LambertWsi riferisce alla domanda non è chiaro. Non capisco come il pregiudizio per la trasformazione sia meno un possibile problema per la trasformazione logaritmica che per le trasformazioni correlate (quali?) Come in questo senso e in altri il comportamento logaritmico come ti aspetteresti come membro di una famiglia più ampia, perché esempio di essere intermedio in effetti tra la radice quadrata e il reciproco.
Nick Cox,

3
Siamo tutti contorti di vari aspetti delle regole, ma molti di noi continuano a interagire qui perché siamo venuti a vederne la saggezza e abbiamo trovato modi costruttivi per aggirare le restrizioni apparenti. Questa regola è fondamentale: un post che non risponde a una domanda non appartiene. Tende a mantenere ogni thread coerente, limitato, pulito e in tema. È la chiave per la creazione di materiale che tende ad essere più utile e interessante di quello che troverai su qualsiasi altro sito di domande e risposte.
whuber

3
Hai armeggiato con questo, ma a mio avviso rimane molto problematico come risposta. 1. Stai allargando la questione in diversi modi, ad esempio introducendo anche distribuzioni dalla coda pesante. Questa può essere una cosa ragionevole da fare in alcuni thread, ma qui c'è un thread ben focalizzato con risposte di alta qualità e la risposta extra qui è in gran parte confondere le acque. Quando esistono già buone risposte a una domanda, ci deve essere una buona ragione per una nuova risposta.
Nick Cox,

4
2. Le asserzioni sulla propensione alla trasformazione continuano a sventolare; non c'è precisione tecnica nella risposta che corrisponda alle affermazioni, inclusa la misteriosa affermazione che il registro è meno problematico rispetto ad altre trasformazioni simili.
Nick Cox,

4
3. Il dettaglio di Lambert Wrimane criptico. Più in generale, il messaggio è che le trasformazioni sono dubbie, tranne per il fatto che le asinh e quelle di Lambert possono essere buone. Questo sembra contraddittorio e non è ben spiegato. Sei chiaramente molto ben informato, ma questo ha bisogno di uno stile espositivo più diretto per essere prezioso. Quindi non posso votare questo in buona coscienza. La tua precedente decisione di rimuoverla era migliore a mio avviso. Qui e altrove non credo che tu stia prendendo abbastanza stile CV: non c'è una prescrizione rigida ma le risposte devono essere focalizzate; i post chiacchieroni e discorsivi di solito non si adattano bene.
Nick Cox,

0

Sono stati fatti molti punti interessanti. Un po 'di più?

1) Suggerirei che un altro problema con la regressione lineare è che il "lato sinistro" dell'equazione di regressione è E (y): il valore atteso. Se la distribuzione dell'errore non è simmetrica, i meriti per lo studio del valore atteso sono deboli. Il valore atteso non è di interesse centrale quando gli errori sono asimmetrici. Si potrebbe invece esplorare la regressione quantile. Quindi lo studio, diciamo, della mediana o di altri punti percentuali potrebbe essere utile anche se gli errori sono asimmetrici.

2) Se si sceglie di trasformare la variabile di risposta, è possibile che si desideri trasformare una o più variabili esplicative con la stessa funzione. Ad esempio, se si ha un risultato "finale" come risposta, si potrebbe avere un risultato "basale" come variabile esplicativa. Per l'interpretazione, ha senso trasformare 'final' e 'baseline' con la stessa funzione.

3) L'argomento principale per trasformare una variabile esplicativa è spesso intorno alla linearità della relazione risposta - spiegazione. In questi giorni, si possono considerare altre opzioni come spline cubiche ristrette o polinomi frazionari per la variabile esplicativa. Vi è certamente spesso una certa chiarezza se si può trovare la linearità.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.