Per prima cosa vediamo cosa succede di solito quando prendiamo i registri di qualcosa che è giusto inclinato.
La riga superiore contiene istogrammi per campioni provenienti da tre diverse distribuzioni, sempre più inclinate.
La riga inferiore contiene istogrammi per i loro registri.
yXz ) è ancora (leggermente) inclinata a destra, anche dopo aver preso i registri.
Se volevamo che le nostre distribuzioni sembrassero più normali, la trasformazione avrebbe sicuramente migliorato il secondo e il terzo caso. Possiamo vedere che questo potrebbe aiutare.
Quindi perché funziona?
Si noti che quando guardiamo un'immagine della forma distributiva, non stiamo prendendo in considerazione la media o la deviazione standard, che influenza solo le etichette sull'asse.
Quindi possiamo immaginare di osservare una sorta di variabili "standardizzate" (pur rimanendo positivi, tutti hanno una posizione e diffusione simili, diciamo)
Prendere i log "tira dentro" valori più estremi a destra (valori alti) rispetto alla mediana, mentre i valori all'estrema sinistra (valori bassi) tendono ad allungarsi indietro, più lontano dalla mediana.
Xyz hanno tutti un valore vicino a 178, tutti hanno una mediana vicino a 150 e tutti i loro registri hanno una mediana vicino a 5.
y , è 5 intervalli interquartili sopra la mediana.
Ma quando prendiamo i tronchi, viene tirato indietro verso la mediana; dopo aver preso i tronchi è solo circa 2 intervalli interquartili sopra la mediana.
y
Non è un caso che il rapporto 750/150 e 150/30 siano entrambi 5 quando sia il registro (750) che il registro (30) sono finiti alla stessa distanza dalla mediana del registro (y). Ecco come funzionano i log: conversione di rapporti costanti in differenze costanti.
Non sempre il registro è di grande aiuto. Ad esempio, se prendi in considerazione una variabile casuale lognormale e la sposti sostanzialmente a destra (cioè aggiungi una costante grande ad essa) in modo che la media diventi grande rispetto alla deviazione standard, quindi prendere il registro di quella farebbe poca differenza per la forma. Sarebbe meno inclinato, ma a malapena.
Ma altre trasformazioni - diciamo la radice quadrata - tireranno anche grandi valori in questo modo. Perché i registri in particolare sono più popolari?
- 0,162 nel registro naturale è una riduzione del 15% nei numeri originali, indipendentemente dalla grandezza del numero originale.
Molti dati economici e finanziari si comportano in questo modo, ad esempio (effetti costanti o quasi costanti sulla scala percentuale). In questo caso, la scala del registro ha molto senso. Inoltre, a seguito di tale effetto su scala percentuale. la diffusione dei valori tende ad essere maggiore all'aumentare della media - e anche prendere i registri tende a stabilizzare la diffusione. Di solito è più importante della normalità. In effetti, tutte e tre le distribuzioni nel diagramma originale provengono da famiglie in cui la deviazione standard aumenterà con la media e, in ogni caso, prendere i registri stabilizza la varianza. [Questo non accade con tutti i dati distorti, però. È molto comune nel tipo di dati che emergono in particolari aree di applicazione.]
Ci sono anche momenti in cui la radice quadrata renderà le cose più simmetriche, ma tende ad accadere con distribuzioni meno inclinate di quelle che uso nei miei esempi qui.
Potremmo (abbastanza facilmente) costruire un altro gruppo di tre esempi leggermente più inclinati a destra, in cui la radice quadrata faceva uno skew a sinistra, uno simmetrico e il terzo era ancora a sbalzo (ma un po 'meno inclinato rispetto a prima).
Che dire delle distribuzioni distorte?
Se hai applicato la trasformazione del registro a una distribuzione simmetrica, tenderà a renderla inclinata a sinistra per lo stesso motivo per cui spesso rende una inclinazione a destra più simmetrica - vedi la discussione correlata qui .
Di conseguenza, se si applica la trasformazione del registro a qualcosa che è già stato inclinato, tenderà a renderlo ancora di più inclinato, tirando le cose sopra la mediana ancora più strettamente e allungando le cose sotto la mediana ancora più duramente.
Quindi la trasformazione del registro non sarebbe utile allora.
Vedi anche trasformazioni di potenza / scala di Tukey. Le distribuzioni che sono lasciate storte possono essere rese più simmetriche prendendo un potere (maggiore di 1 - si dice quadratura), o esponenziando. Se ha un evidente limite superiore, si potrebbero sottrarre osservazioni dal limite superiore (dando un risultato distorto a destra) e quindi tentare di trasformarlo.