Quando sono appropriate le scale del registro?


57

Ho letto che l'uso di scale di log quando la creazione di grafici / grafici è appropriato in determinate circostanze, come l'asse y in un grafico di serie temporali. Tuttavia, non sono stato in grado di trovare una spiegazione definitiva sul perché sia ​​così o quando altrimenti sarebbe appropriato. Tieni presente che non sono uno statistico, quindi potrei perdere del tutto il punto e, in tal caso, apprezzerei la direzione delle risorse correttive.


10
Questa non è una risposta formale ma - quando una variabile si estende su più ordini di grandezza è spesso più facile per gli occhi (e più informativo) visualizzarla sulla scala del registro.
Macro

Macro-che rende il buon senso (soprattutto quando hai un pubblico che può capirlo!)
DAV

1
È possibile trovare questo thread di utilizzo strettamente correlato in attesa di risposte specifiche: stats.stackexchange.com/questions/298 . In termini di creazione di grafici, è possibile interpretare fruttuosamente "variabile dipendente" come "asse y". Dai un'occhiata alle molte domande strettamente correlate che sono apparse qui.
whuber

3
Anche FYI Naomi Robbins ha un articolo molto semplice sull'argomento e che dovrebbe essere di interesse, quando dovrei usare le scale logaritmiche nei miei grafici e grafici? .
Andy W,

Whuber, grazie per aver sottolineato i collegamenti extra. Ne avevo visti alcuni, ma non tutti e ora mi sto facendo strada.
dav

Risposte:


51

Questa è una domanda molto interessante, a cui troppe poche persone pensano. Esistono diversi modi in cui una scala di registro può essere appropriata. Il primo e più noto è quello menzionato da Macro nel suo commento: le scale di registro consentono di visualizzare un ampio intervallo senza che i valori piccoli vengano compressi nella parte inferiore del grafico.

Un motivo diverso per preferire un ridimensionamento del registro è nelle circostanze in cui i dati sono espressi in modo più naturale in modo geometrico. Un esempio è quando i dati rappresentano la concentrazione di un mediatore biologico. Le concentrazioni non possono essere negative e la variabilità si riduce quasi invariabilmente alla media (cioè c'è una varianza eteroscedastica). Usando una scala logaritmica o, equivalentemente, usando la concentrazione del tronco come primaria, la misura "corregge" la variabilità irregolare e fornisce una scala che non ha limiti su entrambe le estremità. Le concentrazioni sono probabilmente distribuite in modo logaritmico e quindi un ridimensionamento del log ci dà un risultato molto conveniente che è probabilmente "naturale". In farmacologia utilizziamo una scala logaritmica per concentrazioni di farmaci molto più spesso,

Un altro buon motivo per una scala logaritmica, probabilmente quello a cui si è interessati per i dati di serie temporali, deriva dalla capacità di una scala logaritmica di rendere equivalenti le modifiche frazionarie. Immagina una rappresentazione della performance a lungo termine dei tuoi investimenti pensionistici. Dovrebbe (crescere) in modo esponenziale, perché l'interesse di domani dipende dagli investimenti di oggi (in termini approssimativi). Pertanto, anche se la performance in termini percentuali è stata abbastanza costante, un grafico dei fondi sembrerà essere cresciuto più rapidamente all'estremità destra. Con una scala logaritmica una variazione percentuale costante è vista come una distanza verticale costante, quindi un tasso di crescita costante è visto come una linea retta. Questo è spesso un vantaggio sostanziale.

Un'altra ragione leggermente più esoterica per la scelta di una scala logaritmica si presenta in circostanze in cui i valori possono essere ragionevolmente espressi come x o 1 / x. Un esempio della mia ricerca è la resistenza vascolare che può anche essere sensibilmente espressa come reciproca conduttanza vascolare. (È anche sensato in alcune circostanze pensare al diametro dei vasi sanguigni che si ridimensionano come un potere di resistenza o conduttanza.) Nessuna di queste misure ha più realtà delle altre ed entrambe si possono trovare nei documenti di ricerca. Se sono ridimensionati logaritmicamente, sono semplicemente negativi l'uno dell'altro e la scelta dell'uno o dell'altro non fa alcuna differenza sostanziale. (Il diametro vascolare differirà dalla resistenza e dalla conduttanza da un moltiplicatore costante quando sono tutti in scala.)


Grazie per la magnifica risposta! Puoi approfondire "i valori possono essere ragionevolmente espressi come x", però?
ktdrv,

4
@ktdrv Alcune cose hanno senso in entrambi i casi. Supponi di voler documentare l'abilità di un pescatore. Puoi contare il numero di pesci catturati al giorno o misurare l'intervallo tra le catture successive. Entrambe le misurazioni hanno un senso ma sono correlate in modo non lineare tra loro. Sono reciprocamente ridimensionati e quindi possono essere convertiti uno a uno nell'altro. Il registro dell'intervallo e il registro del numero giornaliero sono linearmente correlati tra loro e differiscono per un fattore costante (negativo).
Michael Lew,

1
Michael, grazie per l'ottima risposta. Devo ammetterlo, mi ci è voluto un po 'di tempo per esaminare tutti i tuoi punti (e ho dovuto google alcuni termini, come "varianza eteroscedastica"). Sto ancora mettendo insieme esattamente cosa significherà il vero impatto della risposta per il mio lavoro, ma sono grato per una direzione generale e alcune linee guida che mi indicheranno lungo la strada.
dav

Per quanto riguarda l'ultimo paragrafo: due motivi principali per la riespressione dei valori sono la stabilizzazione delle varianze e la linearizzazione delle relazioni con altre variabili. È quasi sempre il caso che quando funziona, sarà orribile e viceversa . Pertanto, l'utilizzo di perché crea una relazione lineare tra e non sembra difendibile: se funziona, ciò significa che né è un'espressione efficace dei valori e altrimenti non lo è funziona e dovresti determinare quale di o (o qualche altra re-espressione) è appropriato.x1/xlog(x)x1/x x1/xx1/x
whuber

"In farmacologia utilizziamo una scala logaritmica per concentrazioni di farmaci molto più spesso": lasciatemi sottolineare che aggiungendo che le variabili sono in realtà spesso già definite in questo modo, ad esempio . L'essere espresso in questo modo in modo più naturale significa che molte relazioni diventano espressioni (lineari) molto più facili con il registro lì. pH=log[H+]
cbeleites supporta Monica il

29

Alcuni esempi di vita reale che ho dovuto consegnare come aggiunta all'ottima risposta di @Michael Lew.

Innanzitutto, le due serie di serie temporali riportate di seguito mostrano gli arrivi mensili di visitatori in Nuova Zelanda, disponibili da Statistics New Zealand . Entrambi i grafici hanno il loro scopo, ma trovo quello con l'asse verticale su una scala logaritmica straordinariamente utile per molti più scopi rispetto al primo. Ad esempio, puoi vedere che la stagionalità negli arrivi rimane approssimativamente proporzionale alla scala degli arrivi; e puoi vedere i cambiamenti significativi nel tasso di crescita (ad esempio durante la seconda guerra mondiale) che sono semplicemente invisibili sulla scala originale.

inserisci qui la descrizione dell'immagine

In secondo luogo, i grafici seguenti mostrano la spesa totale relativa ai viaggi dei turisti in Nuova Zelanda, rispetto alla spesa mentre si trovano effettivamente in Nuova Zelanda. La fonte è l' International Visitors Survey del Ministero dello Sviluppo Economico. La differenza è la spesa pre-viaggio, ad esempio hotel o pacchetti pagati in anticipo. Il primo grafico, nella scala originale, può essere utilizzato per pochi scopi oltre a un'impressione molto grezza (ma importante) dei dati raggruppati nell'angolo in basso a sinistra. La seconda trama sacrifica una certa interpretabilità immediata, in particolare per i non statistici (per questo motivo, normalmente ora userei effettivamente una scala logaritmica sugli assi, piuttosto che trasformare i dati e avere la scala che mostra il valore logaritmico), ma dà molto più differenziazione visiva.

Ad esempio, puoi individuare chiaramente i pochi valori anomali (che si sono rivelati errori di modifica dei dati) in cui la spesa totale era inferiore alla spesa in Nuova Zelanda. Forse ancora più importante, è possibile utilizzare questo grafico con colori o sfaccettature diverse per mostrare come i diversi paesi del mercato o lo scopo della visita (ad es. Vacanza v. Visitare amici e familiari) occupano diverse parti dello "spazio" di spesa - qualcosa che sarebbe semplicemente invisibile sugli assi originali.

Trasformare questa trama in qualcosa di utile comporterebbe in qualche modo la gestione dei dati ad alta densità (ad esempio aggiungendo una certa trasparenza ai punti o sostituendo i punti con contenitori esagonali colorati in base alla densità), ma qualsiasi soluzione visiva utile coinvolgerà quasi sicuramente assi logaritmici.

inserisci qui la descrizione dell'immagine

modifica / aggiunta

Un altro complotto per illustrare cosa intendevo per bidoni esagonali, usando il colore per rappresentare la densità quando c'è un set di dati di grandi dimensioni (in questo caso, circa 12000 intervistati a un sondaggio sulle esperienze della Coppa del Mondo di Rugby in Nuova Zelanda). Nota di nuovo che questo è un altro esempio in cui ho usato una scala logaritmica per le spese.

inserisci qui la descrizione dell'immagine


Peter, grazie per la comprensione aggiuntiva, la grafica aiuta davvero a capire i tuoi punti. Una domanda di follow-up (se sei così incline), perché dovresti sostituire i punti con bin "esagonali"? È la stessa idea di "Girasoli"? Non ho sentito quel termine prima.
dav

No, diverso dalle trame di girasole. Il punto è dividere l'area di disegno in bidoni esagonali e poi colorarli (ad esempio da chiaro a scuro) in base a quanti punti ci sono in ogni cestino. Può essere un buon modo per aggirare tracciando set di dati di grandi dimensioni che altrimenti hanno la tendenza a trasformarsi in una massa di nero.
Peter Ellis,

@DavidVandenbos - Ho aggiunto un esempio
Peter Ellis,

(il resto del commento) @PeterEllis Grazie per il chiarimento. È un ottimo modo per visualizzare i dati, è molto simile alle mappe di calore geografiche che utilizzo. L'hai creato in R?
dav

Sì, R, usando il pacchetto ggplot2 - ottimo per questo scopo e abbastanza semplice una volta che hai le basi.
Peter Ellis,

9

Un'altra cosa elegante delle scale di log è che fanno sembrare i rapporti simmetrici. Ad esempio, in questo modo: inserisci qui la descrizione dell'immagine


10
Sarebbe bello vedere la stessa trama su una scala lineare, per confronto
nico
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.