Quando (e perché) dovresti prendere il registro di una distribuzione (di numeri)?


174

Supponiamo di avere alcuni dati storici, ad esempio i prezzi delle azioni precedenti, le fluttuazioni dei prezzi dei biglietti aerei, i dati finanziari passati dell'azienda ...

Ora arriva qualcuno (o qualche formula) che dice "prendiamo / usiamo il registro della distribuzione" ed ecco dove vado PERCHÉ ?

Domande:

  1. PERCHÉ si dovrebbe prendere il registro della distribuzione in primo luogo?
  2. CHE COSA dà il log della distribuzione "dà / semplifica" che la distribuzione originale non ha potuto / non ha potuto?
  3. La trasformazione del registro è "senza perdita"? Cioè, quando si trasforma in log-space e si analizzano i dati, valgono le stesse conclusioni per la distribuzione originale? Come mai?
  4. E infine QUANDO prendere il registro della distribuzione? In quali condizioni si decide di farlo?

Volevo davvero capire le distribuzioni basate su log (ad esempio lognormal) ma non ho mai capito gli aspetti quando / perché - ovvero, il log della distribuzione è una distribuzione normale, e allora? Cosa dice questo e me e perché preoccuparsi? Da qui la domanda!

AGGIORNAMENTO : Secondo il commento di @ whuber ho guardato i post e per qualche ragione capisco l'uso delle trasformazioni dei log e la loro applicazione in regressione lineare, poiché è possibile tracciare una relazione tra la variabile indipendente e il log della variabile dipendente. Tuttavia, la mia domanda è generica nel senso di analizzare la distribuzione stessa: non esiste alcuna relazione di per sé che posso concludere per aiutare a capire il motivo di prendere i log per analizzare una distribuzione. Spero di avere un senso: - /

Nell'analisi di regressione hai vincoli sul tipo / adattamento / distribuzione dei dati e puoi trasformarli e definire una relazione tra la variabile indipendente e (non trasformata) dipendente. Ma quando / perché lo si dovrebbe fare per una distribuzione isolata in cui i vincoli di tipo / adattamento / distribuzione non sono necessariamente applicabili in un quadro (come la regressione). Spero che il chiarimento renda le cose più chiare che confuse :)

Questa domanda merita una risposta chiara su "PERCHÉ e QUANDO"


3
Poiché questo copre quasi lo stesso motivo delle domande precedenti qui e qui , leggi questi thread e aggiorna la tua domanda per concentrarti su tutti gli aspetti di questo problema che non sono già stati risolti. Nota anche che il n. 4 (e parte del n. 3) sono domande elementari sui logaritmi le cui risposte si trovano facilmente in molti punti.
whuber

1
Il chiarimento aiuta. Potresti voler ponderare il fatto, tuttavia, che la regressione con solo un termine costante (e senza altre variabili indipendenti) equivale a valutare la variazione dei dati intorno alla loro media. Pertanto, se capisci davvero gli effetti del prendere registri di variabili dipendenti in regressione, capisci già la situazione (più semplice) di cui ti stai chiedendo qui. In breve, una volta che si hanno risposte a tutte e quattro le domande per la regressione, non è necessario porle di nuovo sulla "distribuzione in isolamento".
whuber

@whuber: vedo ... quindi capisco i motivi per cui ho preso i registri in regressione, ma solo perché mi era stato insegnato così - lo capisco dalla necessità di farlo in prospettiva cioè, per assicurarsi che i dati si adattino alle ipotesi di regressione lineare. Questa è la mia unica comprensione. Forse quello che mi manca è la "vera comprensione" dell'effetto di prendere i registri e quindi la confusione ... qualche aiuto? ;)
Dottorato di ricerca il

2
Ah, ma ne sai molto di più, perché dopo aver usato i log in regressione, sai che i risultati vengono interpretati in modo diverso e sai di fare attenzione nel trasformare i valori adattati e gli intervalli di confidenza. Sto suggerendo che potresti non essere confuso e che probabilmente conosci già molte delle risposte a queste quattro domande, anche se inizialmente non ne eri consapevole :-).
whuber

2
I lettori qui potrebbero anche voler esaminare questi thread strettamente correlati: interpretazione del log trasformato-predittore e come interpretare i coefficienti trasformati logaritmicamente nella regressione lineare .
gung

Risposte:


98

logY=β0+β1tYYYY2. Non ricordo la fonte originale per quanto segue, ma riassume bene il ruolo delle trasformazioni di potenza. È importante notare che le ipotesi distributive riguardano sempre il processo di errore e non la Y osservata, quindi è un "no-no" definito analizzare le serie originali per una trasformazione appropriata, a meno che la serie non sia definita da una costante semplice.

Trasformazioni ingiustificate o errate, comprese le differenze, dovrebbero essere evitate con attenzione poiché sono spesso un tentativo fuori moda / mal concepito per affrontare anomalie non identificate / variazioni di livello / tendenze temporali o cambiamenti nei parametri o variazioni nella varianza degli errori. Un esempio classico di questo è discusso a partire dalla diapositiva 60 qui http://www.autobox.com/cms/index.php/afs-university/intro-to-forecasting/doc_download/53-capabilities-presentation in cui tre anomalie dell'impulso ( non trattato) ha portato a una trasformazione dei tronchi ingiustificata da parte dei primi ricercatori. Purtroppo alcuni dei nostri attuali ricercatori stanno ancora commettendo lo stesso errore.

La trasformazione ottimale della potenza si trova attraverso il Test Box-Cox dove

  • -1. è reciproco
  • -.5 è una radice quadrata ricriprocale
  • 0.0 è una trasformazione del registro
  • .5 è una trasformazione quadrata di toot e
  • 1.0 non è una trasformazione.

Yt=u+atYatatYtatYtYYYXYXlogYlogX. In sintesi, le trasformazioni sono come le droghe, alcune sono buone e altre sono cattive per te! Dovrebbero essere usati solo quando necessario e quindi con cautela.


2
Concordo sul fatto che chiunque abbia lasciato il (i) voto (i) debba lasciare un'osservazione sul perché questo sia stato sottoposto a voto negativo. Per Irishstat, sarebbe molto più semplice leggere il tuo post se avessi approfittato delle opzioni di formattazione per lasciare le risposte, in particolare quelle disponibili per contrassegnare le equazioni in lattice. Vedere la sezione della guida per la modifica del markdown . Tale collegamento è disponibile ogni volta che si digita una risposta nell'angolo in alto a destra della casella di invio (nel cerchio arancione con il punto interrogativo).
Andy W,

4
La tabella citata si trova in Introduzione all'analisi della regressione lineare Di Douglas C. Montgomery, Elizabeth A. Peck, G. Geoffrey Vining.
user1717828

@ user1717828 tu .. Sono sempre stato un fan di Montgomery in quanto ha una lunga barba che coinvolge serie
storiche

Non è sempre vero che il secondo momento e la varianza sono proporzionali tra loro? Abbiamo la classica equazione che dice: la varianza è uguale al secondo momento meno il primo momento al quadrato.
information_interchange

Come dici tu, la varianza è una funzione del secondo momento. Dove ho implicato diversamente. Inoltre la varianza può cambiare (deterministico) in diversi punti nel tempo SEE pdfs.semanticscholar.org/09c4/... che non viene posto rimedio da un potere trasformare.
IrishStat

108

La scala logaritmica informa sui cambiamenti relativi (moltiplicativi), mentre la scala lineare informa sui cambiamenti assoluti (additivo). Quando li usi? Quando ti preoccupi delle modifiche relative, usa la scala dei log; quando ti preoccupi dei cambiamenti assoluti, usa la scala lineare. Questo vale per le distribuzioni, ma anche per qualsiasi quantità o modifica delle quantità.

Nota, qui uso la parola "cura" in modo molto specifico e intenzionale. Senza un modello o un obiettivo, non è possibile rispondere alla tua domanda; il modello o l'obiettivo definisce quale scala è importante. Se stai cercando di modellare qualcosa e il meccanismo agisce tramite una modifica relativa, la scala dei log è fondamentale per acquisire il comportamento visto nei tuoi dati. Ma se il meccanismo del modello sottostante è additivo, ti consigliamo di utilizzare la scala lineare.


$$$


$$$$


$

Se convertiamo in spazio log, le modifiche relative vengono visualizzate come modifiche assolute.

log10($1)log10($1.10)
log10($100)log10($110)

Ora, prendendo la differenza assoluta nello spazio del registro , scopriamo che entrambi sono stati modificati da .0413.

Entrambe queste misure di cambiamento sono importanti e quale è importante per te dipende esclusivamente dal tuo modello di investimento. Esistono due modelli. (1) Investire un importo fisso di capitale o (2) investire in un numero fisso di azioni.

Modello 1: investire con un importo fisso di capitale.

$$$$$$$$

Modello 2: numero fisso di azioni.

$

Supponiamo ora di considerare un valore di borsa come una variabile casuale che fluttua nel tempo e che vogliamo elaborare un modello che rifletta in generale il comportamento delle azioni. E diciamo che vogliamo usare questo modello per massimizzare il profitto. Calcoliamo una distribuzione di probabilità i cui valori x sono in unità di "prezzo delle azioni" e valori y in probabilità di osservare un determinato prezzo delle azioni. Lo facciamo per lo stock A e lo stock B. Se ti iscrivi al primo scenario, dove hai un importo fisso di capitale che desideri investire, prendere il registro di queste distribuzioni sarà informativo. Perché? Quello che ti interessa è la forma della distribuzione nello spazio relativo. Se uno stock va da 1 a 10 o da 10 a 100 non importa per te, giusto? Entrambi i casi sono 10 volteguadagno relativo. Ciò appare naturalmente in una distribuzione su scala logaritmica in cui i guadagni unitari corrispondono direttamente ai guadagni di fold. Per due titoli il cui valore medio è diverso ma la cui variazione relativa è distribuita in modo identico (hanno la stessa distribuzione delle variazioni percentuali giornaliere ), le loro distribuzioni di tronchi saranno identiche nella forma appena spostata. Al contrario, le loro distribuzioni lineari non avranno forma identica, con la distribuzione a valore più elevato con una varianza maggiore.

Se dovessi guardare queste stesse distribuzioni nello spazio lineare o assoluto, penseresti che i prezzi delle azioni di maggior valore corrispondano a maggiori fluttuazioni. Per i tuoi scopi di investimento, tuttavia, dove contano solo i guadagni relativi, ciò non è necessariamente vero.

Esempio 2. Reazioni chimiche. Supponiamo di avere due molecole A e B che subiscono una reazione reversibile.

AB

che è definito dalle singole costanti di velocità

kabABkbaBA

Il loro equilibrio è definito dalla relazione:

K=kabkba=[A][B]

AB

K=kabkba=[A][B]

(0,inf)

EDIT . Un parallelo interessante che mi ha aiutato a costruire l'intuizione è l'esempio dei mezzi aritmetici contro i mezzi geometrici. Una media aritmetica (vaniglia) calcola la media dei numeri assumendo un modello nascosto in cui le differenze assolute sono importanti. Esempio. La media aritmetica di 1 e 100 è 50,5. Supponiamo che stiamo parlando di concentrazioni, in cui la relazione chimica tra le concentrazioni è moltiplicativa. Quindi la concentrazione media dovrebbe davvero essere calcolata sulla scala del log. Questa è chiamata media geometrica. La media geometrica di 1 e 100 è 10! In termini di differenze relative, ciò ha senso: 10/1 = 10 e 100/10 = 10, cioè la variazione relativa tra la media e due valori è la stessa. Inoltre troviamo la stessa cosa; 50,5-1 = 49,5 e 100-50,5 = 49,5.


2
Questa è una risposta davvero utile e adoro gli esempi. Potresti aggiungere altro su "quando" in particolare per utilizzare la trasformazione del log? Dici "Quando ti preoccupi dei cambiamenti relativi, usa la scala di registro; quando ti preoccupi dei cambiamenti assoluti, usa la scala lineare". Ma ci sono casi in cui ti preoccupi dei cambiamenti relativi ma non dovresti trasformare i log e, in tal caso, come li rilevi? Ad esempio, questo documento
sostiene

@ skeller88 Sono d'accordo con questo documento; è una risposta ristretta alla domanda più ampia (e filosofica!) del "perché trasformiamo le distribuzioni?" Penso che la risposta sia che abbiamo un toolkit statistico ben sviluppato per contrastare le normali distribuzioni, ma un toolkit meno sviluppato per altre distribuzioni, forse anche senza nome (la maggior parte). Un approccio alla valutazione di una distribuzione dall'aspetto funky potrebbe essere quello di prenderne il registro solo per vedere se sembra più normale; ma come IrishStat descrive tecnicamente sopra, questo percorso è pieno di pericoli (del piolo quadrato, varietà di fori rotondi).
vector07,

1
C'è una spiegazione pertinente di questo effetto e perché è importante per gli alberi decisionali un po 'più verso verso la fascinazione
Keith,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.