Sto cercando una distribuzione meglio condotta per la variabile indipendente in questione, o per ridurre l'effetto di valori anomali o qualcos'altro?
Sto cercando una distribuzione meglio condotta per la variabile indipendente in questione, o per ridurre l'effetto di valori anomali o qualcos'altro?
Risposte:
Esito sempre a saltare in un thread con tante risposte eccellenti come questa, ma mi sembra che poche delle risposte forniscano qualsiasi motivo per preferire il logaritmo ad altre trasformazioni che "schiacciano" i dati, come una radice o reciproco.
Prima di arrivare a questo, ricapitoliamo la saggezza nelle risposte esistenti in un modo più generale. Alcune re-espressioni non lineari della variabile dipendente sono indicate quando si applica una delle seguenti condizioni:
I residui hanno una distribuzione distorta. Lo scopo di una trasformazione è quello di ottenere residui distribuiti approssimativamente simmetricamente (circa zero, ovviamente).
La diffusione dei residui cambia sistematicamente con i valori della variabile dipendente ("eteroscedasticità"). Lo scopo della trasformazione è di rimuovere quel cambiamento sistematico nella diffusione, ottenendo una "omoscedasticità" approssimativa.
Per linearizzare una relazione.
Quando la teoria scientifica indica. Ad esempio, la chimica spesso suggerisce di esprimere le concentrazioni come logaritmi (dando attività o persino il noto pH).
Quando una teoria statistica più nebulosa suggerisce che i residui riflettano "errori casuali" che non si accumulano in modo additivo.
Per semplificare un modello. Ad esempio, a volte un logaritmo può semplificare il numero e la complessità dei termini di "interazione".
(Queste indicazioni possono essere in conflitto tra loro; in questi casi è necessario un giudizio.)
Quindi, quando viene specificamente indicato un logaritmo invece di qualche altra trasformazione?
I residui hanno una distribuzione "fortemente" positivamente distorta. Nel suo libro sull'EDA, John Tukey fornisce metodi quantitativi per stimare la trasformazione (all'interno della famiglia di Box-Cox, o potenza, trasformazioni) basata su statistiche di classificazione dei residui. Dipende davvero dal fatto che se prendere il tronco simula i residui, probabilmente era la giusta forma di reespressione; in caso contrario, è necessaria un'altra re-espressione.
Quando la DS dei residui è direttamente proporzionale ai valori montati (e non a una certa potenza dei valori montati).
Quando la relazione è vicina all'esponenziale.
Quando si ritiene che i residui riflettano errori che si accumulano in modo moltiplicativo.
Volete davvero un modello in cui i cambiamenti marginali nelle variabili esplicative siano interpretati in termini di cambiamenti moltiplicativi (percentuali) nella variabile dipendente.
Infine, alcuni non motivi per utilizzare una reespressione :
Rendere gli outlier non sembrano degli outlier. Un valore anomalo è un dato che non corrisponde a una descrizione parsimoniosa e relativamente semplice dei dati. Modificare la propria descrizione per far apparire meglio i valori anomali è di solito un'inversione errata delle priorità: ottenere prima una descrizione scientificamente valida e statisticamente buona dei dati, quindi esplorare eventuali valori anomali. Non lasciare che l'outlier occasionale determini come descrivere il resto dei dati!
Perché il software l'ha fatto automaticamente. (È stato detto abbastanza!)
Perché tutti i dati sono positivi. (La positività implica spesso asimmetria positiva, ma non è necessario. Inoltre, altre trasformazioni possono funzionare meglio. Ad esempio, una radice spesso funziona meglio con i dati conteggiati.)
Per rendere i dati "cattivi" (forse di bassa qualità) sembrano ben educati.
Per essere in grado di tracciare i dati. (Se è necessaria una trasformazione per essere in grado di tracciare i dati, probabilmente è necessaria per una o più buone ragioni già menzionate. Se l'unico motivo della trasformazione è veramente per la stampa, andare avanti e farlo - ma solo per tracciare il dati. Lasciare i dati non trasformati per l'analisi.)
Dico sempre agli studenti che ci sono tre ragioni per trasformare una variabile prendendo il logaritmo naturale. Il motivo della registrazione della variabile determinerà se si desidera registrare le variabili indipendenti, dipendenti o entrambe. Per essere chiari, sto parlando del logaritmo naturale.
In primo luogo, per migliorare l'adattamento del modello, come hanno notato altri poster. Ad esempio, se i tuoi residui non sono normalmente distribuiti, prendere il logaritmo di una variabile inclinata può migliorare l'adattamento modificando la scala e rendendo la variabile più "normalmente" distribuita. Ad esempio, le entrate vengono troncate a zero e spesso presentano inclinazioni positive. Se la variabile ha un'inclinazione negativa, è possibile invertire la variabile prima di prendere il logaritmo. Sto pensando qui in particolare alle scale di Likert che vengono inserite come variabili continue. Mentre questo di solito si applica alla variabile dipendente, occasionalmente si verificano problemi con i residui (ad es. Eteroscedasticità) causati da una variabile indipendente che a volte possono essere corretti prendendo il logaritmo di quella variabile. Ad esempio, quando si esegue un modello che spiega le valutazioni del docente su un set di docenti e covariate di classe, la variabile "dimensione della classe" (ovvero il numero di studenti nella lezione) presentava valori anomali che inducevano l'eteroscedasticità perché la varianza nelle valutazioni del docente era minore in maggiore coorti che coorti più piccoli. La registrazione della variabile studente sarebbe utile, anche se in questo esempio il calcolo di errori standard robusti o l'utilizzo di minimi quadrati ponderati può facilitare l'interpretazione.
aumento del % in Y (in media). La registrazione di un solo lato dell '"equazione" di regressione porterebbe a interpretazioni alternative come indicato di seguito:
aumento / diminuzione in Y
aumento / diminuzione del % in Y
E infine potrebbe esserci una ragione teorica per farlo. Ad esempio alcuni modelli che vorremmo stimare sono moltiplicativi e quindi non lineari. La presa dei logaritmi consente di stimare questi modelli mediante regressione lineare. Buoni esempi di ciò includono la funzione di produzione di Cobb-Douglas in economia e la Mincer Equation in materia di istruzione. La funzione di produzione Cobb-Douglas spiega come gli input vengono convertiti in output:
dove
Prendendo i logaritmi di questo è facile stimare la funzione usando la regressione lineare OLS come tale:
Per ulteriori dettagli su ottimo punto di whuber merito motivi per preferire il logaritmo in alcune altre trasformazioni come una radice o reciproca, ma concentrandosi sul unico interpretabilità dei coefficienti di regressione derivanti dal log-trasformazione rispetto ad altre trasformazioni, vedi:
Oliver N. Keene. La trasformazione del registro è speciale. Statistics in Medicine 1995; 14 (8): 811-819. DOI: 10.1002 / sim.4780140810 . (PDF di dubbia legalità disponibile su http://rds.epi-ucsf.org/ticr/syllabus/courses/25/2009/04/21/Lecture/readings/log.pdf ).
Se si registra la variabile indipendente x su base b , è possibile interpretare il coefficiente di regressione (e CI) come la variazione della variabile dipendente y per b - aumento di piega di x . (I registri sulla base 2 sono quindi spesso utili in quanto corrispondono alla variazione in y per il raddoppio in x , oppure i registri sulla base 10 se x varia su molti ordini di grandezza, che è più raro). Altre trasformazioni, come la radice quadrata, non hanno un'interpretazione così semplice.
Se registri la variabile dipendente y (non la domanda originale ma una a cui sono state affrontate molte delle risposte precedenti), allora trovo l'idea di Tim Cole di "sympercents" attraente per presentare i risultati (li ho persino usati in un documento una volta), anche se non sembrano aver attecchito così tanto:
Tim J Cole. Sympercents: differenze percentuali simmetriche sulla scala 100 log (e) semplificano la presentazione dei dati trasformati in log. Statistics in Medicine 2000; 19 (22): 3109-3125. DOI: 10.1002 / 1097-0258 (20001130) 19:22 <3109 :: AID-SIM558> 3.0.CO; 2-F [Sono così felice che Stat Med abbia smesso di usare le SICI come DOI ...]
Uno in genere prende il registro di una variabile di input per ridimensionarla e modificare la distribuzione (ad esempio per renderla normalmente distribuita). Tuttavia, non può essere fatto alla cieca; devi fare attenzione quando esegui qualsiasi ridimensionamento per assicurarti che i risultati siano ancora interpretabili.
Questo è discusso nella maggior parte dei testi statistici introduttivi. Puoi anche leggere l'articolo di Andrew Gelman su "Ridimensionare gli input di regressione dividendo per due deviazioni standard" per una discussione su questo. Ha anche avuto una bella discussione su questo all'inizio di "Analisi dei dati usando la regressione e modelli multilivello / gerarchici" .
Prendere il registro non è un metodo appropriato per gestire dati / valori erratici errati.
Si tende a prendere registri dei dati quando c'è un problema con i residui. Ad esempio, se si tracciano i residui su una particolare covariata e si osserva un modello crescente / decrescente (una forma a imbuto), una trasformazione può essere appropriata. I residui non casuali di solito indicano che i presupposti del modello sono errati, ovvero dati non normali.
Alcuni tipi di dati si prestano automaticamente alle trasformazioni logaritmiche. Ad esempio, di solito prendo i registri quando mi occupo di concentrazioni o età.
Sebbene le trasformazioni non vengano utilizzate principalmente per gestire i valori anomali, aiutano in quanto i log vengono compressi dai dati.
rms
require(rms)
dd <- datadist(mydata); options(datadist='dd')
cr <- function(x) x ^ (1/3)
f <- ols(y ~ rcs(cr(X), 5), data=mydata)
ggplot(Predict(f)) # plot spline of cr(X) against X
Vorrei rispondere alla domanda di user1690130 che è stata lasciata come commento alla prima risposta il 26 ottobre 12 e recita come segue: "Che cosa circa le variabili come la densità di popolazione in una regione o il rapporto bambino-insegnante per ogni distretto scolastico o il numero di omicidi per 1000 nella popolazione? Ho visto i professori prendere il registro di queste variabili. Non mi è chiaro il motivo. Ad esempio, il tasso di omicidi non è già una percentuale? Il registro cambierebbe la percentuale della tasso? Perché dovrebbe essere preferito il registro del rapporto bambino insegnante? "
Stavo cercando di rispondere a un problema simile e volevo condividere ciò che dice il mio vecchio libro di testo sulle statistiche ( Jeffrey Wooldridge. 2006. Econometria introduttiva - Un approccio moderno, 4a edizione. Capitolo 6 Analisi di regressione multipla: ulteriori problemi. 191 ). Wooldridge consiglia:
Le variabili che compaiono in forma proporzionale o percentuale, come il tasso di disoccupazione, il tasso di partecipazione a un piano pensionistico, la percentuale di studenti che superano un esame standardizzato e il tasso di arresto per reati denunciati - possono apparire in forma originale o logaritmica , sebbene vi sia la tendenza ad usarli in forme livellate . Questo perché qualsiasi coefficiente di regressione che coinvolge la variabile originale, sia essa dipendente o indipendente, avrà un'interpretazione del cambiamento in punti percentuali. Se utilizziamo, diciamo, log ( unem ) in una regressione, dove unem è la percentuale di persone disoccupate, dobbiamo fare molta attenzione a distinguere tra una variazione in punti percentuali e una variazione percentuale. Ricorda, se unemva da 8 a 9, questo è un aumento di un punto percentuale, ma un aumento del 12,5% dal livello di disoccupazione iniziale. L'uso del log significa che stiamo osservando la variazione percentuale del tasso di disoccupazione: log (9) - log (8) = 0,118 o 11,8%, che è l'approssimazione logaritmica all'aumento effettivo del 12,5%.
Sulla base di questo e del salvadanaio sul precedente commento di Whuber alla domanda di user1690130, eviterei di usare il logaritmo di una variabile di densità o percentuale per mantenere semplice l'interpretazione a meno che l'uso del modulo di log produca un grave compromesso come la capacità di ridurre l'asimmetria della densità o tasso variabile.
Il punto di Shane secondo cui prendere il registro per gestire dati errati è ben accolto. Come lo è Colin riguardo all'importanza dei normali residui. In pratica trovo che di solito puoi ottenere residui normali se anche le variabili di input e output sono relativamente normali. In pratica ciò significa bloccare la distribuzione dei set di dati trasformati e non trasformati e assicurarsi che siano diventati più normali e / o condurre test di normalità (ad esempio test di Shapiro-Wilk o Kolmogorov-Smirnov) e determinare se il risultato è più normale. Interpretazione e tradizione sono anche importanti. Ad esempio, nella psicologia cognitiva vengono spesso utilizzate trasformazioni dei log dei tempi di reazione, tuttavia, almeno per me, l'interpretazione di un log RT non è chiara. Inoltre,