Trasformare distribuzioni estremamente distorte


13

Supponiamo che io abbia una variabile la cui distribuzione è inclinata positivamente a un livello molto alto, in modo tale che prendere il registro non sarà sufficiente per portarlo entro l'intervallo di asimmetria per una distribuzione normale. Quali sono le mie opzioni a questo punto? Cosa posso fare per trasformare la variabile in una distribuzione normale?


2
Giusto per essere sicuri, "negativo distorto" significa che la coda lunga punta verso sinistra o destra? Se è davvero inclinato negativamente (coda lunga sinistra), la trasformazione del registro non funzionerebbe molto bene.
Penguin_Knight

6
La trasformazione reciproca è più forte del logaritmico e spesso conserva il significato, poiché le unità di misura sono appena invertite. Ad esempio, il reciproco del tempo per fare qualcosa è una sorta di velocità e viceversa. Il reciproco di miglia per gallone o km per litro ha senso. I reciproci invertono l'ordine e possono essere negati se è preferibile. Sono naturalmente parte dello schema Box-Cox con quel dettaglio in più. Tutti i valori dovrebbero essere positivi affinché questo funzioni bene. (In linea di principio, funzionerebbe con tutti i valori negativi, ma devo ancora vedere un esempio in pratica.)
Nick Cox,

2
@Aksakal Non riesco a vederlo come una buona idea. Il risultato è statisticamente significativo solo per valori > 1 . Se i valori sono conteggi, è artificiale che una trasformazione non sia definita per 0s o 1s, indipendentemente dal fatto che tali valori si verifichino nei dati. Se i valori sono misurazioni, la restrizione significa che la validità di una trasformazione dipende dalla scelta delle unità di misura, il che è assurdo, come se ln ( ln ( 0.7 ) ) non possa essere fatto perché io uso cm, ma ln ( ln (ln(ln())>1ln(ln(0.7))ln(ln(7))può essere fatto perché uso mm. (Che i logaritmi producono risultati complessi per argomenti negativi che non credo possano aiutare statisticamente.)
Nick Cox,

2
@Aksakal Troppo forte per dire "la trasformazione del registro non è uno strumento per curare l'asimmetria": se l'asimmetria è l'unico problema, i registri spesso funzionano molto bene. Se il tuo punto è che l'asimmetria delle distribuzioni marginali non deve essere un grosso problema, tendo ad essere d'accordo.
Nick Cox,

3
Sono naturalmente d'accordo, ma se avessi usato quadrati o logaritmi, non mi sarei sentito obbligato a offrire riferimenti, e allo stesso modo qui. Ma l'utilità dei reciproci, in particolare i tempi e le velocità, è stata sottolineata da (ad esempio) Tukey, JW 1977. Analisi dei dati esplorativi. Reading, MA: Addison-Wesley e in diversi suoi articoli. Miglia per gallone e galloni per miglio (o viceversa litri per km e km per litro) sono un luogo comune nelle discussioni sui dati sulle prestazioni dell'auto. Le densità e i loro reciproci sono esempi abbastanza standard in geografia e demografia.
Nick Cox,

Risposte:


13

λ

È molto facile implementarlo con la funzione LL, o se hai un pacchetto stat come SAS o MATLAB usa i loro comandi: è il comando boxcox in MATLAB e PROC TRANSREG in SAS.

Inoltre, in R questo è nel pacchetto MASS, funzione boxcox ().


5

Per l'inclinazione positiva (la coda si trova sull'estremità positiva dell'asse x), ci sono la trasformazione della radice quadrata, la trasformazione del log e la trasformazione inversa / reciproca (in ordine di gravità crescente). Pertanto, se la trasformazione del registro non è sufficiente, è possibile utilizzare il livello successivo di trasformazione. Box Cox esegue automaticamente tutte le trasformazioni in modo da poter scegliere la migliore.


-5

La maggior parte delle suite di software utilizzerà il numero di Euler come base di registro predefinita, AKA: registro naturale. È possibile utilizzare un numero di base superiore per bloccare i dati eccessivamente inclinati a destra. Il modo in cui lo si fa in termini di sintassi dipende dal software in uso.

Se è necessario tornare indietro dai valori trasformati una volta effettuate le stime, potrebbe essere un po 'più semplice utilizzare questo metodo poiché è sufficiente eseguire un operatore esponenziale sulla variabile con qualunque sia la base di log.


6
Questo non ha per niente senso. I logaritmi su due basi diverse differiscono solo per una costante moltiplicativa e la riduzione dell'asimmetria di una delle due è quindi la stessa. Quindi 1 10 100 1000 10000 è simmetrico dopo aver trasformato la base log 10 e sarebbe altrettanto simmetrico dopo la base logeo log base 2. L'unica differenza è un fattore di ridimensionamento.
Nick Cox,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.