Esprimi le risposte in termini di unità originali, in dati trasformati Box-Cox


13

Per alcune misurazioni, i risultati di un'analisi sono presentati in modo appropriato sulla scala trasformata. Nella maggior parte dei casi, tuttavia, è auspicabile presentare i risultati sulla scala di misurazione originale (altrimenti il ​​lavoro è più o meno senza valore).

Ad esempio, nel caso di dati trasformati in log, si presenta un problema di interpretazione sulla scala originale perché la media dei valori registrati non è il log della media. Prendere l'antilogaritmo della stima della media sulla scala logaritmica non fornisce una stima della media sulla scala originale.

Se, tuttavia, i dati trasformati nel registro hanno distribuzioni simmetriche, valgono le seguenti relazioni (poiché il registro conserva l'ordinamento):

Mean[log(Y)]=Median[log(Y)]=log[Median(Y)]

(l'antilogaritmo della media dei valori di log è la mediana sulla scala originale delle misurazioni).

Quindi posso solo fare deduzioni sulla differenza (o sul rapporto) delle mediane sulla scala di misurazione originale.

I test t a due campioni e gli intervalli di confidenza sono più affidabili se le popolazioni sono all'incirca normali con deviazioni approssimativamente standard, quindi potremmo essere tentati di usare la Box-Coxtrasformazione per sostenere l'assunzione della normalità (penso anche che sia una varianza che stabilizzi anche la trasformazione ).

Tuttavia, se applichiamo gli strumenti t ai Box-Coxdati trasformati, otterremo inferenze sulla differenza nei mezzi dei dati trasformati. Come possiamo interpretare quelli sulla scala di misura originale? (La media dei valori trasformati non è la media trasformata). In altre parole, prendendo la trasformazione inversa della stima della media, sulla scala trasformata, non si ottiene una stima della media sulla scala originale.

Posso anche fare deduzioni solo sulle mediane in questo caso? C'è una trasformazione che mi permetterà di tornare ai mezzi (sulla scala originale)?

Questa domanda è stata inizialmente pubblicata come commento qui

Risposte:


11

Se vuoi inferenze specifiche sulla media della variabile originale, allora non usare la trasformazione Box-Cox. Le trasformazioni IMO Box-Cox sono molto utili quando la variabile trasformata ha una sua interpretazione e la trasformazione Box-Cox ti aiuta solo a trovare la scala giusta per l'analisi - questo risulta sorprendentemente spesso il caso. Due esponenti inaspettati che ho trovato in questo modo erano 1/3 (quando la variabile di risposta era il volume della vescica) e -1 (quando la variabile di risposta era respiri al minuto).

La trasformazione del registro è probabilmente l'unica eccezione a questo. La media sulla scala logaritmica corrisponde alla media geometrica nella scala originale, che è almeno una quantità ben definita.


Bene, hai anche altre eccezioni. -1 corrisponde alla media armonica, ...
kjetil b halvorsen il

9

Se la trasformazione di Box-Cox produce una distribuzione simmetrica, la media dei dati trasformati viene nuovamente trasformata nella mediana sulla scala originale. Questo vale per qualsiasi trasformazione monotonica, comprese le trasformazioni di Box-Cox, le trasformazioni IHS, ecc. Quindi le inferenze sui mezzi sui dati trasformati corrispondono alle inferenze sulla mediana sulla scala originale.

Poiché i dati originali erano distorti (o non avresti usato una trasformazione Box-Cox in primo luogo), perché vuoi deduzioni sui mezzi? Avrei pensato che lavorare con i mediani avrebbe più senso in questa situazione. Non capisco perché questo sia visto come un "problema di interpretazione sulla scala originale".


λ

Grazie. Forse perché il campione (da una popolazione che penso dovrebbe seguire una distribuzione approssimativamente simmetrica) potrebbe essere capitato di essere distorto per caso.
George Dontas,

4
Un buon esempio della necessità di fare inferenze sui mezzi, a prescindere da cosa, è offerto da alcune valutazioni del rischio ambientale. Per semplificare notevolmente, immagina di avere in programma di trasformare la terra in un parco. Si testano i suoli per alcuni composti che destano preoccupazione e, come spesso accade, si scopre che la sua concentrazione è distribuita in modo approssimativamente lognormale. Tuttavia, le persone che usano il parco - che potrebbero essere direttamente esposte a questi suoli - "campioneranno" efficacemente i suoli uniformemente a caso mentre si spostano. La loro esposizione nel tempo sarà la concentrazione media aritmetica, non la sua media geometrica.
whuber

1
A volte siamo interessati a problemi che derivano da formulazioni della quantità totale di qualcosa. Se conosci la media, puoi passare dalla media al totale (moltiplicando per il numero delle osservazioni). Non c'è modo di passare dalla mediana al totale!
George Dontas,

6

Se vuoi fare inferenza sui mezzi sulla scala originale, potresti considerare di usare l'inferenza che non usa un presupposto di normalità.

Abbi cura, comunque. È sufficiente collegare un confronto diretto dei mezzi tramite il ricampionamento (test di permutazione o bootstrap) quando i due campioni hanno varianze diverse può essere un problema se l'analisi presuppone che le varianze siano uguali (e le varianze uguali sulla scala trasformata saranno varianze di differenza sulla scala originale se i mezzi differiscono). Tali tecniche non evitano la necessità di pensare a ciò che stai facendo.

f(x+h)t[μ+(Yμ)]Yμσ2t()

t(μ)

-

Il caso più semplice è quando si ha la normalità sulla scala logaritmica e quindi un lognormale sulla scala originale. Se la tua varianza è nota (cosa che accade raramente nella migliore delle ipotesi), puoi costruire elementi logici e PI logormali sulla scala originale e puoi fornire una media prevista dalla media della distribuzione della quantità rilevante.

tt

Devi pensare molto attentamente a quale domanda stai cercando di rispondere.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.