Trasformazione dei dati proporzionali: quando arcsin radice quadrata non è sufficiente


20

Esiste un'alternativa (più forte?) Alla trasformazione della radice quadrata di arcsin per dati percentuale / proporzionali? Nel set di dati su cui sto lavorando al momento, rimane marcata eteroscedasticità dopo che ho applicato questa trasformazione, vale a dire che la trama dei residui rispetto ai valori adattati è ancora molto romboidale.

Modificato per rispondere ai commenti: i dati sono decisioni di investimento di partecipanti sperimentali che possono investire lo 0-100% di una dotazione in multipli del 10%. Ho anche esaminato questi dati usando la regressione logistica ordinale, ma vorrei vedere cosa avrebbe prodotto un glm valido. Inoltre, ho potuto vedere la risposta utile per il lavoro futuro, dato che la radice quadrata di arcsin sembra essere usata come soluzione a misura unica per tutte le mie attività nel mio campo e non avevo trovato nessuna alternativa impiegata.


2
Da dove provengono i valori adattati? Qual è il tuo modello? arcsin sta stabilizzando (approssimativamente) la varianza per il binomio, ma si avranno comunque effetti "edge" se le proporzioni sono vicine a 0 o 1 - perché la parte normale viene effettivamente troncata.
Probislogic,

1
Vorrei raddoppiare ciò che ha detto @probabilityislogic e informarsi anche sulla provenienza dei dati. Potrebbe esserci qualcosa nel problema che suggerisce un'altra trasformazione, o un altro modello, che potrebbe essere più appropriato e / o interpretabile.
JMS

1
@prob @JMS Perché non lasciamo che l'OP, che credo sia abbastanza informato sulle statistiche, provi prima il percorso di trasformazione? Quindi, se non funziona, sarebbe utile iniziare un nuovo thread in cui il problema è presentato in modo meno restrittivo. I tuoi commenti sarebbero appropriati in quel contesto.
whuber

1
Ci sono enormi problemi con la trasformazione della radice quadrata di arcsine, descritta senza mezzi termini nella carta dal titolo divertente L'arcosina è asinina: l'analisi delle proporzioni in ecologia
mkt - Reinstate Monica

1
@mkt Grazie per il riferimento, questo è andato direttamente nella lezione del prossimo termine sui modelli lineari generalizzati.
Freya Harrison,

Risposte:


28

Sicuro. John Tukey descrive una famiglia di (crescenti, one-to-one) trasformazioni in EDA . Si basa su queste idee:

  1. Essere in grado di estendere le code (verso 0 e 1) come controllato da un parametro.

  2. Tuttavia, per abbinare i valori originali (non trasformati) vicino al centro ( ), il che semplifica l'interpretazione della trasformazione.1/2

  3. Per rendere la reespressione simmetrica di circa Cioè, se viene ri-espresso come f ( p ) , allora 1 - p verrà ri-espresso come - f ( p ) .1/2.pf(p)1-p-f(p)

Se si inizia con qualsiasi aumento monotono funzione g:(0,1)R differenziabile in 1/2 si può regolare per soddisfare il secondo e il terzo criterio: basta definire

f(p)=g(p)-g(1-p)2g'(1/2).

Il numeratore è esplicitamente simmetrico (criterio (3) ), poiché scambiando p con 1-p inverte la sottrazione, annullandola in tal modo. Per vedere che (2) è soddisfatta, nota che il denominatore è proprio il fattore necessario per rendere f'(1/2)=1. Ricordiamo che le approssima derivati comportamento locale di una funzione con una funzione lineare; una pendenza di 1=1:1 significa quindi che f(p)p(più una costante -1/2 ) quando p è sufficientemente vicino a 1/2. Questo è il senso in cui i valori originali vengono "abbinati vicino al centro."

Tukey chiama questa la versione "piegata" di g . La sua famiglia è costituita dalle trasformazioni di potenza e log g(p)=pλ dove, quando λ=0 , consideriamo g(p)=log(p) .

Diamo un'occhiata ad alcuni esempi. Quando λ=1/2 otteniamo la radice piegata o "froot," f(p)=1/2(p-1-p). Quandoλ=0abbiamo il logaritmo piegato, o "flog",f(p)=(log(p)-log(1-p))/4. Evidentemente questo è solo un multiplo costante dellatrasformazionelogit,log(p1-p).

Grafici per lambda = 1, 1/2, 0 e arcsin

In questo grafico la linea blu corrisponde a λ=1 , la linea rossa intermedia a λ=1/2 , e la linea verde estremo λ=0 . La linea d'oro tratteggiata è la trasformazione di arcsine, arcsin(2p-1)/2=arcsin(p)-arcsin(1/2). Il "matching" piste (criterio(2)) fa sì che tutti i grafici a coincidere vicinop=1/2.

I valori più utili del parametro λ trovano tra 1 e 0 . (È possibile effettuare le code ancora più pesante con i valori negativi di λ , ma questo uso è raro.) λ=1 non fare nulla, tranne recenter i valori ( f(p)=p-1/2 ). Quando λ riduce verso lo zero, le code vengono tirate ulteriormente verso ± . Questo soddisfa il criterio n. 1. Pertanto, scegliendo un valore appropriato di λ , è possibile controllare la "forza" di questa reespressione nelle code.


whuber, conosci qualche funzione R che esegue automaticamente questa?
Giovanni,

1
@ John No, non lo so, ma è abbastanza semplice da implementare.
whuber

2
Non lo vedevo sostanzialmente difficile, ma sarebbe bello se ci fosse qualcosa come le trasformazioni boxcox che tracciano automaticamente la migliore selezione per lambda. Sì, non è terribile da implementare ...
John,

2
Grazie whuber, questo è esattamente il tipo di cosa che stavo cercando e il grafico è davvero utile. Sono assolutamente d'accordo con John sul fatto che qualcosa come il boxcox sarebbe utile, ma questo sembra abbastanza semplice da superare.
Freya Harrison,

7

Un modo per includere è includere una trasformazione indicizzata. Un modo generale è utilizzare qualsiasi funzione di distribuzione cumulativa simmetrica (inversa), in modo che e F ( x ) = 1 - F ( - x ) . Un esempio è la distribuzione standard degli studenti, con ν gradi di libertà. Il parametro v controlla la velocità con cui la variabile trasformata si sposta all'infinito. Se imposti v = 1 allora hai la trasformazione arctan:F(0)=0.5F(X)=1-F(-X)νvv=1

X=un'rctun'n(π[2p-1]2)

Questo è molto più estremo di arcsine e più estremo della trasformazione logit. Si noti che la trasformazione logit può essere approssimata approssimativamente usando la distribuzione t con . SO in qualche modo fornisce un collegamento approssimativo tra trasformazioni logit e probit ( ν = ) e una loro estensione a trasformazioni più estreme.ν8ν=

Il problema con queste trasformazioni è che danno quando la proporzione osservata è uguale a 1 o 0 . Quindi in qualche modo è necessario ridurli in qualche modo: il modo più semplice è aggiungere + 1 "successi" e + 1 "fallimenti".±10+1+1


2
Per vari motivi, Tukey consiglia di aggiungere +1/6 ai conteggi. Nota che questa risposta è un caso speciale dell'approccio pieghevole di Tukey che ho descritto: qualsiasi CDF con PDF positivo è monotonico; piegare un CDF simmetrico lo lascia invariato.
whuber

2
Mi chiedevo da dove venisse la tua approssimazione approssimativa. Come arrivare a ? Non riesco a riprodurre questo. Accetto che il ravvicinamento deve abbattere agli estremi della p vicino a 0 o 1 , ma trovo che ν = 5 è una partita molto meglio per il logit per p vicino a 1 / 2 . Stai forse ottimizzando qualche misura di una differenza media tra il CDF di t ν e logit ? ν8p01ν=5p1/2tνlogit
whuber

2
t8f(x)=ex(1+ex)25

5
@whuber Uno dei motivi per aggiungere 1/6 ai conteggi è che il conteggio "iniziato" risultante si avvicina al posteriore mediano ipotizzando una distribuzione binomiale con Jeffreys precedente (scrivo un po 'su questo qui: sumsar.net/blog/2013/09/ a-bayesian-twist-on-tukeys-flogs ). Tuttavia non so se questo è stato il motivo per cui Tukey ha aggiunto 1/6. Sai quale potrebbe essere stata la sua ragione?
Rasmus Bååth,

4
XXio<XXio=X(Xio)
whuber
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.