Si consigliano trasformazioni di root?


12

Il mio collega vuole analizzare alcuni dati dopo aver trasformato la variabile di risposta elevandola alla potenza di (ovvero ).18y0.125

Non mi sento a mio agio con questo, ma faccio fatica a capire perché. Non riesco a pensare a nessuna logica meccanicistica per questa trasformazione. Né l'ho mai visto prima, e temo che forse gonfia i tassi di errore di Tipo I o qualcosa del genere - ma non ho nulla per sostenere queste preoccupazioni!

Inoltre, il mio collega scopre che questi modelli trasformati superano i modelli non trasformati in un confronto AIC. Questo, di per sé, giustifica il suo utilizzo?


9
A proposito, assomiglia molto a per molti intervalli di . La trasformazione del registro è spesso giustificata in molti casi (ma spesso anche in casi ingiustificati). y1/8log(y)y
Cliff AB,

2
Questa è una discussione correlata
user603

5
Non è possibile confrontare in modo significativo AIC tra modelli con variabili dipendenti trasformate. (Trasformare la variabile indipendente va bene.)
Stephan Kolassa,

5
@CliffAB Ha ragione. La principale differenza pratica tra piccoli poteri positivi e il logaritmo è che puoi prendere poteri pari a zero. Quando ci sono alcuni zeri nei dati (forse a causa dell'imprecisione nel modo in cui i numeri sono stati registrati), a volte una piccola potenza (0,1 o anche 0,01) funziona come sostituto del logaritmo. (Meglio ancora: usa la trasformazione Box-Cox per piccole .) Poiché pochissime leggi naturali comportano un potere di 1/8, tuttavia, e molte coinvolgono fenomeni esponenziali, usando un log può a volte forniscono una migliore comprensione e interpretabilità di un piccolo potere. y=(xp1)/pp
whuber

3
Questo è un piccolo riff sull'idea che questa trasformazione può sostituire i logaritmi se si verificano zeri. Un collegamento logaritmico per modelli lineari generalizzati afferma che le risposte medie variano in modo esponenziale, ma non presume che tutti i loro valori siano positivi. Quindi tollera alcuni zeri nei dati. All'incirca l'implicazione è che dovrebbero o sarebbero positivi se potessero: ad esempio zeri segnalati (zero campioni nel campione, concentrazioni zero secondo la macchina) a volte significano non rilevati. Nonostante il suo meraviglioso nome, Box-Cox sembra ipervenduto ogni volta che c'è un collegamento naturale nei GLM.
Nick Cox,

Risposte:


10

È pratica comune applicare trasformazioni di potenza (Tukey, Box-Cox) con valori arbitrari sulla risposta. Da quel punto di vista, non vedo particolari preoccupazioni riguardo al tuo valore di 1/8 - se quella trasformazione ti dà buoni residui, provaci.

Naturalmente, qualsiasi trasformazione cambia la relazione funzionale che si adatta, e potrebbe essere che 1/8 non abbia senso meccanicamente, ma ciò non sarebbe una preoccupazione per me quando lo scopo non è estrapolare o adattare i parametri di un fisico legge, ma per ottenere un valore p adeguato sul segno dell'effetto (direi che è il normale caso d'uso in una regressione). A tale scopo, l'unica preoccupazione è che la funzione si adatti ai dati nel dominio dei valori del predittore (media wrt e variazione residua) e che sia facile da verificare.

Se non si è sicuri del valore migliore per la trasformazione di potenza e si desidera confrontare tra diverse opzioni, non è necessario confrontare direttamente i valori di AIC / probabilità poiché la trasformazione di potenza modifica la scala della risposta. Fortunatamente, risulta che è relativamente semplice calcolare una correzione per la trasformazione, in modo tale che diverse trasformazioni possano essere confrontate tramite la loro probabilità (corretta) (vedi, ad esempio qui ).

In R, questo è implementato in MASS :: boxcox - questo è un modo conveniente per scegliere il giusto valore per la potenza.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.