Perché la trasformazione radice quadrata è consigliata per i dati di conteggio?


57

Si consiglia spesso di prendere la radice quadrata quando si hanno i dati di conteggio. (Per alcuni esempi su CV, vedi la risposta di @ HarveyMotulsky qui , o la risposta di @ whuber qui .) D'altra parte, quando si adatta un modello lineare generalizzato con una variabile di risposta distribuita come Poisson, il registro è il collegamento canonico . È un po 'come prendere una trasformazione del registro dei dati di risposta (anche se più precisamente sta prendendo una trasformazione del registro di , il parametro che regola la distribuzione della risposta). Quindi, c'è una certa tensione tra questi due. λ

  • Come conciliare questa (apparente) discrepanza?
  • Perché la radice quadrata sarebbe migliore del logaritmo?

Risposte:


45

La radice quadrata è approssimativamente stabilizzante alla varianza per il Poisson . Esistono diverse varianti sulla radice quadrata che migliorano le proprietà, come l' aggiunta di38 prima di prendere la radice quadrata o Freeman-Tukey ( - anche se spesso viene adattato anche alla media).X+X+1

inserisci qui la descrizione dell'immagine

La trasformazione della radice quadrata migliora in qualche modo la simmetria, sebbene non così come il potere fa [1]:23

inserisci qui la descrizione dell'immagine

Se vuoi particolarmente vicino alla normalità (fintanto che il parametro di Poisson non è veramente piccolo) e non ti interessa / puoi adattarti all'eteroscedasticità, prova la potenza di .23

Il collegamento canonico non è generalmente una trasformazione particolarmente buona per i dati di Poisson ; log zero è un problema particolare (un altro è l'eteroschedasticità; puoi anche ottenere l'asimmetria di sinistra anche quando non hai 0). Se i valori più piccoli non sono troppo vicini a 0, può essere utile per linearizzare la media. È una buona "trasformazione" per la media condizionale della popolazione di un Poisson in numerosi contesti, ma non sempre dei dati di Poisson. Tuttavia, se si desidera trasformare, una strategia comune è quella di aggiungere una costante che evita il problema . In tal caso dovremmo considerare quale costante aggiungere. Senza allontanarsi troppo dalla domanda, valori di compresi tray*=log(y+c)0c0.4e funzionano molto bene (ad es. in relazione alla distorsione nella stima della pendenza) attraverso un intervallo di valori . Di solito uso dato che è semplice, con valori intorno a spesso vanno leggermente meglio.0.5μ120.43

Per quanto riguarda il motivo per cui le persone scelgono una trasformazione piuttosto che un'altra (o nessuna) - è davvero una questione di cosa stanno facendo per raggiungere.

[1]: Trame modellate secondo le trame di Henrik Bengtsson nel suo volantino "Modelli lineari generalizzati e residui trasformati" vedere qui (vedere la prima diapositiva a pag. 4). Ho aggiunto un po 'di jitter e ho omesso le linee.


1
( - , + )(0,+)(-,+)λ

2
X'y

1
+1 La radice quadrata è semplicemente un punto di partenza per gestire i dati di conteggio. Anche il logaritmo è una buona scelta. I dati ti diranno spesso quale ha più successo nell'ottenere una descrizione utile e sintetica. Gung, nella risposta a cui ti riferisci , la dimostrazione che la radice quadrata era una buona scelta risiede nella distribuzione simmetrica dei residui non periferici che appare nella figura a destra. Quando vari i parametri della simulazione, scoprirai che la simmetria viene mantenuta.
whuber

1
@Glen Non ho detto che i log siano sempre una buona scelta. Ma a volte sono superiori alle radici. Quando compaiono zero conteggi quindi sì, è necessario un logaritmo "avviato" . Altri thread qui hanno discusso dei modi per ottenere un valore iniziale . Quando non ci sono conteggi zero nei dati, non ci saranno problemi con i log.
whuber

2
X+3/8XX+ccX+3/8
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.