Perché stabilizziamo la varianza?


15

Mi sono imbattuto nella varianza stabilizzando la trasformazione mentre leggevo il metodo Kaggle Essay Eval . Usano una trasformazione di stabilizzazione della varianza per trasformare i valori kappa prima di prendere la loro media e poi trasformarli indietro. Anche dopo aver letto il wiki sulle trasformazioni di stabilizzazione della varianza non riesco a capire, perché stabilizziamo effettivamente le varianze? Che vantaggio ne trarremo?


6
Di solito l'intento è di rendere la varianza (asintotica) indipendente dal parametro di interesse. Ciò è particolarmente importante in termini di inferenza in cui è necessario conoscere la distribuzione di riferimento per calcolare le relative quantità di interesse.
cardinale il

Risposte:


13

Ecco una risposta: di solito, il modo più efficace per condurre un'inferenza statistica è quando i tuoi dati sono inididiti. In caso contrario, stai ottenendo diverse quantità di informazioni da diverse osservazioni, e questo è meno efficiente. Un altro modo di vedere è quello di dire che se puoi aggiungere ulteriori informazioni alla tua inferenza (cioè, la forma funzionale della varianza, attraverso la trasformazione stabilizzante la varianza), generalmente migliorerai l'accuratezza delle tue stime, almeno asintoticamente. In campioni molto piccoli, preoccuparsi della modellizzazione della varianza può aumentare la distorsione del piccolo campione. Questa è una sorta di argomento econometrico di tipo GMM: se aggiungi momenti aggiuntivi, la tua varianza asintotica non può aumentare; e il tuo bias del campione finito aumenta con i gradi di libertà troppo identificati.

Un'altra risposta è stata data dal cardinale: se hai una varianza sconosciuta nella tua espressione di varianza asintotica, la convergenza sulla distribuzione asintotica sarà più lenta e dovresti stimare tale varianza in qualche modo. Pre-pivottare i tuoi dati o le tue statistiche di solito aiuta a migliorare l'accuratezza delle approssimazioni asintotiche.


Penso di aver compreso la prima frase nella tua risposta e mi piace in modo intuitivo. C'è un nome per questa osservazione che potrei google? Vorrei trovare alcuni esperimenti di pensiero o esempi che mostrino cosa succede quando si hanno diverse quantità di informazioni in diverse osservazioni e come ciò sia inefficiente
Pushpendre,

Ne discute il testo di Korn & Graubard (1999) sulle statistiche dell'indagine.
StasK

f-1(1nΣiof(κio))

@PushpendreRastogi potresti voler leggere l'articolo di Wikipedia proprio su questa trasformazione. Fu introdotto da Fisher per stabilizzare la varianza di un coefficiente di correlazione empirica (tra variabili normali). In tal caso, la variabile trasformata sarà approssimativamente normale, con una varianza che dipende solo dalla dimensione del campione e non dal coefficiente di correlazione sconosciuto (ecco perché questo "stabilizza" la varianza).
Elvis,

@Elvis, ho fornito l'esempio di correlazione nell'articolo di Wikipedia sulla statistica pivotal ( en.wikipedia.org/wiki/Pivotal_statistic ). [Come mai hai fornito il bel link nel commento? Ho provato un href, sembrava brutto.]
StasK
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.