Perché questo estratto dice che la stima imparziale della deviazione standard di solito non è rilevante?


14

Stavo leggendo il calcolo della stima imparziale della deviazione standard e la fonte che ho letto dichiarato

...

Mi chiedevo se qualcuno potesse chiarire il ragionamento alla base di questa affermazione, per esempio l'intervallo di confidenza non usa la deviazione standard come parte del calcolo? Pertanto, gli intervalli di confidenza non sarebbero influenzati da una deviazione standard distorta?

MODIFICARE:

Grazie per le risposte finora, ma non sono sicuro di seguire alcuni dei ragionamenti per loro, quindi aggiungerò un esempio molto semplice. Il punto è che se la fonte è corretta, allora qualcosa non va dalla mia conclusione all'esempio e vorrei che qualcuno indicasse come il valore p non dipende dalla deviazione standard.

Supponiamo che un ricercatore desiderasse verificare se il punteggio medio dei quinti selezionatori in un test nella sua città differiva dalla media nazionale di 76 con un livello di significatività di 0,05. Il ricercatore ha campionato casualmente i punteggi di 20 studenti. La media del campione era 80,85 con una deviazione standard del campione di 8,87. Ciò significa: t = (80,85-76) / (8,87 / sqrt (20)) = 2,44. Una tabella t viene quindi utilizzata per calcolare che il valore di probabilità a due code di a di 2,44 con 19 df è 0,025. Questo è al di sotto del nostro livello di significatività di 0,05, quindi rifiutiamo l'ipotesi nulla.

Quindi, in questo esempio, il valore p (e forse la tua conclusione) non cambierebbe a seconda di come hai stimato la tua deviazione standard del campione?


2
Sembra strano, per il motivo che dai. Forse potresti darci anche il paragrafo prima nel caso ci fosse qualcosa che ci manca? Una cosa che rende il bias non un grosso problema è che diventa piuttosto irrilevante quando le dimensioni del campione diventano più grandi e probabilmente non è materiale rispetto a tutti gli altri problemi, ad esempio le specifiche errate del modello che normalmente abbiamo - ma questo non è il motivo dato nella tua fonte.
Peter Ellis,

1
@PeterEllis, questo è in realtà dalla pagina di Wikipedia su "Stima imparziale della deviazione standard" ( en.wikipedia.org/wiki/Unbiased_estimation_of_standard_deviation ).
BYS2,

Risposte:


17

Sono d'accordo con Glen_b su questo. Forse posso aggiungere qualche parola per chiarire ulteriormente il punto. Se i dati provengono da una distribuzione normale (situazione iid) con una varianza sconosciuta, la statistica t è la quantità cardine utilizzata per generare intervalli di confidenza ed eseguire test di ipotesi. L'unica cosa che conta per tale inferenza è la sua distribuzione sotto l'ipotesi nulla (per determinare il valore critico) e in alternativa (per determinare il potere e il campione). Quelle sono le distribuzioni t centrali e non centrali, rispettivamente. Considerando ora per un momento il problema di un campione, il test t ha persino proprietà ottimali come test per la media di una distribuzione normale. Ora la varianza del campione è uno stimatore imparziale della varianza della popolazione, ma la sua radice quadrata è uno stimatore BIASED della deviazione standard della popolazione. Non non importa che questo stimatore BIASED entri nel denominatore della quantità cardine. Ora gioca un ruolo in quanto è uno stimatore coerente. Questo è ciò che consente alla distribuzione t di avvicinarsi allo standard normale mentre la dimensione del campione va all'infinito. Ma essere di parte per qualsiasi fisso non influisce sulle belle proprietà del test.n

Secondo me l'imparzialità è enfatizzata eccessivamente nelle lezioni di statistica introduttiva. La precisione e la coerenza degli stimatori sono le proprietà reali che meritano enfasi.

Per altri problemi in cui vengono applicati metodi parametrici o non parametrici, una stima della deviazione standard non entra nemmeno nella formula.


7
Dipende dalla stima, ma esiste solo una stima a cui si applica la t con 19 gradi di libertà e tale stima è la radice quadrata della normale stima della varianza del campione. Se si utilizza una stima diversa della deviazione standard, si ha una distribuzione di riferimento diversa per la statistica test sotto l'ipotesi nulla. Non è il t.
Michael R. Chernick,

2
@ BYS2: si noti che in termini dell'intervallo costruito nell'esempio fornito, nulla cambia moltiplicando la deviazione standard del campione per un fattore di scala (ad esempio, per renderlo imparziale). La distribuzione della statistica del test cambierebbe (leggermente) in questo caso, ma il CI costruito sarebbe esattamente lo stesso! Ora, se facessi qualche "correzione" che dipendeva dai dati stessi, ciò produrrebbe qualcosa di diverso (in generale). Vedi il mio commento sotto la risposta di Glen.
cardinale,

4
@ BYS2: nel normale caso di modello usando -statistic, c'è una bella corrispondenza tra CI e p -value. Pertanto, il valore p non cambierà se si "riscala" la deviazione standard del campione di una costante nota. Per esempio: Let ~ T b = ( ˉ X - μ ) / ( b σ ) = T / b per fisso b > 0 . Quindi, P ( ˜ T b > u ) = PtppT~b=(X¯μ)/(bσ^)=T/bb>0
P(T~b>u)=P(T>bu)
e quindi il valore critico , cioè c'è una corrispondenza uno a uno tra di loro. Ha senso? t~b,α=btα
cardinale,

1
Ciò che il Cardinale sta correttamente sottolineando è che è possibile moltiplicare la statistica t per una costante per utilizzare essenzialmente una diversa stima della deviazione standard. La statistica test non ha più la distribuzione t. È una distribuzione leggermente diversa a causa della costante. La media cambia di un fattore b, così come la deviazione standard. Quando si calcola il valore critico per la statistica del test, questo cambia in modo appropriato, come dimostra sopra.
Michael R. Chernick,

1
@ BYS2 Sì, è vero.
Michael R. Chernick,

5

Considera un intervallo calcolato sulla base di una quantità cardine, come una statistica t. Il valore medio dello stimatore per la deviazione standard in realtà non entra in esso: l'intervallo si basa sulla distribuzione della statistica. Quindi l'affermazione è giusta per quanto va.


1
Sì, ma la distribuzione della statistica non si basa sulla sua deviazione standard che nella maggior parte dei casi è sconosciuta, quindi è necessario utilizzare uno stimatore?
BYS2,

4
(+1) Glen. A @ BYS2: ci sono un paio di punti chiave qui. In primo luogo, se abbiamo una quantità fondamentale a portata di mano, fornisce un mezzo molto conveniente per costruire set di confidenza, ma spesso non esistono. Il punto centrale di una quantità fondamentale è che la distribuzione dipende esclusivamente da quantità note . In secondo luogo, la quantità fondamentale è intimamente legata al modello sottostante. Se i dati si discostano dal modello ipotizzato, la distribuzione della statistica del test potrebbe anche e la sua caratterizzazione come quantità cardine potrebbe non essere altrettanto rilevante. :)
cardinale

4

L'interpretazione è sempre parte della speculazione, ma penso che il significato implicito sia che spesso è possibile ottenere il risultato desiderato senza stimare esplicitamente la deviazione standard. In altre parole, penso che l'autore si riferisca a situazioni in cui non useresti una stima della deviazione standard, piuttosto che una stima distorta.

Ad esempio, se è possibile costruire una stima dell'intera distribuzione di una statistica, è possibile calcolare gli intervalli di confidenza senza utilizzare la deviazione standard. In effetti, per molte distribuzioni (non normali) la deviazione standard stessa (e la media) non è sufficiente per calcolare una stima dell'intervallo di confidenza. In altri casi, come ad esempio un test dei segni , non è nemmeno necessaria una stima per la deviazione standard.

(Certo, non è banale costruire una stima imparziale di una distribuzione completa, e nelle statistiche bayesiane è in realtà abbastanza comune introdurre un pregiudizio esplicitamente attraverso il precedente.)


1
Potrebbe essere interessante espandere un po 'più pienamente ciò che intendevi con l'ultimo paragrafo. Ad esempio, se posso campionare dalla distribuzione della statistica a portata di mano, allora il cdf empirico fornisce un mezzo molto facile e semplice per generare una stima imparziale puntuale della funzione di distribuzione. :)
cardinale

1
maxiXio . Si scopre che è impossibile costruire uno stimatore imparziale permaxioXio, anche se possiamo ottenere campioni imparziali per ciascuno Xio.
MLS,

1
Per essere chiari: Xio è solo una variabile casuale, e ho pensato che iopuò assumere almeno 2 valori diversi (ovvero, ci sono almeno due variabili). In caso contrario, stime imparziali permaxioXionon sono così difficili da costruire :)
MLS

2
Questo è vero e vicino al punto che stavo cercando di disegnare. La prima frase dell'ultimo paragrafo si riferisce alla costruzione di una stima imparziale di una funzione statistica non lineare da, ad esempio, un singolo campione casuale. Questo è abbastanza diverso dalla costruzione di una stima imparziale di una distribuzione completa da un campione casuale della funzione stessa. :-)
cardinale
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.