Perché non usare la distribuzione T per stimare la media quando il campione è grande?


17

I corsi di statistica di base spesso suggeriscono di utilizzare una distribuzione normale per stimare la media di un parametro di popolazione quando la dimensione del campione n è grande (in genere oltre 30 o 50). La distribuzione a T dello studente viene utilizzata per campioni di dimensioni inferiori per tenere conto dell'incertezza nella deviazione standard del campione. Quando la dimensione del campione è grande, la deviazione standard del campione fornisce buone informazioni sulla deviazione standard della popolazione, consentendo una stima della distribuzione normale. Capisco quello.

Ma perché usare un preventivo quando puoi ottenere esattamente il tuo intervallo di confidenza? Indipendentemente dalle dimensioni del campione, che senso ha usare la distribuzione normale se è solo una stima di qualcosa che puoi ottenere esattamente con la distribuzione T?


@Glen_b Sì, sarebbero stimatori di intervallo. Riguardo a questi intervalli: "È necessario utilizzare la tabella di distribuzione t quando si verificano problemi di lavoro quando la deviazione standard della popolazione (σ) non è nota e la dimensione del campione è piccola (n <30)" (da web.pdx.edu/~stipakb/ download / PA551 / NormalVersusTdistribution.doc). Perché le persone non usano la distribuzione T per tutto il tempo quando la deviazione standard della popolazione non è nota (anche quando n> 30)?
Pertinax,

Risposte:


15

Giusto per chiarire in relazione al titolo, non stiamo usando la distribuzione t per stimare la media (nel senso di una stima puntuale almeno), ma per costruirne un intervallo.

Ma perché usare un preventivo quando puoi ottenere esattamente il tuo intervallo di confidenza?

È una buona domanda (fintanto che non insistiamo troppo su "esattamente", dal momento che i presupposti per la sua esatta distribuzione non saranno validi).

"È necessario utilizzare la tabella di distribuzione t quando si verificano problemi di funzionamento quando la deviazione standard della popolazione (σ) non è nota e la dimensione del campione è piccola (n <30)"

Perché le persone non usano la distribuzione T per tutto il tempo quando la deviazione standard della popolazione non è nota (anche quando n> 30)?

Considero il consiglio come - nella migliore delle ipotesi - potenzialmente fuorviante. In alcune situazioni, la distribuzione a T dovrebbe ancora essere usata quando i gradi di libertà sono molto più grandi di così.

Dove il normale è un'approssimazione ragionevole dipende da una varietà di cose (e quindi dipende dalla situazione). Tuttavia, poiché (con i computer) non è affatto difficile usare solo t , anche se i df sono molto grandi, dovresti chiederti perché è necessario preoccuparsi di fare qualcosa di diverso in n = 30.

Se le dimensioni del campione sono davvero grandi, non farà alcuna differenza evidente in un intervallo di confidenza, ma non credo che n = 30 sia sempre sufficientemente vicino a "veramente grande".


C'è una circostanza in cui potrebbe avere senso usare il normale piuttosto che la t - è allora che i tuoi dati chiaramente non soddisfano le condizioni per ottenere una distribuzione t, ma puoi ancora discutere per la normalità approssimativa della media (se n è abbastanza grande). Tuttavia, in tali circostanze, spesso la t rappresenta in pratica una buona approssimazione e può essere in qualche modo "più sicura". [In una situazione del genere, potrei essere propenso a indagare tramite simulazione.]


2
Ho letto da qualche parte in questo documento che è buono quando α = 5 % . Ma non sono sicuro che sia sufficiente. n=30α=5%
Stéphane Laurent,

1
@ StéphaneLaurent Per la maggior parte degli scopi dovrebbe andare bene al 5%, ma tali giudizi vanno molto all'individuo. Ci sono situazioni - ne ho incontrata una solo oggi - in cui quel livello di errore potrebbe essere abbastanza importante.
Glen_b -Restate Monica

2
@ StéphaneLaurent Potresti ottenere alcune informazioni decenti da Johnson, VE (2013). Standard rivisti per prove statistiche . Atti della National Academy of Sciences , 110 (48): 19313–19317. Questo articolo si inserisce nel post- Perché la maggior parte dei risultati di ricerca pubblicati sono false critiche alla ricerca ( alla How Science Goes Wrong )
Alexis,

4
@ StéphaneLaurent Il tuo articolo risponde alla mia domanda. Per la cronaca, una traduzione approssimativa della sua conclusione: "L'uso della distribuzione normale come approssimazione alla distribuzione t di Student è esclusivamente il prodotto dei limiti tecnologici del 20 ° secolo. Questi limiti sono scomparsi con i moderni software statistici, e non c'è più qualsiasi motivo per utilizzare queste approssimazioni non conservative ".
Pertinax,

2
@TheThunderChimp Caveat: se si conosce la varianza della popolazione (ad es. Stima della proporzione della popolazione - media di una variabile dicotomica), allora la normale normale ( z ) e non la distribuzione t è appropriata.
Alexis,

7

È un anacronismo storico. Ce ne sono molti nelle statistiche.

Se non avevi un computer, era difficile usare la distribuzione t, e molto più facile usare una distribuzione normale. Una volta che la dimensione del campione diventa grande, le due distribuzioni diventano simili (quanto grande è "grande" è un'altra domanda).


1
Sembra una risposta piuttosto superficiale per una domanda più profonda.
Alexis,

2
Non sono sicuro cosa intendi. Non pensi che sia questo il motivo? (La risposta più votata fa lo stesso punto, anche se in modo più eloquente ed elaborato.)
Jeremy Miles,

1
Ho annullato il voto perché la tua risposta mi legge come: Perché la storia. Breve riepilogo della tua domanda.
Alexis,

2
Grazie per avermelo fatto notare - è più bello di un downvote anonimo di cui non conoscevo il motivo.
Jeremy Miles,

3
Storicamente, uno ha "usato" queste distribuzioni cercando valori nelle tabelle. L'unico modo in cui sarebbe stato più semplice utilizzare una distribuzione normale sarebbe stato quello di non dover selezionare la colonna corrispondente ai gradi di libertà. Non è certo un problema. Ciò che limitava l'uso era che a un certo punto ha poco senso espandere i tavoli a grandi gradi di libertà: i libri sarebbero diventati troppo grandi.
whuber

1

ex2n


1
A quali dimensioni gli errori numerici nella stima t superano i guadagni derivanti dall'utilizzo?
jona,

2
sicuramente puoi calcolare i valori di t con precisione arbitraria, e quindi possono essere precisi quanto le quantità con cui li stai confrontando.
Neil G,

"In altre parole, il valore" esatto "non è" esatto ", e all'interno dell'errore di approssimazione, il valore è lo stesso del valore CDF per lo standard normale." Non sono sicuro che questa sia una regola empirica affidabile.
Shadowtalker,

2
-25,9325×1016

1
Whuber, hai ragione. Ho usato "errore numerico" in modo errato. Intendevo tutti gli errori nella gestione dei numeri: approssimazione numerica degli integrali, errori numerici per lavorare con precisione finita ed errori numerici dovuti al troncamento. Se si potesse lavorare con precisione infinita, non ci sarebbe alcuna giustificazione per sostituire la distribuzione t con la normale
VictorZurkowski,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.