Come eseguire il test t di Student con solo la dimensione del campione, la media del campione e la media della popolazione sono noti?


28

Di Student -test richiede l'deviazione standard campionaria . Tuttavia, come si calcola per quando si conoscono solo la dimensione del campione e la media del campione?tSS

Ad esempio, se la dimensione del campione è e la media del campione è , tenterò quindi di creare un elenco di campioni identici con valori di ciascuno. Si prevede che la deviazione standard del campione sia . Ciò creerà un problema di divisione per zero nel test .49112491120t

DATI AGGIUNTIVI:
il reddito medio dei lavoratori della ACME North Factory è di . È stato riferito che un campione casuale di lavoratori in ACME South Factory aveva un reddito annuo di . Questa differenza è statisticamente significativa?$20049$112

Ho ragione nel dire che la media della popolazione è di ?$200


Che problema stai cercando di risolvere? Ci aiuterebbe se tu ci dicessi di più.
pmgjones,

Sicuro. Ho aggiunto un problema di esempio.
Kit

Risposte:


32

Questo può sorprendere molti, ma per risolvere questo problema non è necessario necessariamente stimare s . In effetti, non è necessario conoscere nulla sulla diffusione dei dati (anche se sarebbe utile, ovviamente). Ad esempio, Wall, Boen e Tweedie in un articolo del 2001 descrivono come trovare un intervallo di confidenza finito per la media di qualsiasi distribuzione unimodale basata su un singolo sorteggio.

Nel presente caso, abbiamo alcune basi per vedere la media campionaria di 112 come un prelievo da una distribuzione approssimativamente normale (vale a dire, la distribuzione campionaria della media di un semplice campione casuale di 49 stipendi). Partiamo dal presupposto implicito che esiste un numero abbastanza elevato di operai e che la loro distribuzione dei salari non è così distorta o multimodale da rendere inoperante il teorema del limite centrale. Quindi un IC conservativo al 90% per la media si estende verso l'alto

112+5.84 |112|,

che copre chiaramente la media reale di 200. (Vedi Wall et al formula 3.) Date le informazioni limitate disponibili e le ipotesi formulate qui, non possiamo quindi concludere che il 112 differisca "significativamente" da 200.

Riferimento: "Un intervallo di confidenza efficace per la media con campioni di taglia 1 e 2". The American Statistician, maggio 2001, vol. 55, n. 2: pagg. 102-105. ( pdf )


4
Sì! Ecco perché vale la pena studiare: le sfide alla nostra intuizione sono eccezionalmente educative. L'ho scoperto per la prima volta da un chiaro articolo sulla pagina Web di Carlos Rodriguez (SUNY Albany) ma questa mattina non sono riuscito a trovarlo: sembra che il server non sia attivo. Prova Google "statistiche carlos rogriguez" più tardi. (Il suo documento dovrebbe essere su omega.albany.edu/8008/confint.html , ma questo potrebbe essere un vecchio URL.)
whuber

4
Stupefacente. Non lo sapevo. Grazie per il riferimento.
Rob Hyndman,

4
Grazie - c'è qualche possibilità che stia pensando a questo articolo di Rodriguez? arxiv.org/abs/bayes-an/9504001
ars

2
Questo è fantastico Tuttavia, sono curioso di sapere perché hai applicato la formula (3) (che proviene da Edelman), che Wall et al. Descrivono come "più ampia del necessario". Verso la fine del paragrafo immediatamente prima di menzionare (3) usano 4,84 (esattamente 1 inferiore a 5,84) per un intervallo del 90%, che deriva dalla loro equazione (4). Senza dubbio mi sono perso qualcosa.
Glen_b

2
@Glen_b Al contrario, molto probabilmente mi sono perso qualcosa. Prenderò attenzione a ciò la prossima volta che avrò bisogno di questo documento, ma nel frattempo la differenza nelle costanti non influisce sull'analisi qui.
whuber

13

Questa sembra essere una domanda leggermente inventata. 49 è un quadrato esatto di 7. Il valore di una distribuzione t con 48 DoF per un test bilaterale di p <0,05 è quasi 2 (2,01).

Respingiamo l'ipotesi nulla dell'uguaglianza dei mezzi se | sample_mean - popn_mean | > 2 * StdError, ovvero 200-112> 2 * SE, quindi SE <44, ovvero SD <7 * 44 = 308.

Sarebbe impossibile ottenere una distribuzione normale con una media di 112 con una deviazione standard di 308 (o più) senza salari negativi.

Dato che i salari sono limitati di seguito, è probabile che siano inclinati, quindi supponendo che una distribuzione log-normale sarebbe più appropriata, ma richiederebbe comunque salari altamente variabili per evitare un p <0,05 in un test t.


3

μ=0,999*112+0.001*88112=200.49/1000<0.05la media del campione sarà 112. In effetti, regolando il rapporto tra lavoratori / amministratori delegati e lo stipendio del CEO, possiamo rendere arbitrariamente improbabile che un campione di 49 dipendenti disegnerà un CEO, fissando una media della popolazione a 200, e la media del campione a 112. Pertanto, senza fare alcune ipotesi sulla distribuzione sottostante, non è possibile trarre alcuna deduzione sulla media della popolazione.


2
$

1
(1) buona cattura. (2), sì, posso rendere l'installazione del problema asintoticamente perversa per risultati fissi, post hoc . colpa mia. tuttavia, non sono più sicuro di ciò che l'OP sta cercando di testare. Se sanno che la media della popolazione è 200, perché stanno provando a testarla?
shabbychef,

1
A proposito, evidentemente un salario del CEO / rapporto salariale meno pagato di 400 non è considerato estremo negli Stati Uniti. 800 è un po 'perverso, però.
shabbychef,

2

Presumo che ti riferisca a un test t di un campione. Il suo obiettivo è confrontare la media del campione con una media ipotetica. Quindi calcola (supponendo che la tua popolazione sia gaussiana) un valore P che risponda a questa domanda: se la popolazione significa davvero il valore ipotetico, quanto è improbabile che si tracci un campione la cui media sia lontana da quel valore (o oltre) di hai osservato? Naturalmente, la risposta a questa domanda dipende dalla dimensione del campione. Ma dipende anche dalla variabilità. Se i tuoi dati hanno un'enorme quantità di diffusione, sono coerenti con un'ampia gamma di mezzi della popolazione. Se i tuoi dati sono molto stretti, sono coerenti con una gamma più piccola di mezzi di popolazione.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.