Scegli tra


20

Antefatto: sto dando una presentazione ai colleghi al lavoro sui test delle ipotesi e ne capisco la maggior parte, ma c'è un aspetto che mi sto annodando cercando di capire e spiegare agli altri.

Questo è quello che penso di sapere (per favore correggilo se sbagli!)

  • Le statistiche che sarebbero normali se fosse nota la varianza, seguono una distribuzione se la varianza è sconosciutat
  • CLT (Teorema del limite centrale): la distribuzione campionaria della media campionaria è approssimativamente normale per sufficientemente grande (potrebbe essere , potrebbe essere fino a per distribuzioni fortemente distorte)30 300n30300
  • La distribuzione può essere considerata normale per gradi di libertà> 30t>30

Si utilizza -test se:z

  1. Popolazione normale e varianza nota (per qualsiasi dimensione del campione)
  2. Popolazione normale, varianza sconosciuta e (a causa del CLT)n>30
  3. Binomio della popolazione, ,n q > 10np>10nq>10

Si utilizza il test se:t

  1. Popolazione normale, varianza sconosciuta en<30
  2. Nessuna conoscenza di popolazione o varianza e , ma i dati del campione sembrano normali / superano i test ecc., Quindi la popolazione può essere considerata normalen<30

Quindi sono rimasto con:

  • Per campioni e (?), Nessuna conoscenza della popolazione e della varianza è nota / sconosciuta.< 300>30<≈300

Quindi le mie domande sono:

  1. A quale dimensione del campione puoi supporre (dove nessuna conoscenza sulla distribuzione o varianza della popolazione) che la distribuzione campionaria della media sia normale (cioè che il CLT abbia preso il via) quando la distribuzione campionaria sembra non normale? So che alcune distribuzioni hanno bisogno di , ma alcune risorse sembrano dire usare -test ogni volta che ...z n > 30n>300zn>30

  2. Per i casi di cui non sono sicuro, presumo di guardare i dati per normalità. Ora, se i dati del campione sembrano normali, uso -test (poiché si assume che la popolazione sia normale e poiché )?n > 30zn>30

  3. Che dire di dove i dati di esempio per i casi di cui non sono sicuro non sembrano normali? Ci sono circostanze in cui useresti ancora un test o -test o cerchi sempre di trasformare / usare test non parametrici? So che, a causa di CLT, ad un valore di la distribuzione campionaria della media si avvicinerà alla norma ma i dati del campione non mi diranno quale sia quel valore di ; i dati del campione potrebbero non essere normali mentre la media del campione segue un valore normale / . Ci sono casi in cui dovresti trasformare / utilizzare un test non parametrico quando in realtà la distribuzione campionaria della media era normale / ma non riuscivi a dirlo? z n n t ttznntt


4
" potrebbe essere fino a 300 per distribuzioni altamente distorte " ... in alcuni casi, potrebbe essere un diavolo di molto di più; o potrebbe non succedere mai. Scegli qualsiasi e ti mostrerò un caso in cui non è abbastanza. n
Glen_b

Grazie Glen_b - quindi controlla sempre che i dati del campione appaiano normali per usare i parametri?
Hatti,

@Hatti no! Il test T è valido quando i dati appaiono non normali.
AdamO,

Risposte:


24

@AdamO ha ragione, semplicemente usi sempre il test t se non conosci la deviazione standard della popolazione a priori. Non devi preoccuparti di quando passare a z -test, perché la distribuzione t 'cambia' per te. Più specificamente, il t -distribuzione converge al normale, quindi è la corretta distribuzione ad uso ad ogni N .

C'è anche una confusione qui sul significato della linea tradizionale in N=30 . Esistono due tipi di convergenza di cui le persone parlano:

  1. Il primo è che la distribuzione campionaria della statistica del test (cioè, t ) calcolata da dati grezzi normalmente distribuiti (all'interno del gruppo) converge in una distribuzione normale come N nonostante il fatto che la SD sia stimata dai dati. (La distribuzione t si occupa di questo per te, come notato sopra.)
  2. Il secondo è che la distribuzione campionaria della media di dati grezzi non distribuiti normalmente (all'interno del gruppo) converge in una distribuzione normale (più lentamente di quanto sopra) come N . Le persone contano sul Teorema del limite centrale per occuparsene. Tuttavia, non vi è alcuna garanzia che converrà all'interno di una dimensione del campione ragionevole - non vi è certamente alcun motivo per credere che 30 (o 300 ) sia il numero magico. A seconda della grandezza e della natura della non normalità, può richiedere molto tempo (cfr. @ Risposta di Macro qui: regressione quando i residui OLS non sono normalmente distribuiti). Se si ritiene che il suo (all'interno del gruppo) i dati grezzi non sono molto normale, può essere meglio utilizzare un diverso tipo di prova, come ad esempio il Mann-Whitney U -test . Si noti che con dati non normali, l' U test Mann-Whitney è probabilmente più potente del test t , e può esserlo anche se il CLT ha preso il via. (Vale anche la pena sottolineare che test per la normalità è probabile che ti porti fuori strada, vedi: Il test della normalità è 'essenzialmente inutile'? )

Ad ogni modo, per rispondere alle tue domande in modo più esplicito, se ritieni che i tuoi dati grezzi (all'interno del gruppo) non siano normalmente distribuiti, usa l' U test di Mann-Whitney ; se ritieni che i tuoi dati siano normalmente distribuiti, ma non conosci la SD a-priori, usa t -test; e se ritieni che i tuoi dati siano normalmente distribuiti e conosci la SD a-priori, usa z -test.

Può aiutarti a leggere la recente risposta di @ GregSnow qui: Interpretazione del valore p nel confrontare le proporzioni tra due piccoli gruppi in R anche riguardo a questi problemi.


Grazie, questo è stato davvero utile, sapevo che lo stavo complicando troppo mentre il test t per n più grandi si avvicina al normale. Quindi, a rigor di termini, anche se n fosse 1000 il test t dovrebbe essere usato se la SD non fosse nota a priori?
Hatti,

Prego. A rigor di termini, , ma nota che sarà molto difficile dire la differenza tra la distribuzione e la distribuzione normale a quel punto. t
gung - Ripristina Monica

Sì, sicuramente. Mi dispiace di essere stato così schizzinoso, solo difficile provare a pensare a come spiegarlo agli altri in un modo piuttosto in bianco e nero. Apprezzo il tuo aiuto grazie!
Hatti,

Si noti inoltre che il calcolo dei risultati del test t è a tutti gli effetti senza costi di calcolo extra significativi al giorno d'oggi. Non stiamo più cercando le statistiche dei test in alcune tabelle cartacee che non possono coprire tutti i casi, stiamo solo chiedendo al computer. Quindi, perché preoccuparsi e preoccuparsi se si potrebbe anche ottenere gli stessi risultati usando un test z?
Björn,

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.