Test statistico per un valore significativamente più lontano dalla media della popolazione: è un test Z o un test T?

Quanto è significativo un valore rispetto a un elenco di valori? Nella maggior parte dei casi i test statistici implicano il confronto di un set di campioni con una popolazione. Nel mio caso il campione è realizzato per un valore e lo confrontiamo con la popolazione.

Sono un dilettante nel test delle ipotesi statistiche di fronte forse al problema più elementare. Non è solo un test, ma centinaia. Ho uno spazio per i parametri e devo fare un test di significatività per ogni punto. Sia il valore che l'elenco di sfondo (popolazione) sono generati per ogni combinazione di parametri. Quindi sto ordinando questo per valore p e trovo interessanti combinazioni di parametri. In effetti, è importante anche trovare combinazioni di parametri in cui questa p-val è elevata (non significatività).

Facciamo quindi un singolo test: ho un valore calcolato generato da un set selezionato e un set di valori di base calcolati scegliendo un set di allenamento casuale. Il valore calcolato è 0,35 e il set di sfondo è (probabilmente?) Normalmente distribuito con una media di 0,25 e uno std molto stretto (e-7). In realtà non ho conoscenza della distribuzione, poiché i campioni sono calcolati da qualcos'altro, non sono campioni di numeri casuali da una certa distribuzione, quindi lo sfondo è la parola corretta per questo.

L'ipotesi nulla sarebbe che "la media del test del campione è uguale al mio valore calcolato, di 0,35". Quando dovrei considerare questo come un test Z o un test T? Voglio che il valore sia significativamente superiore alla media della popolazione, quindi è un test a coda singola.

Sono un po 'confuso su cosa considerare come campione: o ho un campione di uno (l'osservazione) e l'elenco di sfondo come popolazione O il mio campione è l'elenco di sfondo e lo sto confrontando con l'intero (non campionato) popolazione che secondo l'ipotesi nulla dovrebbe avere la stessa media. Una volta deciso, il test va in diverse direzioni immagino.

Se si tratta di un test T, come posso calcolare il suo valore p? Vorrei calcolarlo da solo piuttosto che utilizzare una funzione R / Python / Excel (so già come farlo) quindi devo prima stabilire la formula corretta.

T = Z / s,

$T=Z/s,$

Z = \frac{\bar{X}}{\frac{σ}{\sqrt{n}}}

$Z=\frac{\bar{X}}{\frac{\sigma}{\sqrt{n}}}$

s = \hat{σ} / σ

$s=\hat{\sigma}/\sigma$

Come calcolo un valore p? (vale a dire non usare una funzione R / Python / Excel o una ricerca nella tabella dei valori p ma in realtà calcolarlo in base a una formula, perché voglio sapere cosa sto facendo)
Come decido una soglia di significatività in base alla dimensione del mio campione? (una formula sarebbe carina)

hypothesis-testing statistical-significance

— grokkaine
fonte

10^{6}

$10^6$

0.35 = 10^{6} \times 10^{- 7} + 0.25

$0.35 = 10^6 \times 10^{-7} + 0.25$

0.35

$0.35$

@grokkaine - Questa domanda solleva problemi interessanti e sembra preziosa, ma lo troverei ancora più prezioso se lo modificassi un po ', avendo cura di essere molto preciso con i tuoi termini.

— rolando2,

Non è solo un test, ma centinaia. Ho uno spazio per i parametri e devo fare un test di significatività per ogni punto. Sia il valore che l'elenco di sfondo (popolazione) sono generati per ogni combinazione di parametri. Quindi sto ordinando questo per valore p e trovo interessanti combinazioni di parametri. In effetti, è importante anche trovare combinazioni di parametri in cui questa p-val è elevata (non significatività). Proverò a modificare il mio post un po 'più tardi.

— Grokkaine,

Risposte:

Fai una domanda interessante. Per prima cosa, se hai un'osservazione di 0,35, una media di 0,25 e una deviazione standard di 1/10 ^ 7 (è così che interpreto il tuo e ^ -7 bit) non hai davvero bisogno di entrare in nessuna ipotesi esercizio di test. La tua osservazione 0,35 è molto diversa dalla media di 0,25 dato che sarà una deviazione standard di diverse migliaia dalla media e che probabilmente saranno diversi milioni di errori standard dalla media.

La differenza tra il test Z e il test t si riferisce principalmente alla dimensione del campione. Con campioni inferiori a 120, è necessario utilizzare il test t per calcolare i valori p. Quando le dimensioni del campione sono superiori a ciò, non fa molta differenza se si utilizza quello. È divertente calcolarlo in entrambi i modi indipendentemente dalla dimensione del campione e osservare quanta differenza c'è tra i due test.

Per quanto riguarda il calcolo delle cose, puoi calcolare la stat dividendo la differenza tra la tua osservazione e la media e dividendola per l'errore standard. L'errore standard è la deviazione standard divisa per la radice quadrata della dimensione del campione. Ora hai il tuo stat. Per calcolare il valore ap penso che non ci sia alternativa che cercare il tuo valore t all'interno della tabella di test. Se si accetta un semplice TDIST alternativo di Excel (valore stat t, DF, 1 o 2 per 1 o 2 tail valore p) fa il trucco. Per calcolare il valore ap usando Z, la formula di Excel per un test di coda 1 è: (1 - NORMSDIST (valore Z). Il valore Z è lo stesso di t stat (o il numero di errore standard lontano dalla media).

Proprio come un avvertimento, questi metodi di verifica delle ipotesi possono essere distorti dalla dimensione del campione. In altre parole, maggiore è la dimensione del campione, minore è l'errore standard, maggiore è il valore Z o t stat risultante, più basso è il valore p e maggiore è il significato statistico. Come scorciatoia in questa logica, campioni di grandi dimensioni comporteranno un elevato significato statistico. Tuttavia, un elevato significato statistico associato a campioni di grandi dimensioni può essere completamente irrilevante. In altre parole, statisticamente significativo è una frase matematica. Non significa necessariamente significativo (per dizionario Webster).

Per allontanarsi da questa trappola di grandi dimensioni del campione, gli statistici sono passati ai metodi Dimensione effetto. Quest'ultimo usa come unità di distanza statistica tra due osservazioni la deviazione standard invece dell'errore standard. Con un tale quadro le dimensioni del campione non avranno alcun impatto sul significato statistico. L'uso della dimensione dell'effetto tenderà anche ad allontanarti dai valori di p e verso intervalli di confidenza che possono essere più significativi in un inglese semplice.

— sympa
fonte

Grazie per la risposta, sono un po 'confuso su cosa considerare come campione: o ho un campione di uno (l'osservazione) e l'elenco di background come popolazione O il mio campione è l'elenco di background e lo sto confrontando con l'intera popolazione (non campionata) che secondo l'ipotesi nulla dovrebbe avere la stessa media. Una volta deciso, il test va in diverse direzioni immagino.

— grokkaine,

Usa tutte le osservazioni che hai come campione (come le chiami). E calcola la distanza statistica tra la tua unica osservazione e la media del campione come definito. Calcola la deviazione standard e l'errore standard del tuo campione. E la distanza statistica della tua osservazione dalla media è: (Osservazione - Media) / Errore standard = t stat. Usa la funzione TDIST di Excel (DF, t stat, 1 (per una coda)) e ottieni il tuo valore p.

— Sympa,

I test di ipotesi si riferiscono sempre alla popolazione. Se vuoi fare una dichiarazione sul campione, non hai bisogno di testare (confronta solo quello che vedi). I frequentatori credono negli asintotici, quindi finché la dimensione del campione è grande, non preoccuparti della distribuzione dei tuoi dati. Z-test e T-test fanno sostanzialmente lo stesso in termini di calcolo della statistica del test, solo i valori critici sono ottenuti da diverse distribuzioni (Normal vs Student-T). Se la dimensione del campione è grande, la differenza è marginale.

Per quanto riguarda Q1: basta cercare dalla distribuzione T con n-1 gradi di libertà, dove n è la dimensione del campione.

Riguardo a Q2: si calcola la soglia in base al livello di significatività desiderato per un test Z e in base al livello di significatività sulla dimensione del campione in caso di test T.

Ma seriamente, dovresti rivedere alcune basi.

— joint_p
fonte

Grazie per la risposta. In effetti era la t-dist che stavo usando, ma volevo anche capire "perché" lo uso. Come si definisce un campione "grande" e come si differenzia il valore p. Ancora più importante, come facciamo a sapere quando una distribuzione è normale o student-t? Esiste un test statistico per questo? Forse usare il test kolmogorov-smirnov per il secondo e hmm .. cosa usare per il primo?

— Grokkaine,

grande ... bene Z e t convergono a partire da n = 60. Basta confrontare i valori p ottenuti da entrambi i test. L'assunzione della distribuzione t / normale non dipende dalla distribuzione dei dati sottostanti. Si basa sul presupposto che la distribuzione campionaria della media sia normale. Anche se la variabile che stai testando è Gamma distribuito, è ancora valido. Con n = 200 o giù di lì dovrebbe funzionare bene. Ancora una volta, tutta questa roba si basa su statistiche frequentiste.

— joint_p,

+1 per il commento sul test di ipotesi riferito sempre alla popolazione, ma -1 per sembrare che manchi il punto che l'interrogante ha un campione di 1.

— Peter Ellis,

Non ero davvero sicuro di cosa volevo dire "Ho un valore calcolato e una serie di valori generati casualmente. Il valore calcolato è 0,35" ... Pensavo che questo in qualche modo implicasse che ci sono più di 1 osservazione.

— joint_p,

ripubblicare i miei commenti dagli altri paragrafi: sono un po 'confuso su cosa considerare come campione: ho un campione di uno (l'osservazione) e l'elenco di sfondo come popolazione O il mio campione è l'elenco di sfondo e Lo sto confrontando con l'intera popolazione (non campionata) che secondo l'ipotesi nulla dovrebbe avere la stessa media. Una volta deciso, il test va in diverse direzioni immagino.

— Grokkaine,