Quanto è significativo un valore rispetto a un elenco di valori? Nella maggior parte dei casi i test statistici implicano il confronto di un set di campioni con una popolazione. Nel mio caso il campione è realizzato per un valore e lo confrontiamo con la popolazione.
Sono un dilettante nel test delle ipotesi statistiche di fronte forse al problema più elementare. Non è solo un test, ma centinaia. Ho uno spazio per i parametri e devo fare un test di significatività per ogni punto. Sia il valore che l'elenco di sfondo (popolazione) sono generati per ogni combinazione di parametri. Quindi sto ordinando questo per valore p e trovo interessanti combinazioni di parametri. In effetti, è importante anche trovare combinazioni di parametri in cui questa p-val è elevata (non significatività).
Facciamo quindi un singolo test: ho un valore calcolato generato da un set selezionato e un set di valori di base calcolati scegliendo un set di allenamento casuale. Il valore calcolato è 0,35 e il set di sfondo è (probabilmente?) Normalmente distribuito con una media di 0,25 e uno std molto stretto (e-7). In realtà non ho conoscenza della distribuzione, poiché i campioni sono calcolati da qualcos'altro, non sono campioni di numeri casuali da una certa distribuzione, quindi lo sfondo è la parola corretta per questo.
L'ipotesi nulla sarebbe che "la media del test del campione è uguale al mio valore calcolato, di 0,35". Quando dovrei considerare questo come un test Z o un test T? Voglio che il valore sia significativamente superiore alla media della popolazione, quindi è un test a coda singola.
Sono un po 'confuso su cosa considerare come campione: o ho un campione di uno (l'osservazione) e l'elenco di sfondo come popolazione O il mio campione è l'elenco di sfondo e lo sto confrontando con l'intero (non campionato) popolazione che secondo l'ipotesi nulla dovrebbe avere la stessa media. Una volta deciso, il test va in diverse direzioni immagino.
Se si tratta di un test T, come posso calcolare il suo valore p? Vorrei calcolarlo da solo piuttosto che utilizzare una funzione R / Python / Excel (so già come farlo) quindi devo prima stabilire la formula corretta.
- Come calcolo un valore p? (vale a dire non usare una funzione R / Python / Excel o una ricerca nella tabella dei valori p ma in realtà calcolarlo in base a una formula, perché voglio sapere cosa sto facendo)
- Come decido una soglia di significatività in base alla dimensione del mio campione? (una formula sarebbe carina)