Una distribuzione uniforme di molti valori p fornisce prove statistiche che H0 è vero?


28

Un singolo test statistico può fornire la prova che l'ipotesi nulla (H0) è falsa e quindi l'ipotesi alternativa (H1) è vera. Ma non può essere usato per mostrare che H0 è vero perché non si respinge H0 non significa che H0 è vero.

Ma supponiamo che tu abbia la possibilità di fare il test statistico molte volte perché hai molti set di dati, tutti indipendenti l'uno dall'altro. Tutti i set di dati sono il risultato dello stesso processo e si desidera fare qualche dichiarazione (H0 / H1) sul processo stesso e non sono interessati ai risultati di ogni singolo test. Quindi raccogli tutti i valori p risultanti e vedi tramite il diagramma dell'istogramma che i valori p sono chiaramente distribuiti uniformemente.

Il mio ragionamento ora è che questo può accadere solo se H0 è vero, altrimenti i valori di p sarebbero distribuiti in modo diverso. Sono quindi sufficienti prove per concludere che H0 è vero? O mi sto perdendo qualcosa di essenziale, perché mi ci è voluto un sacco di forza di volontà per scrivere "concludere che H0 è vero" che suona semplicemente orribilmente sbagliato nella mia testa.


1
Potresti essere interessato alla mia risposta a una domanda diversa stats.stackexchange.com/questions/171742/… che contiene alcuni commenti sulle ipotesi qui.
mdewey,

H0 è falso per la sua definizione.
Giosuè il

1
In una nota a margine, il motivo per cui ho così tanti test (e non ho appena combinato tutti i dati in uno solo) è che i miei dati sono distribuiti spazialmente in tutto il mondo e volevo vedere se ci sono modelli spaziali nel valori-p (non ci sono, ma se ci fossero significherebbe che l'indipendenza è violata o che H0 / H1 è vero in diverse parti del globo). Non l'ho incluso nel testo della domanda perché volevo mantenerlo generale.
Leander Moesinger,

Risposte:


22

Mi piace la tua domanda, ma purtroppo la mia risposta è NO, non dimostra H0 . La ragione è molto semplice. Come fai a sapere che la distribuzione dei valori di p è uniforme? Probabilmente dovresti eseguire un test di uniformità che ti restituirà il suo valore p e finirai con lo stesso tipo di domanda di inferenza che stavi cercando di evitare, solo un passo più avanti. Invece di guardare il valore p H0 originale , ora guardi un valore p di un altro H0' sull'uniformità di distribuzione dei valori p originali.

AGGIORNARE

Ecco la dimostrazione. Genero 100 campioni di 100 osservazioni dalla distribuzione gaussiana e di Poisson, quindi ottengo 100 valori p per il test di normalità di ciascun campione. Quindi, la premessa della domanda è che se i valori di p provengono da una distribuzione uniforme, allora dimostra che l'ipotesi nulla è corretta, il che è un'affermazione più forte di un normale "non riesce a rifiutare" nell'inferenza statistica. Il problema è che "i valori di p provengono dall'uniforme" è un'ipotesi stessa, che devi testare in qualche modo.

Nell'immagine (prima riga) di seguito sto mostrando gli istogrammi dei valori p di un test di normalità per il campione di Guassian e Poisson, e puoi vedere che è difficile dire se uno sia più uniforme dell'altro. Questo era il mio punto principale.

La seconda riga mostra uno dei campioni di ciascuna distribuzione. I campioni sono relativamente piccoli, quindi non puoi avere troppi contenitori. In realtà, questo particolare campione gaussiano non sembra affatto molto gaussiano sull'istogramma.

Nella terza riga, sto mostrando i campioni combinati di 10.000 osservazioni per ciascuna distribuzione su un istogramma. Qui puoi avere più contenitori e le forme sono più evidenti.

Infine, eseguo lo stesso test di normalità e ottengo valori p per i campioni combinati e rifiuta la normalità per Poisson, mentre non riesco a rifiutare per Gaussian. I valori p sono: [0.45348631] [0.]

inserisci qui la descrizione dell'immagine

Questa non è una prova, ovviamente, ma la dimostrazione dell'idea che è meglio eseguire lo stesso test sul campione combinato, invece di provare ad analizzare la distribuzione di valori p da sottocampioni.

Ecco il codice Python:

import numpy as np
from scipy import stats
from matplotlib import pyplot as plt

def pvs(x):
    pn = x.shape[1]
    pvals = np.zeros(pn)
    for i in range(pn):
        pvals[i] = stats.jarque_bera(x[:,i])[1]
    return pvals

n = 100
pn = 100
mu, sigma = 1, 2
np.random.seed(0)
x = np.random.normal(mu, sigma, size=(n,pn))
x2 = np.random.poisson(15, size=(n,pn))
print(x[1,1])

pvals = pvs(x)
pvals2 = pvs(x2)

x_f = x.reshape((n*pn,1))
pvals_f = pvs(x_f)

x2_f = x2.reshape((n*pn,1))
pvals2_f = pvs(x2_f)
print(pvals_f,pvals2_f)

print(x_f.shape,x_f[:,0])


#print(pvals)
plt.figure(figsize=(9,9))
plt.subplot(3,2,1)
plt.hist(pvals)
plt.gca().set_title('True Normal')
plt.gca().set_ylabel('p-value')

plt.subplot(3,2,2)
plt.hist(pvals2)
plt.gca().set_title('Poisson')
plt.gca().set_ylabel('p-value')

plt.subplot(3,2,3)
plt.hist(x[:,0])
plt.gca().set_title('a small sample')
plt.gca().set_ylabel('x')

plt.subplot(3,2,4)
plt.hist(x2[:,0])
plt.gca().set_title('a small Sample')
plt.gca().set_ylabel('x')

plt.subplot(3,2,5)
plt.hist(x_f[:,0],100)
plt.gca().set_title('Full Sample')
plt.gca().set_ylabel('x')

plt.subplot(3,2,6)
plt.hist(x2_f[:,0],100)
plt.gca().set_title('Full Sample')
plt.gca().set_ylabel('x')

plt.show()

2
@LeanderMoesinger farai un punto di forza raccogliendo tutti i tuoi test in uno solo. Supponiamo di avere un campione con 100 osservazioni e ottenere il valore p; quindi ottenere 99 campioni aggiuntivi e finire con 100 valori p. Invece, potresti semplicemente eseguire un campione di 10.000 osservazioni e ottenere il valore p, ma sarà più convincente.
Aksakal,

1
@LeanderMoesinger, è probabile che non sia piccolo
Aksakal

1
La tua risposta non affronta la domanda, non ha chiesto prove ma prove .
Carlos Cinelli,

3
@CarlosCinelli, avrà un sacco di valori-p, che direbbe uniformi. In che modo questa è una prova se non dimostra che i valori provengono dall'uniforme? Ecco di cosa sto parlando.
Aksakal,

2
@Aksakal riguarda la matematica, un evento osservato (come una sequenza di valori p) potrebbe non costituire una prova di qualcosa, ma la ragione non segue logicamente dalla tua argomentazione.
Carlos Cinelli,

21

n

H0H0

David Hume e il problema dell'induzione

H0H0

un'UN[un'B]

  • Per secoli, ogni cigno osservato dagli europei era bianco. Quindi gli europei hanno scoperto l'Australia e hanno visto i cigni neri.

  • Per secoli, la legge di gravità di Newton fu d'accordo con l'osservazione e fu ritenuta corretta. Fu però ribaltato dalla teoria della relatività generale di Einstein.

H0

Un elenco (incompleto) delle vie da seguire:

Karl Popper e falsificazione

Secondo Karl Popper , nessuna legge scientifica è mai stata dimostrata vera. Abbiamo solo leggi scientifiche non ancora dimostrate false.

Popper ha sostenuto che la scienza procede indovinando le ipotesi e sottoponendole a un rigoroso controllo. Procede in avanti attraverso la deduzione (osservazioni che dimostrano false teorie), non induzione (osservazioni ripetute che dimostrano vere teorie). Gran parte delle statistiche dei frequentisti sono state costruite coerentemente con questa filosofia.

L'opinione di Popper è stata immensamente influente, ma come hanno sostenuto Kuhn e altri, non è del tutto conforme alla pratica empiricamente osservata della scienza di successo.

Probabilità bayesiana, soggettiva

θ

θθθP(θ)P(θ|X)θX. Il modo in cui ti comporti in varie situazioni ha una certa corrispondenza con queste probabilità soggettive.

Questo è un modo logico per modellare le tue convinzioni soggettive, ma non è un modo magico per produrre probabilità che siano vere in termini di corrispondenza con la realtà. Una domanda delicata per qualsiasi interpretazione bayesiana è da dove vengono i priori? Inoltre, cosa succede se il modello non viene specificato correttamente?

George P. Box

Un famoso aforisma di George EP Box è che "tutti i modelli sono falsi, ma alcuni sono utili".

La legge di Newton potrebbe non essere vera, ma è comunque utile per molti problemi. La visione di Box è abbastanza importante nel moderno contesto dei big data in cui gli studi sono così sopraffatti che puoi praticamente rifiutare qualsiasi proposta significativa. Strettamente vero contro falso è una cattiva domanda: ciò che conta è se un modello ti aiuta a capire i dati.

Commenti aggiuntivi

θ0

Forse anche di interesse, analizzare statisticamente i risultati di più studi è chiamato meta-analisi .

Fino a che punto si può andare oltre interpretazioni statistiche ristrette è una domanda difficile.


Questa è stata una lettura interessante e ha dato alcune cose carine a cui pensare! Vorrei poter accettare più risposte.
Leander Moesinger,

Piuttosto una spiegazione. Il mio prof ha riassunto una volta Kuhn nello spirito di Popper: "La scienza passa dal funerale al funerale"
skrubber,

Kuhn ecc. Notoriamente fraintende Popper quando afferma che le sue osservazioni non corrispondono a come viene fatta la scienza. Questo è noto come falsificazione nativa, e non è ciò che Popper (in seguito) ha avanzato. È un uomo di paglia.
Konrad Rudolph,

2
Sono risposte come questa, continuo a visitare i siti StackExchange.
Trilarion

5

In un certo senso hai ragione (vedi la curva p) con alcuni piccoli avvertimenti:

  1. pααH0
  2. H0H0

Con applicazioni realistiche, si tende ad avere ulteriori problemi. Questi si presentano principalmente, perché nessuna persona / laboratorio / gruppo di studio di solito può fare tutti gli studi necessari. Di conseguenza si tende a esaminare gli studi di molti gruppi, a quel punto si hanno maggiori preoccupazioni (vale a dire se si fossero fatti personalmente tutti gli esperimenti rilevanti, almeno si sarebbe a conoscenza) della segnalazione selettiva e sottostimata di risultati significativi / sorprendenti, p-hacking, correzioni multiple / correzioni multiple di test e così via.


1
(+1) Il punto di forza è estremamente importante! Diverse teorie possono produrre dati equivalenti dal punto di vista osservazionale e una parte fondamentale della progettazione dell'esperimento è quella di produrre e / o raccogliere dati che ti permettano di distinguere.
Matthew Gunn,

-2

Ipotesi nulla (H0): la gravità fa cadere tutto nell'universo verso la superficie terrestre.

Ipotesi alternativa (H1): non cade mai niente.

p<0.01


2
Pensi che Galileo abbia fatto un milione di prove? Nessuna di queste cose è necessaria nelle scienze fisiche. Stabilire le leggi della natura applicando il metodo scientifico non si riduce all'inferenza statistica.
Aksakal,

2
-1 Questo è scientificamente, statisticamente e storicamente inaccurato. I greci una volta credevano che fosse l'affinità che attirava oggetti sulla Terra. Non male, ma non spiega bene i problemi del sistema corporeo 3+. Le ipotesi dovrebbero essere complementari. Infine, affermando un possibile pregiudizio noto come H_0 e mostrando esperimenti continuano a portare alla stessa errata conclusione non si rende corretta la conclusione. ad es. le donne guadagnano meno degli uomini a causa della loro minore propensione, assaggia tutti gli stipendi delle donne, H_0 è vero!
AdamO,

@AdamO questo è esattamente il mio punto.
usul

@AdamO, nei paesi occidentali le donne guadagnano meno quando lavorano di meno per una serie di motivi, tra cui la propria scelta, i disincentivi di ogni tipo e l'ambiente di lavoro ostile in alcuni luoghi. Quando lavorano allo stesso modo, guadagnano più o meno allo stesso modo, ad es. Vedi gli stipendi delle infermiere medicare in cui le donne sono la maggioranza: medscape.com/slideshow/… . Tutti guadagnano gli stessi $ 37 quando lavorano ogni ora. Totalmente fuori tema, ovviamente.
Aksakal,

2
Se la tua ipotesi nulla Gravity causes everything in the universe to fall toward Earth's surfaceè non è l'ipotesi alternativa There is at least one thing in the universe that does not fall toward the Earth's surfacee no Nothing ever falls?
Eff
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.