Contesto
Questo è in qualche modo simile a questa domanda , ma non credo sia un duplicato esatto.
Quando cerchi come istruzioni su come eseguire un test di ipotesi bootstrap, di solito si afferma che va bene usare la distribuzione empirica per intervalli di confidenza ma che è necessario avviare correttamente bootstrap dalla distribuzione sotto l'ipotesi nulla per ottenere un p- valore. Ad esempio, vedi la risposta accettata a questa domanda . Una ricerca generale su Internet sembra principalmente dare risposte simili.
La ragione per non usare un valore p basato sulla distribuzione empirica è che il più delle volte non abbiamo invarianza della traduzione.
Esempio
Vorrei fare un breve esempio. Abbiamo una moneta e vogliamo fare un test unilaterale per vedere se la frequenza delle teste è maggiore di 0,5
Eseguiamo prove e otteniamo teste. Il vero valore p per questo test sarebbe .
D'altra parte, se eseguiamo il bootstrap delle nostre 14 teste su 20, campioniamo effettivamente dalla distribuzione binomiale con e . Spostando questa distribuzione sottraendo 0,2 otterremo un risultato a malapena significativo testando il nostro valore osservato di 0,7 contro la distribuzione empirica ottenuta.
In questo caso la discrepanza è molto piccola, ma aumenta quando la percentuale di successo che testiamo si avvicina a 1.
Domanda
Ora lasciami venire al vero punto della mia domanda: lo stesso difetto vale anche per gli intervalli di confidenza. In effetti, se un intervallo di confidenza ha il livello di confidenza dichiarato allora l'intervallo di confidenza che non contiene il parametro sotto l'ipotesi nulla equivale a rifiutare l'ipotesi nulla ad un livello di significatività di .
Perché gli intervalli di confidenza basati sulla distribuzione empirica sono ampiamente accettati e il valore p no?
C'è una ragione più profonda o le persone non sono altrettanto conservatrici con intervalli di confidenza?
In questa risposta Peter Dalgaard fornisce una risposta che sembra concordare con la mia tesi. Lui dice:
Non c'è nulla di particolarmente sbagliato in questa linea di ragionamento, o almeno non (molto) peggio del calcolo di CI.
Da dove viene (molto)? Implica che la generazione di valori p in quel modo sia leggermente peggiore, ma non approfondisce il punto.
Pensieri finali
Anche in An Introduction to the Bootstrap di Efron e Tibshirani dedicano molto spazio agli intervalli di confidenza ma non ai valori p a meno che non siano generati con una corretta distribuzione di ipotesi nulla, con l'eccezione di una linea di lancio sull'equivalenza generale di intervalli di confidenza e valori di p nel capitolo sui test di permutazione.
Ritorniamo anche alla prima domanda che ho collegato. Concordo con la risposta di Michael Chernick, ma sostiene ancora che sia gli intervalli di confidenza che i valori p basati sulla distribuzione empirica del bootstrap sono ugualmente inaffidabili in alcuni scenari. Non spiega perché trovi molte persone che ti dicono che gli intervalli sono ok, ma i valori p non lo sono.