Usando bootstrap, calcolo i valori p dei test di significatività usando due metodi:
- ricampionamento sotto l'ipotesi nulla e conteggio dei risultati estremi almeno quanto quelli derivanti dai dati originali
- ricampionamento secondo l'ipotesi alternativa e conteggio dei risultati almeno altrettanto distanti dal risultato originale quanto il valore corrispondente all'ipotesi nulla
Credo che il primo approccio sia del tutto corretto in quanto segue la definizione di valore ap. Sono meno sicuro del secondo, ma di solito dà risultati molto simili e mi ricorda un test Wald.
Ho ragione? Entrambi i metodi sono corretti? Sono identici (per campioni di grandi dimensioni)?
Esempi per i due metodi (modifiche dopo le domande di DWin e la risposta di Erik):
Esempio 1. Costruiamo un test bootstrap simile al test T a due campioni. Il metodo 1 ricampionerà da un campione (ottenuto raggruppando i due originali). Il metodo 2 ricampionerà indipendentemente da entrambi i campioni.Esempio 2. Costruiamo un test bootstrap di correlazione tra x₁… xₐ e y₁… yₐ. Il metodo 1 non assume alcuna correlazione e ricampiona consentendo coppie (xₑ, yₔ) dove e ≠ ə. Il metodo 2 compilerà un campione bootstrap delle coppie originali (x, y).
Esempio 3. Costruiamo un test bootstrap per verificare se una moneta è giusta. Il metodo 1 creerà campioni casuali impostando Pr (testa) = Pr (coda) = ½. Il metodo 2 ricampionerà il campione di valori sperimentali testa / coda e confronterà le proporzioni con ½.