Valori p di bootstrap non parametrici rispetto a intervalli di confidenza


11

Contesto

Questo è in qualche modo simile a questa domanda , ma non credo sia un duplicato esatto.

Quando cerchi come istruzioni su come eseguire un test di ipotesi bootstrap, di solito si afferma che va bene usare la distribuzione empirica per intervalli di confidenza ma che è necessario avviare correttamente bootstrap dalla distribuzione sotto l'ipotesi nulla per ottenere un p- valore. Ad esempio, vedi la risposta accettata a questa domanda . Una ricerca generale su Internet sembra principalmente dare risposte simili.

La ragione per non usare un valore p basato sulla distribuzione empirica è che il più delle volte non abbiamo invarianza della traduzione.

Esempio

Vorrei fare un breve esempio. Abbiamo una moneta e vogliamo fare un test unilaterale per vedere se la frequenza delle teste è maggiore di 0,5

Eseguiamo prove e otteniamo teste. Il vero valore p per questo test sarebbe .n=20k=14p=0.058

D'altra parte, se eseguiamo il bootstrap delle nostre 14 teste su 20, campioniamo effettivamente dalla distribuzione binomiale con e . Spostando questa distribuzione sottraendo 0,2 otterremo un risultato a malapena significativo testando il nostro valore osservato di 0,7 contro la distribuzione empirica ottenuta.n=20p=1420=0.7

In questo caso la discrepanza è molto piccola, ma aumenta quando la percentuale di successo che testiamo si avvicina a 1.

Domanda

Ora lasciami venire al vero punto della mia domanda: lo stesso difetto vale anche per gli intervalli di confidenza. In effetti, se un intervallo di confidenza ha il livello di confidenza dichiarato allora l'intervallo di confidenza che non contiene il parametro sotto l'ipotesi nulla equivale a rifiutare l'ipotesi nulla ad un livello di significatività di .α1α

Perché gli intervalli di confidenza basati sulla distribuzione empirica sono ampiamente accettati e il valore p no?

C'è una ragione più profonda o le persone non sono altrettanto conservatrici con intervalli di confidenza?

In questa risposta Peter Dalgaard fornisce una risposta che sembra concordare con la mia tesi. Lui dice:

Non c'è nulla di particolarmente sbagliato in questa linea di ragionamento, o almeno non (molto) peggio del calcolo di CI.

Da dove viene (molto)? Implica che la generazione di valori p in quel modo sia leggermente peggiore, ma non approfondisce il punto.

Pensieri finali

Anche in An Introduction to the Bootstrap di Efron e Tibshirani dedicano molto spazio agli intervalli di confidenza ma non ai valori p a meno che non siano generati con una corretta distribuzione di ipotesi nulla, con l'eccezione di una linea di lancio sull'equivalenza generale di intervalli di confidenza e valori di p nel capitolo sui test di permutazione.

Ritorniamo anche alla prima domanda che ho collegato. Concordo con la risposta di Michael Chernick, ma sostiene ancora che sia gli intervalli di confidenza che i valori p basati sulla distribuzione empirica del bootstrap sono ugualmente inaffidabili in alcuni scenari. Non spiega perché trovi molte persone che ti dicono che gli intervalli sono ok, ma i valori p non lo sono.


Sto iniziando una generosità su questa domanda in quanto sono molto interessato a ottenere chiarezza su come e quando i CI bootstrap possono essere utilizzati per accettare / rifiutare un'ipotesi. Forse potresti riformulare / riformattare la tua domanda per renderla più concisa e accattivante? Grazie !
Xavier Bourret Sicotte,

Penso che la maggior parte delle persone concorderà sul fatto che quando si applicano le seguenti ipotesi, l'uso dell'IC per il test di ipotesi è OK: distribuzione simmetrica della statistica del test, statistica del test pivotal, applicazione del CLT, nessun o pochi parametri fastidiosi ecc., Ma cosa succede quando la statistica è strano o non ha dimostrato di essere fondamentale. Ecco un esempio reale su cui sto lavorando: ad esempio due differenze campionarie tra il 75 ° percentile di una statistica del rapporto (rapporto di due somme)
Xavier Bourret Sicotte

La semplice risposta non è solo che è chiaro come campionare sotto l'ipotesi nulla, quindi esiste un metodo alternativo che è chiaramente migliore? Il campionamento sotto il bootstrap avviene generalmente sotto la distribuzione empirica, quindi il vero meccanismo di generazione dei dati, quindi chiaramente non dovrebbe essere usato invece di campionare sotto il null. L'elemento della configurazione bootstrap viene rilevato dall'inversione della distribuzione di campionamento nel meccanismo di generazione dei dati reali. È vero che questo CI potrebbe non funzionare bene, ma come ha detto Dalgaard, non è necessariamente ovvio come risolverlo.
jsk,

Dovrei chiarire che la distribuzione empirica è solo un'approssimazione del vero meccanismo di generazione dei dati. La misura in cui non è rappresentativa della verità avrà un impatto negativo sull'elemento della configurazione bloccato in direzioni sconosciute, portando a una copertura inferiore al 95%.
jsk,

1
Il campionamento sotto il null è chiaro quando il test è una differenza di mezzi, ma in molti casi non è ovvio come riprodurre il null ... ad esempio il null è che il 75 ° percentile di due rapporti è lo stesso ... come devo spostare i numeratori e i denominatori dei rapporti in ciascun campione per ottenerlo? Inoltre, come posso essere sicuro che lo spostamento dei componenti del rapporto stia effettivamente riproducendo il valore nullo?
Xavier Bourret Sicotte,

Risposte:


3

Come ha detto @MichaelChernick in risposta a un commento sulla sua risposta a una domanda collegata :

Esiste una corrispondenza 1-1 in generale tra intervalli di confidenza e test di ipotesi. Ad esempio, un intervallo di confidenza del 95% per un parametro del modello rappresenta la regione di non rifiuto per il corrispondente test di ipotesi del livello del 5% relativo al valore di quel parametro. Non vi è alcun requisito in merito alla forma delle distribuzioni della popolazione. Ovviamente se si applica agli intervalli di confidenza in generale, si applicherà agli intervalli di confidenza bootstrap.

Quindi questa risposta affronterà due problemi associati: (1) perché le presentazioni dei risultati di bootstrap potrebbero sembrare più frequentemente specificare intervalli di confidenza (CI) piuttosto che p -values, come suggerito nella domanda, e (2) quando entrambi potrebbero p -values e si ritiene che la CI determinata da bootstrap sia inaffidabile e quindi richiede un approccio alternativo.

Non conosco dati che supportano specificamente l'affermazione in questa domanda sul primo problema. Forse in pratica molte stime puntuali derivate da bootstrap sono (o almeno sembrano essere) così lontane dai limiti della decisione del test che c'è poco interesse nel valore p dell'ipotesi nulla corrispondente, con interesse primario nella stima puntuale stessa e in qualche misura ragionevole dell'entità della sua probabile variabilità.

Per quanto riguarda la seconda questione, molte applicazioni pratiche implicano "distribuzione simmetrica di statistiche di test, statistiche di test cardine, applicazione di CLT, nessun o pochi parametri fastidiosi ecc" (come in un commento di @XavierBourretSicotte sopra), per le quali ci sono poche difficoltà. La domanda diventa quindi come rilevare potenziali deviazioni da queste condizioni e come affrontarle quando si presentano.

Queste potenziali deviazioni dal comportamento ideale sono state apprezzate per decenni, con diversi approcci CI bootstrap sviluppati all'inizio per affrontarli. Il bootstrap studentizzato aiuta a fornire una statistica fondamentale e il metodo BCa si occupa sia di bias che di asimmetria in termini di ottenere CI più affidabili dai bootstrap. Può essere utile anche la trasformazione dei dati che stabilizzi la varianza prima di determinare l'elemento della configurazione avviato, seguito dalla trasformazione di ritorno alla scala originale.

L'esempio in questa domanda sul campionamento da 14 teste su 20 lanci da una moneta equa è ben gestito usando CI dal metodo BCa; in R:

> dat14 <- c(rep(1,14),rep(0,6))
> datbf <- function(data,index){d <- data[index]; sum(d)}
> set.seed(1)
> dat14boot <- boot(dat14,datbf,R=999)
> boot.ci(dat14boot)
BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONS
Based on 999 bootstrap replicates

CALL : 
boot.ci(boot.out = dat14boot)

Intervals : 
Level      Normal              Basic         
95%     (9.82, 18.22 )   (10.00, 18.00 )  

Level     Percentile            BCa          
95%       (10, 18 )         ( 8, 17 )  
Calculations and Intervals on Original Scale

Le altre stime della CI pongono il noto problema di essere molto vicine o al limite del valore della popolazione di 10 teste per 20 tiri. Il conto BCa CI per l'asimmetria (come introdotto dal campionamento binomiale lontano dalle probabilità pari), quindi includono bene il valore della popolazione di 10.

Ma devi cercare tali deviazioni dal comportamento ideale prima di poter sfruttare queste soluzioni. Come in gran parte della pratica statistica, in realtà guardare i dati piuttosto che collegarsi a un algoritmo può essere la chiave. Ad esempio, questa domanda sull'elemento della configurazione per un risultato bootstrap distorto mostra i risultati per i primi 3 elementi della configurazione mostrati nel codice sopra, ma ha escluso l'elemento della configurazione BCa. Quando ho provato a riprodurre l'analisi mostrata in quella domanda per includere BCa CI, ho ottenuto il risultato:

> boot.ci(boot(xi,H.boot,R=1000))
Error in bca.ci(boot.out, conf, index[1L], L = L, t = t.o, t0 = t0.o,  : 
estimated adjustment 'w' is infinite

dove "w" è coinvolto nella correzione del bias. La statistica che si sta esaminando ha un valore massimo fisso e anche la stima del plug-in avviata è stata intrinsecamente distorta. Ottenere un risultato del genere dovrebbe indicare che vengono violati i soliti presupposti alla base dell'elemento della configurazione con avvio automatico.

L'analisi di una quantità fondamentale evita tali problemi; anche se una distribuzione empirica non può avere utili statistiche strettamente cruciali, avvicinarsi il più vicino possibile è un obiettivo importante. Gli ultimi paragrafi di questa risposta forniscono collegamenti ad ulteriori aiuti, come i grafici pivot per stimare tramite bootstrap se una statistica (potenzialmente dopo una trasformazione dei dati) è vicina al perno e il doppio bootstrap computazionalmente costoso ma potenzialmente decisivo.


Grazie edm! Se esiste un rekation 1-1 tra CI e test di ipotesi, allora perché il test bootstrap di solito comporta lo spostamento dei set di dati per riprodurre il null? In questo modo non stiamo ottenendo risultati diversi da quelli che otterremmo calcolando, ad esempio, l'IC della distribuzione della differenza?
Xavier Bourret Sicotte,

@XavierBourretSicotte Non credo sia del tutto corretto che "il test bootstrap di solito comporta lo spostamento dei set di dati per riprodurre il valore null". Ogni campione bootstrap è un tentativo di replicare il campionamento / esperimento originale, usando il campione a portata di mano per rappresentare la popolazione sottostante. Se la statistica in questione non è fondamentale, tuttavia, la CI sviluppata sui campioni avviati non rappresenterà la CI sviluppata sulla popolazione sottostante. Quindi è necessario correggere la distribuzione della statistica verso ciò che sarebbe stato sotto il nulla, con BCa o altri approcci.
EdM,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.