Bootstrap: la stima non rientra nell'intervallo di confidenza


10

Ho fatto un bootstrap con un modello misto (diverse variabili con interazione e una variabile casuale). Ho ottenuto questo risultato (solo parziale):

> boot_out

ORDINARY NONPARAMETRIC BOOTSTRAP

Call:
boot(data = a001a1, statistic = bootReg, R = 1000)

Bootstrap Statistics :
          original        bias     std. error
t1*   4.887383e+01 -1.677061e+00 4.362948e-01
t2*   3.066825e+01  1.264024e+00 5.328387e-01
t3*   8.105422e+01  2.368599e+00 6.789091e-01
t4*   1.620562e+02  4.908711e+00 1.779522e+00
......

Ora, volevo ottenere gli intervalli di confidenza per l'intercettazione:

> boot.ci(boot_out,type=c("norm","basic","perc"), index=1)
BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONS
Based on 1000 bootstrap replicates

CALL : 
boot.ci(boot.out = boot_out, type = c("norm", "basic", 
"perc"), index = 1)

Intervals : 
Level      Normal              Basic              Percentile     
95%   (49.70, 51.41 )   (49.70, 51.41 )   (46.34, 48.05 )  
Calculations and Intervals on Original Scale

Il bias corretto stimato è:

48.873 -1.677
1 47.196

Il problema che ho è che l'IC normale e di base non rientrano nella stima (originale e corretta). Mi chiedo solo come affrontarlo.

Aggiornamento 1:
ecco domande simili con molte risposte.


2
Solo un commento: Efron e Tibshirani (1993) nel libro classico stavano discutendo piuttosto contro la correzione del pregiudizio dicendo che è una pratica "pericolosa" e "problematica" che potrebbe portare a un aumento dell'errore standard.
Tim

@Tim Grazie per il tuo commento. Darò un'occhiata al libro. Forse, una soluzione è utilizzare le stime e il bootstrap se * per calcolare gli intervalli di confidenza. Nel mio caso, la distorsione influisce solo leggermente sulle stime.
giordano,

Risposte:


1

La difficoltà che stai affrontando proviene dalla matematica implicita. Uno stimatore del centro di posizione, o uno stimatore di intervallo, può essere considerato come la minimizzazione di una funzione di costo rispetto a una distribuzione. La media campionaria sopra il gaussiano minimizza la perdita quadratica, mentre la mediana minimizza la funzione di perdita lineare assoluta sul gaussiano. Anche se nella popolazione si trovano nello stesso punto, vengono scoperti utilizzando diverse funzioni di costo.

Ti diamo un algoritmo e diciamo "fai questo", ma prima che l'algoritmo fosse sviluppato qualcuno ha risolto un problema di ottimizzazione.

Sono state applicate quattro diverse funzioni di costo che offrono tre intervalli e uno stimatore punti. Poiché le funzioni di costo sono diverse, forniscono punti e intervalli diversi. Non c'è altro da fare se non quello di unificare manualmente la metodologia.

È necessario trovare i documenti sottostanti e guardare il codice sottostante per capire quali sono associati a quali tipi di problemi.

Mi dispiace dirlo, ma sei stato tradito dal software. Ha fatto il suo lavoro, e in media funziona alla grande, ma hai l'esempio in cui il software non funzionerà. O meglio, sta funzionando perfettamente e devi effettivamente fare un passo indietro nella letteratura per determinare cosa sta realmente facendo.


Grazie per aver fatto il suo lavoro, e in media questo funziona alla grande, ma hai ottenuto l'esempio in cui il software non funzionerà e le altre intuizioni. In effetti, l'esempio è strano, ecco perché volevo usare Bootsstrap per calcolare CI. Ovviamente, questo metodo non sembra così semplice come sembra.
giordano,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.