Due modi di utilizzare bootstrap per stimare l'intervallo di confidenza dei coefficienti in regressione


21

Sto applicando un modello lineare ai miei dati:

yio=β0+β1Xio+εio,εio~N(0,σ2).

Vorrei stimare l'intervallo di confidenza (CI) dei coefficienti ( β0 , β1 ) usando il metodo bootstrap. Esistono due modi in cui posso applicare il metodo bootstrap:

  1. Esempio di predittore di risposta accoppiato: ricampiona casualmente le coppie di yio-Xio e applica la regressione lineare a ciascuna corsa. Dopo m corre, si ottiene un insieme di coefficienti stimati βj^,j=1,...m . Infine, calcola il quantile di βj^ .

  2. Errore di esempio: applicare prima la regressione lineare sui dati osservati originali, da questo modello otteniamo e l'errore ϵ i . Successivamente, ricampiona in modo casuale l'errore e calcola i nuovi dati con e . Applica ancora una volta la regressione lineare. Dopo esecuzioni, otteniamo una raccolta di coefficienti stimati . Infine, calcola il quantile di .βo^εioεio*βo^yio*=βo^Xio+εio*mβj^,j=1,...,mβj^

Le mie domande sono:

  • In che modo differiscono questi due metodi?
  • Sotto quale ipotesi questi due metodi danno lo stesso risultato?

7
Personalmente non userei né l'approccio predefinito ma raccomanderei invece l'intervallo di confidenza di base del bootstrap. Vedi pag. 8 di www.stat.cmu.edu/~cshalizi/402/lectures/08-bootstrap/lecture-08.pdf. Ho fatto molte simulazioni per il modello logistico binario e ho visto una migliore copertura dell'intervallo di confidenza usando il bootstrap di base rispetto al percentile o al bootstrap BCa.
Frank Harrell,

1
@FrankHarrell per essere chiari, con "base" ti riferisci al bootstrap non parametrico?
ndoogan,

3
(1) è l'intervallo di confidenza non parametrico del percentile di bootstrap, non il bootstrap di base. Si noti che il campionamento da è il bootstrap incondizionato, che è più privo di presupposti del bootstrap condizionale che campiona i residui. (X,y)
Frank Harrell,

2
In realtà non sono un esperto, ma per quanto ne so, 1) viene spesso chiamato "ricampionamento di casi" mentre il 2) viene chiamato "ricampionamento residuo" o "ricampionamento fisso ". La scelta di base del metodo non implica il metodo su come calcolare gli intervalli di confidenza dopo la procedura. Ho avuto queste informazioni principalmente dal tutorial di John Fox . A mio avviso, dopo uno dei due bootstrap, è possibile calcolare i CI di bootstrap di base (ad es. Con in ). O mi manca qualcosa qui? Xboot.ci(my.boot, type="basic")R
COOLSerdash,

2
Sì, puoi eseguire il bootstrap del cluster. Questo è implementato nella R rms validatee nelle calibratefunzioni.
Frank Harrell,

Risposte:


9

Se le coppie predittore di risposta sono state ottenute da una popolazione per campione casuale, è sicuro utilizzare lo schema di ricampionamento case / random-x / your-first. Se i predittori sono stati controllati o i valori dei predittori sono stati impostati dallo sperimentatore, è possibile prendere in considerazione l'utilizzo dello schema di ricampionamento residuo / basato sul modello / fisso-x / il secondo.

In cosa differiscono i due? Un'introduzione al bootstrap con applicazioni in R di Davison e Kounen ha una discussione pertinente a questa domanda (vedi p.9). Vedi anche il codice R in questa appendice di John Fox , in particolare funzioni boot.huber a p.5 per lo schema random-x e boot.huber.fixato a p.10 per lo schema fixed-x. Mentre nelle note di lezione di Shalizi i due schemi sono applicati a diversi insiemi di dati / problemi, l'appendice di Fox mostra quanto poca differenza possano spesso fare i due schemi.

Quando ci si può aspettare che i due producano risultati quasi identici? Una situazione è quando il modello di regressione è correttamente specificato, ad esempio, non vi è alcuna non linearità non modellata e le assunzioni di regressione usuali (ad es. Errori iid, nessun valore anomalo) sono soddisfatte. Vedi il capitolo 21 del libro di Fox (in cui la suddetta appendice con il codice R appartiene indirettamente), in particolare la discussione a pagina 598 e l'esercizio 21.3. intitolato "Ricampionamento casuale contro fisso nella regressione". Per citare dal libro

By randomly reattaching resampled residuals to fitted values, the [fixed-x/model-based]
procedure implicitly assumes that the errors are identically distributed. If, for
example, the true errors have non-constant variance, then this property will not be  
reflected in the resampled residuals. Likewise, the unique impact of a high-leverage
outlier will be lost to the resampling.

Imparerai anche da quella discussione perché il bootstrap fixed-x presume implicitamente che la forma funzionale del modello sia corretta (anche se non viene fatta alcuna ipotesi sulla forma della distribuzione dell'errore).

Vedi anche la diapositiva 12 di questo discorso per Society Of Actuaries in Irlanda di Derek Bain. Ha anche un'illustrazione di quello che dovrebbe essere considerato "lo stesso risultato":

The approach of re-sampling cases to generate pseudo data is the more usual form of   
bootstrapping. The approach is robust in that if an incorrect model is fitted an
appropriate measure of parameter meter uncertainty is still obtained. However re
sampling residuals is more efficient if the correct model has been fitted.

The graphs shows both approaches in estimating the variance of a 26 point data sample
mean and a 52 point sample mean. In the larger sample the two approaches are  
equivalent.
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.