Se le coppie predittore di risposta sono state ottenute da una popolazione per campione casuale, è sicuro utilizzare lo schema di ricampionamento case / random-x / your-first. Se i predittori sono stati controllati o i valori dei predittori sono stati impostati dallo sperimentatore, è possibile prendere in considerazione l'utilizzo dello schema di ricampionamento residuo / basato sul modello / fisso-x / il secondo.
In cosa differiscono i due? Un'introduzione al bootstrap con applicazioni in R di Davison e Kounen ha una discussione pertinente a questa domanda (vedi p.9). Vedi anche il codice R in questa appendice di John Fox , in particolare funzioni boot.huber a p.5 per lo schema random-x e boot.huber.fixato a p.10 per lo schema fixed-x. Mentre nelle note di lezione di Shalizi i due schemi sono applicati a diversi insiemi di dati / problemi, l'appendice di Fox mostra quanto poca differenza possano spesso fare i due schemi.
Quando ci si può aspettare che i due producano risultati quasi identici? Una situazione è quando il modello di regressione è correttamente specificato, ad esempio, non vi è alcuna non linearità non modellata e le assunzioni di regressione usuali (ad es. Errori iid, nessun valore anomalo) sono soddisfatte. Vedi il capitolo 21 del libro di Fox (in cui la suddetta appendice con il codice R appartiene indirettamente), in particolare la discussione a pagina 598 e l'esercizio 21.3. intitolato "Ricampionamento casuale contro fisso nella regressione". Per citare dal libro
By randomly reattaching resampled residuals to fitted values, the [fixed-x/model-based]
procedure implicitly assumes that the errors are identically distributed. If, for
example, the true errors have non-constant variance, then this property will not be
reflected in the resampled residuals. Likewise, the unique impact of a high-leverage
outlier will be lost to the resampling.
Imparerai anche da quella discussione perché il bootstrap fixed-x presume implicitamente che la forma funzionale del modello sia corretta (anche se non viene fatta alcuna ipotesi sulla forma della distribuzione dell'errore).
Vedi anche la diapositiva 12 di questo discorso per Society Of Actuaries in Irlanda di Derek Bain. Ha anche un'illustrazione di quello che dovrebbe essere considerato "lo stesso risultato":
The approach of re-sampling cases to generate pseudo data is the more usual form of
bootstrapping. The approach is robust in that if an incorrect model is fitted an
appropriate measure of parameter meter uncertainty is still obtained. However re
sampling residuals is more efficient if the correct model has been fitted.
The graphs shows both approaches in estimating the variance of a 26 point data sample
mean and a 52 point sample mean. In the larger sample the two approaches are
equivalent.