La risposta data da Miura non è del tutto accurata, quindi sto rispondendo a questa vecchia domanda per i posteri:
(2). Queste sono cose molto diverse. Il cdf empirico è una stima del CDF (distribuzione) che ha generato i dati. Precisamente, è CDF discreta che assegna probabilità per ciascun punto di dati osservati, F ( x ) = 11/n, per ognix. Questo stimatore converge al vero cdf: F (x)→F(x)=P(Xi≤x)quasi sicuramente per ognix(in realtà in modo uniforme).F^(x)=1n∑ni=1I(Xi≤x)xF^(x)→F(x)=P(Xi≤x)x
La distribuzione campionaria di una statistica è invece la distribuzione della statistica che ci si aspetterebbe di vedere sotto ripetute sperimentazioni. Cioè, esegui l'esperimento una volta e raccogli i dati X 1 , ... , X n . T è una funzione dei tuoi dati: T = T ( X 1 , … , X n ) . Supponiamo ora di ripetere l'esperimento e di raccogliere i dati X ′ 1 , ... , X ′ n . Il ricalcolo di T sul nuovo campione fornisce T ′TX1,…,XnTT=T(X1,…,Xn)X′1,…,X′n . Se abbiamo raccolto 100 campioni avremmo 100 stime di T . Queste osservazioni del T formano la distribuzione campionaria di T . È una vera distribuzione. Man mano che il numero di esperimenti va all'infinito, la sua media converge in E ( T ) e la sua varianza in V a r ( T ) .T′=T(X′1,…,X′n)TTTE(T)Var(T)
In generale, naturalmente, non lo facciamo esperimenti di ripetizione come questo, abbiamo sempre e solo vedere un'istanza di . Capire quale sia la varianza di T da una singola osservazione è molto difficile se non si conosce la funzione di probabilità di fondo di T a priori. Il bootstrap è un modo per stimare che la distribuzione di campionamento di T eseguendo artificialmente "nuovi esperimenti" su cui calcolare nuove istanze di T . Ogni nuovo campione è in realtà solo un ricampionamento dai dati originali. Che questo ti fornisca più informazioni di quelle che hai nei dati originali è misterioso e assolutamente fantastico.TTTTT
(1). Hai ragione, non lo faresti. L'autore sta cercando di motivare il bootstrap parametrico descrivendolo come "cosa faresti se conoscessi la distribuzione" ma sostituendo un ottimo stimatore della funzione di distribuzione - il cdf empirico.
Ad esempio, supponiamo che tu sappia che la tua statistica di test è normalmente distribuita con zero medio, varianza uno. Come stimeresti la distribuzione campionaria di T ? Bene, poiché conosci la distribuzione, un modo sciocco e ridondante per stimare la distribuzione di campionamento è usare R per generare 10.000 variabili casuali normali standard, quindi prendere la loro media e varianza campione e usarle come stime della media e varianza della distribuzione campionaria di T .TTT
Se non conosciamo a priori i parametri di , ma sappiamo che è normalmente distribuito, quello che possiamo fare invece è generare circa 10.000 campioni dal cdf empirico, calcolare T su ciascuno di essi, quindi prendere la media del campione e la varianza di questi 10.000 T s, e li usa come le nostre stime del valore atteso e la varianza di T . Poiché il cdf empirico è un buon stimatore del vero cdf, i parametri del campione dovrebbero convergere nei parametri reali. Questo è il bootstrap parametrico: si posiziona un modello sulla statistica che si desidera stimare. Il modello è indicizzato da un parametro, ad es. ( Μ , σ )TTTT(μ,σ), che si stima a seguito di campionamenti ripetuti dall'ecdf.
(3). Il bootstrap non parametrico non richiede nemmeno di sapere a priori che è normalmente distribuito. Invece, devi semplicemente estrarre campioni ripetuti dall'ecdf e calcolare T su ciascuno di essi. Dopo aver disegnato circa 10.000 campioni e aver calcolato 10.000 T s, è possibile tracciare un istogramma delle stime. Questa è una visualizzazione della distribuzione campionaria di TTTTT. Il bootstrap non parametrico non ti dirà che la distribuzione del campionamento è normale, o gamma, o così via, ma ti consente di stimare la distribuzione del campionamento (di solito) esattamente come necessario. Fa meno ipotesi e fornisce meno informazioni del bootstrap parametrico. È meno preciso quando il presupposto parametrico è vero ma più preciso quando è falso. Quale usi in ogni situazione che incontri dipende interamente dal contesto. Certo, più persone hanno familiarità con il bootstrap non parametrico, ma spesso un presupposto parametrico debole rende un modello completamente intrattabile suscettibile di stima, il che è adorabile.