Risposte brevi:
1. Lo semplifica. (Francamente, non ho ricevuto la domanda). 2. No, non puoi mai ignorarlo, poiché la mancanza di iid ha conseguenze immediate sulle variazioni di ciò che stai stimando.
Risposta media: Praticamente il problema centrale con il bootstrap è: "La procedura proposta riproduce le funzionalità dei dati?" . La violazione del presupposto dell'IID è un grosso problema: i tuoi dati dipendono, tu (molto probabilmente) hai meno informazioni nei tuoi dati di quanto avresti in un campione IID della stessa dimensione e se esegui un bootstrap ingenuo (ricampiona l'individuo osservazioni), gli errori standard che otterrai saranno troppo piccoli. La procedura proposta aggira il problema della mancanza di indipendenza catturando (o almeno tentando di catturare) la dipendenza nella struttura e nei parametri del modello. Se ha esito positivo, ogni esempio di bootstrap riprodurrà le funzionalità dei dati, se necessario.
Risposta lunga:Esistono più livelli di ipotesi riguardanti il bootstrap e, anche nel caso più semplice possibile (dati iid, stima della media), è necessario formulare almeno tre ipotesi: (1) la statistica di interesse è una funzione regolare dei dati (vero nel caso della media, non così vero nemmeno nel caso dei percentili, totalmente fuori con gli stimatori di corrispondenza vicini più vicini); (2) la distribuzione da cui si avvia il bootstrap è "vicina" alla distribuzione della popolazione (funziona bene nel caso di dati iid; potrebbe non funzionare bene nel caso di dati dipendenti, dove essenzialmente si ha solo una traiettoria = una osservazione nella caso di serie temporali, e devi invocare ipotesi aggiuntive come la stazionarietà e la miscelazione per trasformare questa singola osservazione in una quasi-popolazione); (3) il campionamento del tuo bootstrap Monte Carlo è un'approssimazione abbastanza buona per il bootstrap completo con tutti i possibili sottocampioni (l'imprecisione derivante dall'utilizzo di Monte Carlo rispetto al bootstrap completo è molto inferiore all'incertezza che stai cercando di acquisire). Nel caso del bootstrap parametrico, si suppone anche che (4) il modello spieghi perfettamente tutte le caratteristiche dei dati.
Come avvertimento di cosa potrebbe andare storto con (4), pensa alla regressione con errori eteroschedastici: , Var , diciamo. Se si adatta un modello OLS e si ricampionano i residui come se fossero iid, si otterrà una risposta errata (una sorta di dove è la media , invece che appropriata[ ϵ ] = exp [ x γ ] ˉ σ 2 ( X ′ X ) - 1 ˉ σ 2 1 / n ∑ i exp [ x i γ ] ( X ′ X ) - 1 ∑ exp [ x i γ ] x i x ′ i ( X ′y=xβ+ϵ[ϵ]=exp[xγ]σ¯2(X′X)−1σ¯21/n∑iexp[xiγ](X′X)−1∑exp[xiγ]xix′i(X′X)−1). Quindi, se volevi avere una soluzione bootstrap completamente parametrica, avresti dovuto adattare il modello per l'eteroschedasticità con il modello per la media. E se sospetti una correlazione seriale o di altro tipo, dovresti adattarti anche a questo modello. (Vedi, il sapore non parametrico della distribuzione del bootstrap è praticamente sparito per ora, poiché hai sostituito la voce dei dati con la voce sintetizzata del tuo modello.)
Il metodo che hai descritto si basa sull'ipotesi IID creando un campione completamente nuovo. Il problema più grande con il bootstrap di dati dipendenti è quello di creare l'esempio che avrebbe i modelli di dipendenza che sarebbero sufficientemente vicini a quelli nei dati originali. Con le serie storiche, è possibile utilizzare i bootstrap a blocchi; con i dati cluster, si avvia il bootstrap di tutti i cluster; con la regressione eteroschedastica, è necessario disporre di bootstrap selvaggi (che è un'idea migliore rispetto al bootstrap di residui, anche se ad esso è stato montato un modello di eteroschedasticità). Nel bootstrap a blocchi, devi fare un'ipotesi istruita (o, in altre parole, avere buone ragioni per credere) che parti distanti di serie temporali sono approssimativamente indipendenti, in modo che tutta la struttura di correlazione sia catturata dall'adiacente 5 o 10 osservazioni che formano il blocco. Quindi, invece di ricampionare le osservazioni una per una, che ignora totalmente la struttura di correlazione delle serie temporali, le ricampiona in blocchi, sperando che ciò rispetti la struttura di correlazione. Il bootstrap parametrico che hai citato dice: "Invece di armeggiare con i dati e assemblare le nuove bambole dai pezzi di quelli vecchi, perché non stampo l'intera Barbie stampata per te invece? Ho capito che tipo delle Barbie che ti piacciono, e ti prometto che ti farò diventare anche quello che vorresti. " Invece di armeggiare con i dati e assemblare le nuove bambole dai pezzi di quelli vecchi, perché non stampo l'intera Barbie stampata per te invece? Ho capito che tipo di Barbie ti piace, e prometto che te ne farò anche uno che vorresti. " Invece di armeggiare con i dati e assemblare le nuove bambole dai pezzi di quelli vecchi, perché non stampo l'intera Barbie stampata per te invece? Ho capito che tipo di Barbie ti piace, e prometto che te ne farò anche uno che vorresti. "
Nel caso del bootstrap parametrico che hai descritto, devi essere dannatamente sicuro che il tuo modello HMM sia praticamente perfetto, altrimenti il tuo bootstrap parametrico potrebbe portare a risultati errati (Barbie che non possono muovere le braccia). Pensa all'esempio di regressione eteroschedastica sopra riportato; o pensa ad adattare un modello AR (1) ai dati AR (5): qualunque cosa tu faccia con i dati parametricamente simulati, non avranno la struttura che avevano i dati originali.
Modifica : come Sadeghd ha chiarito la sua domanda, posso rispondere anche a quello. Esiste un'enorme varietà di procedure bootstrap, ognuna delle quali affronta la particolare stranezza nella statistica, nella dimensione del campione, nella dipendenza o in qualsiasi altro problema con il bootstrap. Non esiste un solo modo per affrontare la dipendenza, ad esempio. (Ho lavorato con i bootstrap del sondaggio, ci sono circa 8 procedure diverse, sebbene alcune siano per lo più di interesse metodologico piuttosto che pratico; e alcune sono chiaramente inferiori in quanto sono applicabili solo in casi speciali, non facilmente generalizzabili.) Per un discussione generale di problemi che potresti incontrare con il bootstrap, vedi Canty, Davison, Hinkley e Ventura (2006). Diagnostica e rimedi Bootstrap. The Canadian Journal of Statistics, 34 (1), 5-27 .