Calcolo degli intervalli di confidenza tramite bootstrap su osservazioni dipendenti

Il bootstrap, nella sua forma standard, può essere utilizzato per calcolare gli intervalli di confidenza delle statistiche stimate purché le osservazioni siano accettate. I. Visser et al. in " Intervalli di confidenza per i parametri del modello Markov nascosti ", è stato utilizzato un bootstrap parametrico per calcolare gli elementi della configurazione per i parametri HMM. Tuttavia, quando inseriamo un HMM in una sequenza di osservazione, abbiamo già assunto che le osservazioni siano dipendenti (al contrario dei modelli di miscela).

Ho due domande:

Cosa fa l'ipotesi IID con il bootstrap?
Possiamo ignorare il requisito IID in un bootstrap parametrico?

Visser et al. il metodo è brevemente come segue:

Supponiamo di avere una sequenza di osservazione risultante dal campionamento di un HMM con un set reale ma sconosciuto di parametri . $Y=o_1,o_2,...,o_n$ $\theta=\theta_1,\theta_2,...,\theta_l$
I parametri possono essere stimati utilizzando l'algoritmo EM: $\hat{\theta}=\hat{\theta}_1,\hat{\theta}_2,...,\hat{\theta}_l$
Utilizzare l'HMM stimato per generare un campione bootstrap di dimensioni : $n$ $Y^*=o^*_1,o^*_2,...,o^*_n$
Stimare i parametri dell'HMM in base all'esempio bootstrap: $\hat{\theta}^*=\hat{\theta}^*_1,\hat{\theta}^*_2,...,\hat{\theta}^*_l$
Ripeti i passaggi 3 e 4 per i tempi (ad es. = 1000) risultanti nelle stime bootstrap: $B$ $B$ $B$ $\hat{\theta}^*(1),\hat{\theta}^*(2),...,\hat{\theta}^*(B)$
Calcola l'IC di ciascun parametro stimato usando la distribuzione di nelle stime bootstrap. $\hat{\theta}_i$ $\hat{\theta}^*_i$

Note (i miei risultati):

Il metodo dei percentili dovrebbe essere usato per calcolare gli EC al fine di avere una copertura corretta (la normalità è una cattiva ipotesi).
La distorsione della distribuzione bootstrap deve essere corretta. Ciò significa che la media di distribuzione di dovrebbe essere spostata su $\hat{\theta}^*_i$ $\hat{\theta}_i$

confidence-interval bootstrap hidden-markov-model

— Sadeghd
fonte

Prima domanda in altre parole: qual è l'effetto dell'ipotesi sul bootstrap? È un presupposto semplificativo che può essere rimosso seguendo un algoritmo o una formula più complessi?

— Sadeghd,

Risposte brevi: 1. Lo semplifica. (Francamente, non ho ricevuto la domanda). 2. No, non puoi mai ignorarlo, poiché la mancanza di iid ha conseguenze immediate sulle variazioni di ciò che stai stimando.

Risposta media: Praticamente il problema centrale con il bootstrap è: "La procedura proposta riproduce le funzionalità dei dati?" . La violazione del presupposto dell'IID è un grosso problema: i tuoi dati dipendono, tu (molto probabilmente) hai meno informazioni nei tuoi dati di quanto avresti in un campione IID della stessa dimensione e se esegui un bootstrap ingenuo (ricampiona l'individuo osservazioni), gli errori standard che otterrai saranno troppo piccoli. La procedura proposta aggira il problema della mancanza di indipendenza catturando (o almeno tentando di catturare) la dipendenza nella struttura e nei parametri del modello. Se ha esito positivo, ogni esempio di bootstrap riprodurrà le funzionalità dei dati, se necessario.

Risposta lunga:Esistono più livelli di ipotesi riguardanti il bootstrap e, anche nel caso più semplice possibile (dati iid, stima della media), è necessario formulare almeno tre ipotesi: (1) la statistica di interesse è una funzione regolare dei dati (vero nel caso della media, non così vero nemmeno nel caso dei percentili, totalmente fuori con gli stimatori di corrispondenza vicini più vicini); (2) la distribuzione da cui si avvia il bootstrap è "vicina" alla distribuzione della popolazione (funziona bene nel caso di dati iid; potrebbe non funzionare bene nel caso di dati dipendenti, dove essenzialmente si ha solo una traiettoria = una osservazione nella caso di serie temporali, e devi invocare ipotesi aggiuntive come la stazionarietà e la miscelazione per trasformare questa singola osservazione in una quasi-popolazione); (3) il campionamento del tuo bootstrap Monte Carlo è un'approssimazione abbastanza buona per il bootstrap completo con tutti i possibili sottocampioni (l'imprecisione derivante dall'utilizzo di Monte Carlo rispetto al bootstrap completo è molto inferiore all'incertezza che stai cercando di acquisire). Nel caso del bootstrap parametrico, si suppone anche che (4) il modello spieghi perfettamente tutte le caratteristiche dei dati.

Come avvertimento di cosa potrebbe andare storto con (4), pensa alla regressione con errori eteroschedastici: , Var , diciamo. Se si adatta un modello OLS e si ricampionano i residui come se fossero iid, si otterrà una risposta errata (una sorta di dove è la media , invece che appropriata $y=x\beta + \epsilon$ $[\epsilon] = \exp[ x\gamma]$ $\bar\sigma^2 (X'X)^{-1}$ $\bar\sigma^2$ $1/n \sum_i \exp[x_i \gamma]$ $(X'X)^{-1} \sum \exp[x_i \gamma] x_i x_i' (X'X)^{-1}$ ). Quindi, se volevi avere una soluzione bootstrap completamente parametrica, avresti dovuto adattare il modello per l'eteroschedasticità con il modello per la media. E se sospetti una correlazione seriale o di altro tipo, dovresti adattarti anche a questo modello. (Vedi, il sapore non parametrico della distribuzione del bootstrap è praticamente sparito per ora, poiché hai sostituito la voce dei dati con la voce sintetizzata del tuo modello.)

Il metodo che hai descritto si basa sull'ipotesi IID creando un campione completamente nuovo. Il problema più grande con il bootstrap di dati dipendenti è quello di creare l'esempio che avrebbe i modelli di dipendenza che sarebbero sufficientemente vicini a quelli nei dati originali. Con le serie storiche, è possibile utilizzare i bootstrap a blocchi; con i dati cluster, si avvia il bootstrap di tutti i cluster; con la regressione eteroschedastica, è necessario disporre di bootstrap selvaggi (che è un'idea migliore rispetto al bootstrap di residui, anche se ad esso è stato montato un modello di eteroschedasticità). Nel bootstrap a blocchi, devi fare un'ipotesi istruita (o, in altre parole, avere buone ragioni per credere) che parti distanti di serie temporali sono approssimativamente indipendenti, in modo che tutta la struttura di correlazione sia catturata dall'adiacente 5 o 10 osservazioni che formano il blocco. Quindi, invece di ricampionare le osservazioni una per una, che ignora totalmente la struttura di correlazione delle serie temporali, le ricampiona in blocchi, sperando che ciò rispetti la struttura di correlazione. Il bootstrap parametrico che hai citato dice: "Invece di armeggiare con i dati e assemblare le nuove bambole dai pezzi di quelli vecchi, perché non stampo l'intera Barbie stampata per te invece? Ho capito che tipo delle Barbie che ti piacciono, e ti prometto che ti farò diventare anche quello che vorresti. " Invece di armeggiare con i dati e assemblare le nuove bambole dai pezzi di quelli vecchi, perché non stampo l'intera Barbie stampata per te invece? Ho capito che tipo di Barbie ti piace, e prometto che te ne farò anche uno che vorresti. " Invece di armeggiare con i dati e assemblare le nuove bambole dai pezzi di quelli vecchi, perché non stampo l'intera Barbie stampata per te invece? Ho capito che tipo di Barbie ti piace, e prometto che te ne farò anche uno che vorresti. "

Nel caso del bootstrap parametrico che hai descritto, devi essere dannatamente sicuro che il tuo modello HMM sia praticamente perfetto, altrimenti il tuo bootstrap parametrico potrebbe portare a risultati errati (Barbie che non possono muovere le braccia). Pensa all'esempio di regressione eteroschedastica sopra riportato; o pensa ad adattare un modello AR (1) ai dati AR (5): qualunque cosa tu faccia con i dati parametricamente simulati, non avranno la struttura che avevano i dati originali.

Modifica : come Sadeghd ha chiarito la sua domanda, posso rispondere anche a quello. Esiste un'enorme varietà di procedure bootstrap, ognuna delle quali affronta la particolare stranezza nella statistica, nella dimensione del campione, nella dipendenza o in qualsiasi altro problema con il bootstrap. Non esiste un solo modo per affrontare la dipendenza, ad esempio. (Ho lavorato con i bootstrap del sondaggio, ci sono circa 8 procedure diverse, sebbene alcune siano per lo più di interesse metodologico piuttosto che pratico; e alcune sono chiaramente inferiori in quanto sono applicabili solo in casi speciali, non facilmente generalizzabili.) Per un discussione generale di problemi che potresti incontrare con il bootstrap, vedi Canty, Davison, Hinkley e Ventura (2006). Diagnostica e rimedi Bootstrap. The Canadian Journal of Statistics, 34 (1), 5-27 .

— Stask
fonte

Solo per aggiungere un po 'alla tua affermazione sull'avere meno informazioni quando hai cluster di dati dipendenti (nella sezione Media ), credo che ciò sia vero dove c'è una correlazione intraclasse positiva all'interno di un cluster, ma è vero il contrario quando c'è negativo correlazione intraclasse. Naturalmente, sembra che nella maggior parte delle applicazioni di dati reali le correlazioni intraclasse siano positive.

— Macro

@Macro: hai certamente ragione su entrambi i fronti (che ciò è tecnicamente possibile e che è praticamente irrilevante). Lo stesso vale se si stima il livello medio di un processo AR (1) con una correlazione negativa, ma ancora una volta non riesco a pensare a processi reali che potrebbero avere questa caratteristica. A differenza dell'autocorrelazione positiva auto-riproducibile su scale temporali diverse, la correlazione negativa deve scomparire se si raddoppia la durata del periodo di riferimento. (I dati sui cicli economici, come il PIL degli Stati Uniti, hanno correlazioni negative alla durata del ritardo di circa tre anni.)

— StasK

Grazie per la tua risposta dettagliata. Ho concluso che il ricampionamento parametrico può ridurre l'effetto della dipendenza. Tuttavia, la distribuzione parametrica deve essere, in buona parte, rappresentativa della popolazione reale e gli schemi di dipendenza devono essere rigenerati nel ricampionamento.

— Sadeghd,