Perché abbiamo bisogno del Bootstrapping?


16

Attualmente sto leggendo "All of Statistics" di Larry Wasserman e perplesso per qualcosa che ha scritto nel capitolo sulla stima delle funzioni statistiche di modelli non parametrici.

Ha scritto

"A volte possiamo trovare l'errore standard stimato di una funzione statistica eseguendo alcuni calcoli. Tuttavia in altri casi non è ovvio come stimare l'errore standard".

Vorrei sottolineare che nel prossimo capitolo parla di bootstrap per affrontare questo problema, ma dal momento che non capisco davvero questa affermazione non ottengo pienamente l'incentivo dietro Bootstrapping?

Quale esempio esiste quando non è ovvio come stimare l'errore standard?

Tutti gli esempi che ho visto finora sono stati "ovvio", come allora ^ s e ( p n ) = X1,...Xn Ber(p)se^(p^n)=p^(1p^)/n


Risposte:


16

Due risposte.

  1. Qual è l'errore standard del rapporto tra due mezzi? Qual è l'errore standard della mediana? Qual è l'errore standard di qualsiasi statistica complessa? Forse c'è un'equazione in forma chiusa, ma è possibile che nessuno l'abbia ancora capito.
  2. Per usare la formula per (diciamo) l'errore standard della media, dobbiamo fare alcune ipotesi. Se tali presupposti vengono violati, non possiamo necessariamente utilizzare il metodo. Come sottolinea @Whuber nei commenti, il bootstrap ci consente di allentare alcune di queste ipotesi e quindi potrebbe fornire errori standard più appropriati (sebbene possa anche fare ipotesi aggiuntive).

2
La risposta 1 va bene, ma la risposta 2 sembra porre la domanda, perché anche il bootstrap fa ipotesi. Suppongo che il punto potrebbe essere che in genere fa ipotesi diverse rispetto ad altre procedure popolari, ma questa è solo la mia ipotesi su ciò che stai cercando di dire e potrei sbagliarmi.
whuber

@Whuber - grazie, ho aggiunto un po 'di chiarimenti.
Jeremy Miles,

5
Grazie per le modifiche. Ma non è il caso che il bootstrap in genere faccia ipotesi diverse , piuttosto che rilassarne alcune? Ad esempio, le ipotesi necessarie per stimare una SE di una media campionaria sono che i dati sono identificati e che la distribuzione sottostante presenta una varianza finita. Il bootstrap deve effettivamente aggiungere ipotesi in questo caso: non funziona a meno che la dimensione del campione non sia "sufficientemente grande". Anche se questo potrebbe sembrare un cavillo sui tecnicismi, quello che sto cercando di affrontare è il quadro generale: il bootstrap non è né una panacea né è sempre applicabile.
whuber

3
@JeremyMiles il bootstrap non è privo di ipotesi. È necessario verificare che la distribuzione sia fondamentale per la maggior parte dei calcoli degli errori bootstrap, che spesso possono essere più complicati rispetto all'ottenimento di uno stimatore coerente per un errore standard. Inoltre, il rapporto dei mezzi ha un'approssimazione dell'errore molto semplice ottenuta dal metodo δ. Quindi non credo che l'esempio sfidi il punto del PO.
AdamO,

9

XYW

E[Y|X]=β0+β1XE[Y|X,W]=γ0+γ1X+γ2W

β1γ1 .

Y

Saremmo adatti a due modelli 1: adattarsi al fumo e al risultato insieme ad altri fattori confondenti come età, sesso, reddito e storia familiare di malattie cardiache, quindi 2: tutte le covariate precedenti e l'indice di massa corporea. La differenza nell'effetto fumo tra i modelli 1 e 2 è dove basiamo la nostra inferenza.

H:β1=γ1K:β1γ1

T=β1-γ1S=β1/γ1o qualsiasi numero di misurazioni. È possibile utilizzare i soliti stimatori perT e S. L'errore standard di questi stimatori è molto complicato da derivare. Il bootstrap della loro distribuzione, tuttavia, è una tecnica comunemente applicata ed è facile da calcolarep-valore direttamente da quello.


Penso di capire dove stai andando con questa risposta, ma sono perplesso dai dettagli. Hai intenzione di mettere cappelli sopra i parametri nelle tue descrizioni diT e S? The text sounds like these should be properties of a model rather than estimators. What sense does it make to mix properties of two different models like this? If you really did mean hats, then T and S are statistics, apparently to be used as estimators, but what are they intended to estimate?
whuber

@whuber I think you're right that in conventional notation they don't use hats. I will make the edit. Perhaps I was not clear enough... there are two parameters for the same variable fit in two different models on the same dataset. It is very difficult to directly calculate the standard error of the statistics T and S.
AdamO

The only way I have been able to make sense of this is to understand the second model to be nested in the first, so that the hypothesis you are testing is γ2=0. I do not even know of a valid definition of "hypothesis" that involves two separate models.
whuber

@whuber Ah I see the confusion. Please see a recommended article from MacKinnon here.
AdamO

Thank you: that reference helps me understand your example much better. Although I have reservations about the many theoretical solecisms involved in that approach, they are irrelevant to the aptness of your example: it suffices that people have actually tried to understand data in this way and have seen a need to estimate standard errors for estimators of T or S. I notice, though, that your last paragraph still does not distinguish between T and its estimator: T is a model property and as such has no distribution and no SE. An estimator of T does have a distribution.
whuber

2

Having parametric solutions for each statistical measure would be desirable but, at the same time, quite unrealistic. Bootstrap comes in handy in those instances. The example that springs to my mind concerns the difference between two means of highly skewed cost distributions. In that case, the classic two-sample t-test fails to meet its theoretical requirements (the distributions from which the samples under investigation were drawn surely depart from normality, due to their long right-tail) and non-parametric tests lack to convey useful infromation to decision-makers (who are usually not interested in ranks). A possible solution to avoid being stalled on that issue is a two-sample bootstrap t-test.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.