Gli errori standard di bootstrap e gli intervalli di confidenza sono appropriati nelle regressioni in cui l'assunzione di omoscedasticità è violata?


13

Se nelle regressioni OLS standard vengono violate due assunzioni (distribuzione normale di errori, omoscedasticità), il bootstrap degli errori standard e degli intervalli di confidenza è un'alternativa appropriata per arrivare a risultati significativi rispetto alla significatività dei coefficienti regressore?

I test di significatività con errori standard avviati e intervalli di confidenza "funzionano" ancora con l'eteroscedasticità?

In caso affermativo, quali sarebbero gli intervalli di confidenza applicabili che possono essere utilizzati in questo scenario (percentile, BC, BCA)?

Infine, se il bootstrap è appropriato in questo scenario, quale sarebbe la letteratura pertinente che deve essere letta e citata per arrivare a questa conclusione? Qualsiasi suggerimento sarebbe molto apprezzato!


1
Se c'è una tale violazione, non credo che il bootstrap la curi. Invece, perché non provare a trasformare (registrare) i dati per avvicinarsi alla normalità e utilizzare un errore standard solido come dal pacchetto sandwich in R?
B_Miner

Il bootstrap funziona bene se adegui lo schema di ricampionamento alla situazione in cui ti trovi.
Glen_b -Restate Monica

Risposte:


20

Esistono almeno tre (forse più) approcci per eseguire il bootstrap per la regressione lineare con dati indipendenti, ma non distribuiti in modo identico. (Se si verificano altre violazioni dei presupposti "standard", ad esempio a causa di autocorrelazioni con dati di serie temporali o clustering a causa della progettazione del campionamento, le cose diventano ancora più complicate).

  1. Puoi ricampionare l'osservazione nel suo insieme, cioè prelevare un campione con la sostituzione di dai dati originali { ( y i , x i ) } . Ciò sarà asintoticamente equivalente all'esecuzione della correzione dell'eteroschedasticità di Huber-White .(yj,xj){(yi,xi)}
  2. ei=yixiβ^xjej
  3. È possibile eseguire il bootstrap selvaggio in cui ricampionare il segno del residuo, che controlla per il secondo momento condizionale (e, con alcune modifiche aggiuntive, anche per il terzo momento condizionale). Questa sarebbe la procedura che consiglierei (a condizione che tu possa capirlo e difenderlo agli altri quando ti viene chiesto, "Cosa hai fatto per controllare l'eteroschedasticità? Come fai a sapere che funziona?").

Il riferimento ultimo è Wu (1986) , ma gli Annali non sono esattamente la lettura del libro illustrato.

AGGIORNAMENTI basati sulle domande di follow-up del PO poste nei commenti:

Il numero di repliche mi sembrava grande; l'unica buona discussione di questo parametro bootstrap di cui sono a conoscenza è nel libro Intro to Bootstrap di Efron & Tibshirani .

M) sul confronto tra il bootstrap e le correzioni di eteroschedasticità.


Grazie mille per il vostro aiuto! Consentitemi una domanda di seguito: le uniche ipotesi che violato sono la normale distribuzione degli errori e le ipotesi di omoscedasticità. Inoltre, mi interessa solo vedere se i miei coefficienti di regressione sono sig. nella direzione prevista o no. L'entità dell'effetto non è importante. Penso che ciò che ho fatto finora sia la tua opzione 1. Ho avviato errori standard e generato in aggiunta intervalli di confidenza bootstrap. L'ho fatto usando Stata: vce (bootstrap, reps (2500) bca), estat bootstrap. Ciò cura le mie violazioni delle ipotesi?
David,

Non faccio diagnostica dei dati solo sulla base della tua sintassi, e nessuno lo farà. Qual è la dimensione del set di dati? reps(2500)è probabilmente un sovraccarico, almeno per gli errori standard; Penso che reps(500)sia OK per gli scopi più pratici. Il libro sul bootstrap introduttivo di Efron & Tibshirani ha una sezione sul numero di repliche. Hanno anche un intero capitolo sulla regressione, quindi potrebbe essere un altro buon riferimento da guardare.
StasK

Grazie per la pronta risposta. Il set di dati è ~ 250. Le domande sul numero di repliche a parte (grazie per il link!), Concorderesti che gli errori standard avviati dal bootstamping (tramite il ricampionamento delle osservazioni nel loro insieme) e / o gli intervalli di confidenza bootstraped (es. Percentile o bias corretto) sarebbero un modo appropriato per determinare il significato (o la mancanza di esso) di un coefficiente di regressione data la violazione dell'omoscedasticità e la normale distribuzione dell'assunzione di errori? Grazie mille per il tuo contributo!
David,

Sì, direi che è meglio. Se usi Stata anche se potresti ottenere una risposta molto simile usando l' robustopzione della tua regressione. est storeentrambi i risultati e est tab, seloro per confrontare fianco a fianco.
Attacco

Grazie StasK. Ho anche visto il seguente commento che hai fatto altrove in questo sito: "Bootstrap semplice con ricampionamento estim Stimatore robusto per l'eteroschedasticità di White". Nel contesto delle mie domande come indicato sopra: ci sono articoli di riviste pubblicati che sottolineano questo punto?
David,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.