Quando utilizzare solidi errori standard nella regressione di Poisson?


10

Sto usando un modello di regressione di Poisson per i dati di conteggio e mi chiedo se ci sono ragioni per non utilizzare il robusto errore standard per le stime dei parametri? Sono particolarmente preoccupato poiché alcune delle mie stime senza robusto non sono significative (ad esempio, p = 0,13) ma con robusto sono significative (p <0,01).

In SAS questo è disponibile usando l'istruzione ripetuta in proc genmod(ad esempio, repeated subject=patid;). Ho usato http://www.ats.ucla.edu/stat/sas/dae/poissonreg.htm come esempio che cita un articolo di Cameron e Trivedi (2009) a supporto dell'uso di solidi errori standard.

Risposte:


6

In generale, se si sospetta che i propri errori siano eteroschedastici, è necessario utilizzare solidi errori standard. Il fatto che le tue stime diventino non significative quando non usi SE robuste suggerisce (ma non dimostra) la necessità di SE robuste! Questi SE sono "robusti" per il pregiudizio che l'eteroschedasticità può causare in un modello lineare generalizzato.

Questa situazione è un po 'diversa, tuttavia, in quanto li stai sovrapponendo alla regressione di Poisson.

Poisson ha una proprietà ben nota che forza la dispersione ad essere uguale alla media, indipendentemente dal fatto che i dati lo supportino o meno. Prima di considerare solidi errori standard, proverei una regressione binomiale negativa, che non soffre di questo problema. Esiste un test (vedere il commento) per aiutare a determinare se la modifica risultante negli errori standard è significativa.

Non so con certezza se il cambiamento che stai vedendo (passare a SE robusti restringe la CI) implica una dispersione insufficiente, ma sembra probabile. Dai un'occhiata al modello appropriato (penso che un binomio negativo, ma una rapida ricerca su google suggerisca anche quasi-Poisson per la sotto-dispersione?) E vedi cosa ottieni in quell'ambientazione.


Bella risposta! In genere, l'eteroschedasticità di OLS non causa l'imparzialità dei parametri (semplicemente inefficienti). Questo non è vero anche se per i modelli lineari generalizzati, vedi questo post di Dave Giles a riguardo per i riferimenti. Non credo di aver visto raccomandare il test Vuong per questo (per i confronti di modelli non gonfiati zero non annidati l'ho visto suggerito). Poisson è annidato nel Neg. Modello binomiale, quindi è possibile utilizzare un test del rapporto di verosimiglianza per il parametro di dispersione.
Andy W,

Grazie per la tua risposta Ho provato la regressione binomiale negativa ma mi sono imbattuto nell'avvertimento: "Il criterio relativo di convergenza dell'Assia di 0,0046138565 è maggiore del limite di 0,0001. La convergenza è discutibile." Nota che la mia variabile di risposta è un conteggio con valori compresi tra 0 e 4. Esiste una trasformazione della variabile dipendente o indipendente che aiuterebbe la convergenza? O cosa si fa in questo caso?
Kara,

Inoltre, in relazione al fatto che gli ES non robusti sono più piccoli - nella mia analisi vedo che sono gli ES robusti che sono più piccoli ed è qui che sta il significato (non nei risultati non robusti). Questo è il motivo per cui voglio stare attento a segnalare i risultati affidabili o meno - non voglio scegliere questo metodo solo per valori significativi! Grazie ancora!
Kara,

@AndyW Ho controllato i miei appunti e Vuong è davvero per ZI vs Poisson. Post aggiornato. kara ho perso l'inversione. Potresti avere dati dispersi, nel qual caso la NBD è potenzialmente anche la soluzione :-)
Ari B. Friedman,

@kara Difficile diagnosticare il problema di non convergenza nei commenti. Proverei una nuova domanda proprio su quella con tutte le informazioni che puoi fornire.
Ari B. Friedman,

1

Differenzierò le analisi usando errori basati su modelli rispetto a solidi standard facendo riferimento a questi ultimi come "GEE" che è in realtà una definizione scambiabile. Oltre alla fantastica spiegazione di Scortchi:

I GEE possono essere "distorti" in piccoli campioni, ovvero 10-50 soggetti: (Lipsitz, Laird e Harrington, 1990; Emrich e Piedmonte, 1992; Sharples e Breslow, 1992; Lipsitz et al., 1994; Qu, Piedmonte e Williams, 1994; Gunsolley, Getchell e Chinchilli, 1995; Sherman e le Cessie, 1997.) Quando dico che i GEE sono distorti, intendo che la stima dell'errore standard può essere conservativa o anticonservativa a causa di conteggi di cellule piccole o nulle , a seconda di quali valori adattati presentano questo comportamento e quanto sono coerenti con la tendenza generale del modello di regressione.

In generale, quando il modello parametrico è correttamente specificato, si ottengono comunque stime di errore standard corrette dagli elementi della configurazione basati sul modello, ma il punto centrale dell'utilizzo di GEE è quello di accogliere un "if" molto grande. I GEE consentono allo statistico di specificare semplicemente un modello di probabilità di lavoro per i dati e i parametri (anziché essere interpretati nel quadro strettamente parametrico) sono considerati un tipo di "setaccio" in grado di generare valori riproducibili indipendentemente dalla generazione di dati sconosciuta sottostante meccanismo. Questo è il cuore e l'anima dell'analisi semi-parametrica, di cui un GEE ne è un esempio.

I GEE gestiscono anche fonti non misurate di covariazione nei dati, anche con la specifica di una matrice di correlazione indipendente. Ciò è dovuto all'uso della matrice di covarianza empirica piuttosto che basata su modelli. Nella modellazione di Poisson, ad esempio, potresti essere interessato ai tassi di fertilità del salmone prelevati da vari flussi. Gli ovuli raccolti da pesci femmine potrebbero avere una distribuzione di Poisson sottostante, ma le variazioni genetiche che comprendono l'ereditarietà condivisa e le risorse disponibili in flussi specifici potrebbero rendere i pesci all'interno di tali flussi più simili rispetto ad altri flussi. Il GEE fornirà stime di errore standard della popolazione corrette purché la frequenza di campionamento sia coerente con la proporzione della popolazione (o sia in altri modi stratificata).


1

Fai un test del null di equidispersione. È una semplice regressione OLS ausiliaria. C'è una descrizione a pagina 670 di Cameron e Trivedi. Con una grande sovradispersione, gli errori standard sono molto deboli, quindi sarei molto diffidente nei confronti dei risultati che dipendono da un VCE non robusto quando c'è una sovradispersione. Con la sottodispersione, sarà vero il contrario, che sembra lo scenario in cui ti trovi.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.