Quale diagnostica può convalidare l'uso di una particolare famiglia di GLM?


19

Sembra così elementare, ma mi blocco sempre a questo punto ...

La maggior parte dei dati di cui mi occupo non sono normali e la maggior parte delle analisi si basa su una struttura GLM. Per la mia analisi attuale, ho una variabile di risposta che è "velocità di camminata" (metri / minuto). È facile per me identificare che non posso usare OLS, ma poi ho una grande incertezza nel decidere quale famiglia (Gamma, Weibull, ecc.) Sia appropriata!

Uso Stata e guardo la diagnostica come i residui e l'eteroscedasticità, i residui rispetto ai valori adattati, ecc.

Sono consapevole che i dati di conteggio possono assumere la forma di un tasso (ad esempio i tassi di incidenza) e hanno utilizzato la gamma (dall'analogo ai modelli binomiali negativi discreti sovradispersi), ma vorrei solo che una "pistola fumante" dicesse SÌ, AVETE IL DIRITTO FAMIGLIA. Guardare i residui standardizzati rispetto ai valori adattati è l'unico e il modo migliore per farlo? Vorrei utilizzare un modello misto per tenere conto anche di una certa gerarchia nei dati, ma prima devo selezionare quale famiglia descrive meglio la mia variabile di risposta.

Qualsiasi aiuto apprezzato. Il linguaggio degli stata è particolarmente apprezzato!


4
" Vorrei che una" pistola fumante "dicesse SÌ, AVETE LA FAMIGLIA GIUSTA " - niente lo dirà. Il meglio che puoi sperare è una famiglia che non sia chiaramente sbagliata. Ci sono molti modi in cui puoi scegliere una famiglia distributiva, ma in generale tende a coinvolgere una combinazione di considerazioni a priori o teoriche e le indicazioni dai dati stessi.
Glen_b

Risposte:


14

Ho alcuni consigli:

(1) Il modo in cui i residui devono essere confrontati con gli adattamenti non è sempre così ovvio, quindi è bene avere familiarità con la diagnostica per modelli particolari. Nei modelli di regressione logistica, ad esempio, la statistica di Hosmer-Lemeshow viene utilizzata per valutare la bontà di adattamento; i valori di leva tendono ad essere piccoli dove le probabilità stimate sono molto grandi, molto piccole o quasi pari; & presto.

(2) A volte una famiglia di modelli può essere vista come un caso speciale di un'altra, quindi puoi utilizzare un test di ipotesi su un parametro per aiutarti a scegliere. Exponential vs Weibull, per esempio.

(3) Il criterio informativo di Akaike è utile nella scelta tra diversi modelli, che include la scelta tra famiglie diverse.

(4) La conoscenza teorica / empirica di ciò che stai modellando restringe il campo dei modelli plausibili.

Ma non esiste un modo automatico per trovare la famiglia "giusta"; i dati della vita reale possono provenire da distribuzioni complicate come preferisci e la complessità dei modelli che vale la pena provare ad adattarsi aumenta con la quantità di dati che hai. Questo fa parte del dictum di Box secondo cui nessun modello è vero ma alcuni sono utili.

Commento di Re @ gung: sembra che il test di Hosmer-Lemeshow comunemente usato sia (a) sorprendentemente sensibile alla scelta dei contenitori, e (b) generalmente meno potente di alcuni altri test rispetto ad alcune pertinenti classi di ipotesi alternative. Ciò non toglie il punto (1): è anche bello essere aggiornati.


Grazie! I tuoi suggerimenti sono concisi e precisi. Sono limitato nelle famiglie che posso usare a causa della struttura della mia variabile di risposta (positiva, continua, ma fortemente distorta). Tra la famiglia esponenziale, sembra che la gamma sia davvero l'unica opzione. Nel frattempo, ho trovato alcuni strumenti utili di NJ Cox come appare in Stata Jounal 5 (2): 259-273 - gammafit (stima dei parametri di forma e scala) e dpplot consente la sovrapposizione del grafico della probabilità di densità e della mia variabile di risposta (può essere fatto con molte distribuzioni e mi permette di abbinare la migliore famiglia ai miei dati). Grazie anche per altri suggerimenti!
RLang,

1
Si noti che il test Hosmer-Lemeshow GoF ha dimostrato di dipendere dal binning utilizzato / essere inaffidabile.
gung - Ripristina Monica

@Gung, dipende chiaramente dal binning usato - non è l'ideale, ma non è sicuro che sia un grosso problema a meno che non inizi a giocherellare con i binnings per cercare il risultato che desideri. Come è inaffidabile e quali altri test sono migliori?
Scortchi - Ripristina Monica


1
Hai ragione che "invalido" è troppo forte; Ho solo detto "inaffidabile" e Harrell usa "obsoleto", però.
gung - Ripristina Monica

8

Si possono trovare interessante leggere la vignetta (manuale introduttivo) per il pacchetto R fitdistrplus. Riconosco che preferisci lavorare a Stata, ma penso che la vignetta sarà sufficientemente autoesplicativa da poter ottenere alcune informazioni sul processo di inferimento delle famiglie distributive dai dati. Probabilmente sarai in grado di implementare alcune idee in Stata tramite il tuo codice. In particolare, penso che il grafico di Cullen e Frey, se è / potrebbe essere implementato in Stata, potrebbe esserti utile.


Ho rivisitato di nuovo questo problema e sono passato a R e sto usando Zuur e Ieno come guida. Ancora molti problemi, ma in generale penso che usando varIdent la diagnostica del mio modello sembri avere una "minore eterogeneità". Tracciare i residui contro gli adattati sembra buono, i residi contro ogni covariata forniscono alcuni risultati stravaganti per una delle mie variabili del modello (elevazione) - principalmente una funzione di piccole dimensioni del campione ad alta quota. Grazie per il tuo commento su fitdistrplus. Ora che sto usando R e Rstudio (lo adoro!) Questo sarà utile!
Rang

1
Il collegamento è interrotto. È questo il manuale introduttivo di cui parlavi? cran.r-project.org/doc/contrib/Ricci-distributions-en.pdf O era questo: cran.r-project.org/web/packages/fitdistrplus/vignettes/…
emschorsch

Quest'ultimo collegamento sembra essere una versione diversa della vignetta a cui mi riferivo.
gung - Ripristina Monica
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.