Come decidere quale famiglia glm usare?


17

Ho dati sulla densità dei pesci che sto cercando di confrontare tra diverse tecniche di raccolta, i dati hanno molti zeri e l'istogramma sembra molto appropriato per una distribuzione di poisson tranne per il fatto che, come densità, non sono dati interi. Sono relativamente nuovo per i GLM e ho passato gli ultimi giorni a cercare online come capire quale distribuzione usare ma non sono riuscito a trovare risorse che aiutino a prendere questa decisione. Un istogramma di esempio dei dati è simile al seguente:Istogramma di esempio

Non ho idea di come decidere la famiglia appropriata da utilizzare per il GLM. Se qualcuno ha qualche consiglio o potrebbe darmi una risorsa che dovrei controllare, sarebbe fantastico.


1
Che cos'è esattamente la "densità dei pesci"? È un numero di pesci per unità di volume del lago, ad esempio?
gung - Ripristina Monica

È il numero di pesci per unità di superficie (in questo caso metri quadrati). Abbiamo utilizzato strumenti di rilevamento visivo, quindi è calcolato dal numero di pesci osservati diviso per l'area rilevata dallo strumento. Abbiamo dovuto usare la densità per standardizzare tra gli strumenti perché rilevano quantità molto diverse di area, altrimenti potrei semplicemente usare i dati di conteggio e attenermi a una distribuzione di poisson.
C. Denney,

7
Il mio consiglio: torna ai dati di conteggio e usa "area" come offset in un modello con un collegamento log --- ma non so che Poisson si adatterà molto bene (è un po 'difficile da indovinare dal momento che il tuo istogramma mostra solo la distribuzione marginale piuttosto che le distribuzioni condizionali che il GLM modellerebbe ... e in ogni caso ha troppi contenitori per essere molto utile). Se il Poisson non è abbastanza pesante / spike-at-0-ish, un binomio negativo potrebbe funzionare, oppure potresti aver bisogno di modelli a gonfiaggio zero o
ostacolare

Faccio la modellazione di Poisson tutto il giorno ogni giorno e il commento di Glen_b è la risposta canonica.
Paul,

2
Un addendum: la modellazione di Poisson è teoricamente ben giustificata quando le unità di osservazione (in questo caso, immagino che tu conti i singoli pesci?) Sono distribuite indipendentemente attraverso il campo di osservazione, come granelli di sabbia sparsi casualmente. Sotto questo presupposto ci possono essere alcune variazioni nella densità, ma la posizione di un pesce non implica nulla riguardo alle posizioni di altri pesci. Ma attenzione, questo presupposto potrebbe essere violato nella pratica perché i pesci si raggruppano, ad esempio nelle scuole, e quindi le loro posizioni non sono più indipendenti.
Paul,

Risposte:


8

Le famiglie GLM comprendono una funzione di collegamento e una relazione media-varianza. Per i GLM di Poisson, la funzione di collegamento è un registro e la relazione media-varianza è l'identità. Nonostante gli avvertimenti forniti dalla maggior parte dei software statistici, è del tutto ragionevole modellare una relazione in dati continui in cui la relazione tra due variabili è lineare sulla scala del registro e la varianza aumenta in base alla media.

Questa, in sostanza, è la logica per la scelta della funzione di collegamento e varianza in un GLM. Naturalmente, ci sono diverse ipotesi alla base di questo processo. È possibile creare un modello più robusto utilizzando quasilikelihood (vedi ?quasipoisson) o errori standard robusti (vedi pacchetto sandwicho gee).

Hai notato correttamente che molte densità sono 0 nei tuoi dati. In base ai modelli di probabilità di Poisson, è opportuno campionare occasionalmente 0 nei dati, quindi non è necessariamente il caso che queste osservazioni causino distorsioni nelle stime delle tariffe.

Per esaminare le ipotesi alla base dei GLM, di solito è utile esaminare i residui di Pearson. Questi spiegano la relazione di varianza media e mostrano allo statistico se particolari osservazioni, come questi 0, influenzano egregiamente la stima e i risultati.


22

Il modello lineare generalizzato è definito in termini di predittore lineare

η=Xβ

g

g(E(Y|X))=η

YX=X1,X2,,XkYX

E(Y|X)=μ=g1(η)

quindi il modello può essere definito in termini probabilistici come

Y|Xf(μ,σ2)

ffYYXYX

D'altra parte, in pratica, se sei interessato a costruire un modello predittivo, potresti essere interessato a testare alcune diverse distribuzioni e alla fine apprendere che uno di essi ti dà risultati più accurati degli altri anche se non è il più "appropriato" in termini di considerazioni teoriche (ad esempio in teoria dovresti usare Poisson, ma in pratica la regressione lineare standard funziona meglio per i tuoi dati).


2

Questa è una domanda in qualche modo ampia, stai chiedendo come fare la modellazione e ci sono interi libri dedicati a questo. Ad esempio, quando si ha a che fare con i dati di conteggio, considerare quanto segue:

Oltre a scegliere una distribuzione, devi scegliere una funzione di collegamento. Con i dati di conteggio è possibile provare la distribuzione binomiale negativa o negativa e la funzione collegamento log. Un motivo per il collegamento del registro è indicato qui: Bontà di adattamento e quale modello scegliere la regressione lineare o Poisson Se le patch hanno aree molto diverse, forse dovresti includere il logaritmo di area come offset, per contare i conteggi per unità di area e non assoluti conta. Per una spiegazione dell'offset nella regressione dei dati di conteggio, vedere Quando utilizzare un offset in una regressione di Poisson?

EDIT 

Questa risposta è stata originariamente inviata a un'altra domanda, che è stata unita a questa. Mentre la risposta è generale, ha commentato le specifiche di un set di dati e un problema che non si trovano più nella domanda. La domanda originale può essere trovata nel seguente link: Famiglia in GLM - come scegliere quella giusta?


Non possiamo separare le domande, @kjetil, solo gli sviluppatori possono farlo (e davvero non gli piace). Tuttavia, posso ancora accedere alla Q originale. 1 possibilità è che potrei copiare il contenuto in un nuovo Q (che sarebbe stato creato da me), che potresti copiare questo A nel nuovo thread, e quindi potrei chiudere quel thread come duplicato di questo. È difficile dire se è un'idea folle o se vale la pena, ma è quello che posso fare. Hai una preferenza?
gung - Ripristina Monica

@gung: puoi farlo, oppure posso copiare le informazioni da quella domanda nella risposta qui. Forse è il migliore? (Posso modificare quello che sembra dalla cronologia delle modifiche)
kjetil b halvorsen,

1
@kjetilbhalvorsen prima di tutto, scusatemi per aver fatto un pasticcio dato che era mia idea unire i thread in quanto sembravano essere quasi gli stessi ed entrambi contenevano buone risposte. La mia impressione iniziale è stata che l'unione dei thread non avrebbe fatto male. Forse potresti semplicemente aggiungere "Ad esempio, quando hai a che fare con i dati di conteggio ..." al tuo secondo paragrafo? La tua risposta risponde bene al generale "Come scegliere la famiglia?" domanda, quindi forse vale la pena lasciarlo nel thread generale?
Tim

1
@ Tim modificherò come dici tu!
kjetil b halvorsen,

Proviamo la modifica. Se vuoi che ripubbidi la Q, eseguimi di nuovo il ping. Ora licenzierò la bandiera.
gung - Ripristina Monica
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.