La famiglia di GLM rappresenta la distribuzione della variabile di risposta o dei residui?


13

Ne ho discusso con diversi membri del laboratorio su questo, e siamo andati a diverse fonti, ma ancora non ho la risposta:

Quando diciamo che un GLM ha una famiglia di poisson , diciamo che stiamo parlando della distribuzione dei residui o della variabile di risposta?

Punti di contesa

  1. Leggendo questo articolo si afferma che i presupposti della GLM sono l'indipendenza statistica delle osservazioni, la specifica corretta della funzione di collegamento e varianza (che mi fa pensare ai residui, non alla variabile di risposta), la scala corretta di misurazione per la variabile di risposta e mancanza di indebita influenza di singoli punti

  2. Questa domanda ha due risposte con due punti ciascuna, quella che appare per prima parla dei residui, e la seconda per la variabile di risposta, che cos'è?

  3. In questo post sul blog , quando si parla di ipotesi, si afferma " La distribuzione dei residui può essere diversa, ad esempio, binomiale "

  4. All'inizio di questo capitolo affermano che la struttura degli errori deve essere Poisson, ma i residui avranno sicuramente valori positivi e negativi, come può essere Poisson?

  5. Questa domanda, che spesso viene citata in domande come questa per renderle duplicate, non ha una risposta accettata

  6. Questa domanda le risposte parlano di risposta e non di residui

  7. In questa descrizione del corso dell'Università di Pensilvania si parla della variabile di risposta nelle ipotesi, non dei residui

Risposte:


18

L' argomento della famiglia per i modelli glm determina la famiglia di distribuzione per la distribuzione condizionale della risposta , non dei residui (ad eccezione dei quasi- modelli).

Guarda in questo modo: per la solita regressione lineare, possiamo scrivere il modello come Ciò significa che la risposta ha una distribuzione normale (con varianza costante), ma l'aspettativa è diversa per ogni . Pertanto la distribuzione condizionale della risposta è una distribuzione normale (ma diversa per ogni ). Un altro modo di scrivere questo modello è dove ogni è distribuito .

Yio~Normale(β0+XioTβ,σ2).
Yioioio
Yio=β0+XioTβ+εio
εioNormale(0,σ2)

β0+XioTβεio

Quindi, per tutte quelle altre famiglie, usiamo una definizione nello stile della prima equazione visualizzata sopra. Cioè, la distribuzione condizionale della risposta. Quindi, no, i residui (qualunque sia definito) nella regressione di Poisson non hanno una distribuzione di Poisson.


13

Oltre all'eccellente risposta di Kjetil, volevo aggiungere alcuni esempi specifici per chiarire il significato di una distribuzione condizionale , che può essere un po 'un concetto sfuggente.

Diciamo che hai prelevato un campione casuale di 100 pesci da un lago e sei interessato a vedere come l'età del pesce influenza diverse variabili di risultato:

  1. Peso del pesce (peso);
  2. Se i pesci sono più lunghi di 30 cm;
  3. Numero di squame.

La prima variabile di risultato è continua, la seconda è binaria (0 = il pesce NON è più lungo di 30 cm; 1 = il pesce È più lungo di 30 cm) e il terzo è una variabile di conteggio.

Regressione lineare semplice

In che modo l'età influisce sul peso? Stai per formulare un semplice modello di regressione lineare del modulo:

Peso=β0+β1*Età+ε

εσβ0+β1*Età

Regressione logistica binaria semplice

In che modo l'età influenza se i pesci sono più lunghi di 30 cm? Stai per formulare un semplice modello di regressione logistica binaria del modulo:

log(p1-p)=β0+β1*Età

pβ0+β1*Etàpp*(1-p)

Regressione di Poisson semplice

In che modo l'età influenza il numero di squame? Stai per formulare un semplice modello di regressione di Poisson del modulo:

log(μ)=β0+β1*Età

μβ0+β1*Età

Per riassumere, una distribuzione condizionale rappresenta la distribuzione dei valori di risultato per valori specifici delle variabili predittive incluse nel modello . Ogni tipo di modello di regressione illustrato sopra impone alcune ipotesi distributive sulla distribuzione condizionale della variabile di risultato data Età. Sulla base di questi presupposti distributivi, il modello procede a formulare come (1) la media della distribuzione condizionale varia in funzione dell'età (regressione lineare semplice), (2) la media trasformata in logit della distribuzione condizionale varia in funzione di age (semplice regressione logistica binaria) o (3) la media trasformata in log della distribuzione condizionale varia in funzione dell'età.

Per ogni tipo di modello, è possibile definire i residui corrispondenti ai fini del controllo del modello. In particolare, i residui di Pearson e di devianza potrebbero essere definiti per i modelli di regressione logistica e di Poisson.


2
Risposte ECCELLENTI. Grazie a tutti e due. Non ho mai capito che il residuo "reale" non è mai veramente esplicito nel quadro generale di GLM come nel normale caso di distribuzione.
mlofton,

1
@mlofton: grazie per le tue gentili parole. Un'ottima domanda ha invitato risposte eccellenti. Tutti beneficiamo di questo scambio di conoscenze.
Isabella Ghement,

4
Ho usato GLM per molto tempo (per un anno o due come 10 anni fa) e questa è sempre stata la mia confusione, ma non ho mai saputo che fosse la mia confusione fino a quando non è stato chiesto così chiaramente e spiegato così chiaramente. Quindi a volte confusione significa nemmeno essere in grado di porre la domanda giusta. Grazie ancora.
mlofton,

1
Hai assolutamente ragione! La confusione fa parte dell'apprendimento - quando lottiamo con qualcosa per un po ', siamo pronti a capirlo meglio quando improvvisamente inciampiamo in una chiara spiegazione.
Isabella Ghement,

1
Piacere e grazie per la tua eccellente risposta @IsabellaGhement
Patrick,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.