Dalla tua domanda precedente hai appreso che GLM è descritto in termini di distribuzione di probabilità, predittore lineare e funzione di collegamento g ed è descritto comeηg
ηE( Y| X)= Xβ= μ = g- 1( η)
dove è una funzione di collegamento logit e si presume che Y segua una distribuzione di BernoulligY
Yio~ B( μio)
ciascun consegue distribuzione di Bernoulli con il proprio medio μ i che è subordinata X . Siamo non assumendo che ciascun Y i proviene dalla stessa distribuzione, con lo stesso mezzo (questo sarebbe l'intercetta-unico modello Y i = g - 1 ( μ ) ), ma che tutti hanno mezzi differenti. Partiamo dal presupposto che Y i è indipendente , cioè non dobbiamo preoccuparci di cose come l'autocorrelazione tra valori Y i successivi ecc.Yio μioXYioYio= g- 1( μ )YioYio
L' ipotesi iid è correlata a errori nella regressione lineare (ad es. GLG gaussiana), in cui si trova il modello
yio= β0+ β1Xio+ εio= μio+ εio
dove , quindi abbiamo IID rumore intorno a μ i . Questo è il motivo per cui sono interessati alla diagnostica dei residui e prestano attenzione alla trama dei residui rispetto a quella montata . Ora, nel caso della regressione logistica come GLM non è così semplice poiché non esiste un termine di rumore additivo come con il modello gaussiano (vedi qui , qui e quiεio~ N( 0 , σ2)μio). Vogliamo ancora che i residui siano "casuali" intorno allo zero e non vogliamo vedere alcuna tendenza in essi perché suggeriscono che ci sono alcuni effetti che non sono stati presi in considerazione nel modello, ma non assumiamo che lo siano normale e / o iid . Vedi anche L'importanza dell'assunzione di iid nel thread di apprendimento statistico .
Come sidenote, notiamo che possiamo persino abbandonare l'assunto che ogni provenga dallo stesso tipo di distribuzione. Esistono modelli (non GLM) che ritenere che differenti Y i 's può avere diverse distribuzioni con diversi parametri, vale a dire che i dati proviene da una miscela di differenti distribuzioni . In tal caso, supponiamo anche che i valori Y i siano indipendenti , poiché i valori dipendenti, provenienti da diverse distribuzioni con parametri diversi (cioè dati tipici del mondo reale) sono qualcosa che nella maggior parte dei casi sarebbe troppo complicato da modellare (spesso impossibile) .YioYioYio