Ipotesi di modello lineare generalizzato


14

Ho realizzato un modello lineare generalizzato con una singola variabile di risposta (continua / normalmente distribuita) e 4 variabili esplicative (3 delle quali sono fattori e il quarto è un numero intero). Ho usato una distribuzione degli errori gaussiana con una funzione di collegamento identità. Attualmente sto verificando che il modello soddisfi le ipotesi del modello lineare generalizzato, che sono:

  1. indipendenza di Y
  2. funzione di collegamento corretta
  3. scala corretta di misurazione delle variabili esplicative
  4. nessuna osservazione influente

La mia domanda è: come posso verificare che il modello soddisfi questi presupposti? Il miglior punto di partenza sembrerebbe tracciare la variabile di risposta rispetto a ciascuna variabile esplicativa. Tuttavia, 3 delle variabili esplicative sono categoriche (con 1-4 livelli), quindi cosa dovrei cercare nei grafici?

Inoltre, devo verificare la multicollinearità e le interazioni tra le variabili esplicative? Se sì, come posso fare con variabili esplicative categoriche?

Risposte:


20

Penso che provare a pensare a questo come a un modello lineare generalizzato sia eccessivo. Quello che hai è un semplice vecchio modello di regressione. Più specificamente, poiché hai alcune variabili esplicative categoriche e un EV continuo, ma nessuna interazione tra loro, questo potrebbe anche essere chiamato un classico ANCOVA.

Direi che il n. 3 non è davvero un presupposto qui di cui devi preoccuparti. Né, del resto, devi preoccuparti davvero del n. 2. Invece, sopporterei questi con due diversi presupposti:

2' . Omogeneità della varianza
3 '. Normalità dei residui

Inoltre, # 4 è una cosa importante da controllare, ma io non credo di come un presupposto per sé. Pensiamo a come verificare le ipotesi.

L'indipendenza viene spesso "verificata" in primo luogo pensando a cosa significano i dati e come sono stati raccolti. Inoltre, può essere controllato usando cose come un test delle esecuzioni , un test di Durbin-Watson o esaminando il modello delle autocorrelazioni: puoi anche guardare le autocorrelazioni parziali . (Nota che questi possono essere valutati solo in relazione alla tua covariata continua.)

Con variabili esplicative principalmente categoriche, l' omogeneità della varianza può essere verificata calcolando la varianza a ciascun livello dei fattori. Dopo averli calcolati, ci sono diversi test usati per verificare se sono più o meno gli stessi, principalmente il test di Levene , ma anche il test Brown-Forsyth . IlFmun'Xil test, chiamato anche test di Hartley, non è raccomandato; se desideri maggiori informazioni a riguardo, ne discuterò qui . (Nota che questi test possono essere applicati alle tue covariate categoriche diversamente da quanto sopra.) Per un EV continuo, mi piace semplicemente tracciare i miei residui contro la covariata continua ed esaminarli visivamente per vedere se si estendono ulteriormente da una parte o dall'altra.

La normalità dei residui può essere valutata mediante alcuni test, come quelli di Shapiro-Wilk o Kolmogorov-Smirnov , ma spesso è meglio valutarli visivamente tramite un diagramma qq . (Nota che questo presupposto è generalmente il meno importante dell'insieme; se non viene soddisfatto, le tue stime beta saranno comunque imparziali , ma i tuoi valori p saranno inaccurati.)

Esistono diversi modi per valutare l' influenza delle tue singole osservazioni. È possibile ottenere valori numerici che lo indicizzano, ma il mio modo preferito, se riesci a farlo, è di raccogliere i tuoi dati. Cioè, rilascia ogni punto dati a sua volta e ri-adatta il tuo modello. Quindi puoi esaminare quanto rimbalzano le beta se quell'osservazione non faceva parte del tuo set di dati. Questa misura si chiama dfbeta . Ciò richiede un po 'di programmazione, ma ci sono modi standard che il software può spesso calcolare automaticamente. Questi includono la leva finanziaria e la distanza di Cook .

Riguardo alla tua domanda come inizialmente affermato, se vuoi saperne di più sulle funzioni di collegamento e sul modello lineare generalizzato, ne ho discusso abbastanza ampiamente qui . Fondamentalmente, la cosa più importante da considerare per selezionare una funzione di collegamento appropriata è la natura della distribuzione della risposta; da quando ci crediY è gaussiano, il collegamento di identità è appropriato e puoi semplicemente pensare a questa situazione usando idee standard sui modelli di regressione.

Per quanto riguarda la "scala corretta di misurazione delle variabili esplicative", vi presumo che vi riferiate ai livelli di misurazione di Steven (cioè, categorici, ordinali, intervallo e rapporto). La prima cosa da capire è che i metodi di regressione (inclusi i GLiM) non fanno ipotesi sulle variabili esplicative, invece, il modo in cui usi le tue variabili esplicative nel tuo modello riflette le tue convinzioni su di esse. Inoltre, tendo a pensare che i livelli di Steven siano eccessivi; per un trattamento più teorico di tale argomento, vedere qui .


1
Dal momento che l'Oper includeva una funzione di collegamento, penso che intendesse davvero un modello lineare generalizzato in cui una funzione di collegamento è applicata a Y. Inoltre, definirei indipendenza di Y come presupposto. L'ipotesi penso sia più propriamente che i componenti dell'errore nel modello siano indipendenti. Dato che penso che il resto di ciò che Gung abbia scritto sia corretto.
Michael R. Chernick,

@MichaelChernick, sono d'accordo con te. Ho modificato un po 'la mia risposta per affrontare questi problemi. Fammi sapere se pensi che abbia ancora bisogno di più lavoro.
gung - Ripristina Monica
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.