Come interpretare il termine di intercettazione in un GLM?


20

Sto usando R e ho analizzato i miei dati con GLM con collegamento binomiale.

Voglio sapere qual è il significato dell'intercetta nella tabella di output. L'intercettazione di uno dei miei modelli è significativamente diversa, tuttavia la variabile no. Cosa significa questo?

Qual è l'intercettazione. Non so se mi sto solo confondendo, ma dopo aver cercato su Internet, non c'è proprio niente da dire, è questo, prenderne atto ... o no.

Per favore, aiutate, uno studente molto frustrato


glm(formula = attacked_excluding_app ~ treatment, family = binomial, 
    data = data)
Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-2.3548   0.3593   0.3593   0.3593   0.3593  
Coefficients:
                         Estimate Std. Error z value Pr(>|z|)   
(Intercept)                 2.708      1.033   2.622  0.00874 **
treatmentshiny_non-shiny    0.000      1.461   0.000  1.00000

(Dispersion parameter for binomial family taken to be 1)
Null deviance: 14.963  on 31  degrees of freedom
Residual deviance: 14.963  on 30  degrees of freedom
(15 observations deleted due to missingness)
AIC: 18.963
Number of Fisher Scoring iterations: 5

1
Qual è la funzione di collegamento specificata in glm?
Tomas,

5
L'intercetta è il valore previsto della variabile dipendente quando tutte le variabili indipendenti sono 0. Senza ulteriori informazioni sul modello, non posso dire se questo sia significativo nel tuo caso.
Peter Flom - Ripristina Monica

Risposte:


21

Il termine di intercettazione è l'intercetta nella parte lineare dell'equazione GLM, quindi il tuo modello per la media è , dove g è la tua funzione di collegamento e X β è il tuo modello lineare. Questo modello lineare contiene un "termine di intercettazione", ovvero:E[Y]=g-1(Xβ)gXβ

Xβ=c+X1β1+X2β2+

Nel tuo caso l'intercettazione è significativamente diversa da zero, ma la variabile non lo è, quindi lo sta dicendo

Xβ=c0

Perché la tua funzione di collegamento è binomiale, quindi

g(μ)=ln(μ1-μ)

E così, con il solo termine di intercettazione, il modello adattato per la media è:

E[Y]=11+e-c

Puoi vedere che se questo corrisponde semplicemente a una probabilità 50:50 di ottenere Y = 1 o 0, cioè E [ Y ] = 1c=0E[Y]=11+1=0.5

Quindi il tuo risultato sta dicendo che non puoi prevederne il risultato, ma una classe (1 o 0) è più probabile dell'altra.


2
Mi hai spaventato a E [Y] = .... :). Grazie per la risposta, capisco (gentilmente) cosa stai dicendo. Hai detto che l'intercettazione è sig. diverso da zero, ma il var. non lo è, è p = 1.00 !? Che effetto hanno le variabili p-value su ciò che posso dire sul resut?
Samuel Waldron,

2
Se un valore p delle variabili non è piccolo, quello in genere non includerebbe quella variabile nel modello. Nel tuo caso la variabile non è nemmeno stimata per avere un valore diverso da zero, quindi il valore p di 1,00. Fondamentalmente non esiste alcuna relazione tra "trattamento" e "attacked_excluding_app". L'assenza di relazione è così perfetta qui che è quasi sospetta, sebbene tu abbia un piccolo set di dati. Potrebbe valere la pena visualizzare i dati e vedere se è ragionevole.
Corone,

2
+1 per la risposta, (e suggerimento nel commento che qualcosa di strano sta accadendo nel set di dati) anche se non sarei d'accordo con l'apertura del tuo commento "Se un valore p delle variabili non è piccolo, quello in genere non includerebbe quella variabile nel modello." Questo non è necessariamente così - spesso si vuole segnalare l'entità di una relazione, anche se non è "significativa" (e soprattutto, se si fosse interessati a modellare una relazione per iniziare, allora un risultato nullo è ancora importante da segnalare.)
James Stanley,

1
@James - ottimo punto, si dovrebbe sempre segnalare quali variabili hai testato - avrei dovuto essere più chiaro, volevo semplicemente dire che in genere non includevo quella variabile quando provavo a usare il modello per fare una previsione (dal momento che di solito significherebbe un overfitting ).
Corone,

@Corone - Sono particolarmente interessato ai tuoi commenti qui sulla variabile in / esclusion e la loro relazione con il thread su stats.stackexchange.com/questions/17624/…
rolando2

5

Mi sembra che ci possano essere dei problemi con i dati. È strano che la stima dei parametri per il coefficiente sia 0.000. Sembra che sia il tuo DV sia il tuo IV siano dicotomici e che le proporzioni del tuo DV non variano affatto con il tuo IV. È giusto?

L'intercettazione, come ho notato nel mio commento (e come implica la risposta di @corone) è il valore del DV quando IV è 0. Come è stato codificato il tuo IV? Come è, tuttavia, il fatto che la stima per il coefficiente sia 0.000 implica che IV non fa alcuna differenza.

log(p1-p)


Ciao ragazzi, grazie ancora per i commenti. I punti dati sono quasi identici. Lo sto segnalando in un rapporto e devo comunque evidenziarlo. Ecco perché i risultati sembrano strani. Con questi dati (GLM) e altri insiemi di dati nei miei rapporti (GLMM), sono decisamente in esecuzione (# TEAM2x2x2x2) prima di poter camminare. Penso che il mio problema principale sia sapere cosa devo segnalare, devo menzionare le statistiche per l'intercettazione o per l'IV? Di seguito è di nuovo il mio GLMM (si spera più standard) con collegamento binomiale.
Samuel Waldron,

Modello misto lineare generalizzato adattato dalla approssimazione di Laplace Formula: Attaccato ~ Trattamento + Prova + Trattamento * Prova + (1 | Uccello) Dati: dati AIC BIC logLik devianza 139,6 153,8 -64,78 129,6 Effetti casuali: Gruppi Nome Varianza Std.Dev. Bird (Intercettazione) 0.87795 0.93699 Numero di obs: 128, gruppi: Bird, 32
Samuel Waldron

Effetti fissi: Stima Std. Valore z errore Pr (> | z |) (intercetta) 3.19504 0.90446 3.533 .000412 *** Trattamenti lucido_non-lucido 0,02617 1,26964 0,021 .983558 Prova -1,53880 0,36705 -4,192 2,76e-05 *** Trattamento: prova 0,16909 0,49501 0,342 .732655 --- Signif. codici: 0 ' ' 0,001 ' ' 0,01 ' ' 0,05 '.' 0.1 '' 1 Correlazione di effetti fissi: (Intr) Trtm_- Trial Trtmntshn_- -0.712 Trial -0.895 0.638 Trtmnts _-: T 0.664 -0.896 -0.742
Samuel Waldron

3

Nel tuo caso, l'intercettazione è la media di attacked_excluding_app, calcolata per tutti i dati indipendentemente da treatment. Il test di significatività nella tabella dei coefficienti sta verificando se è significativamente diverso da zero. Se questo è rilevante dipende dal fatto che tu abbia qualche ragione a priori per aspettarti che sia zero o no.

Ad esempio, immagina di aver testato un farmaco e un placebo per il loro effetto sulla pressione sanguigna. Per ogni soggetto, si registra la variazione della loro pressione sanguigna calcolando (pressione dopo il trattamento - pressione prima del trattamento) e trattarla come la variabile dipendente nell'analisi. Scoprirai quindi che l'effetto del trattamento (farmaco vs. placebo) non è significativo ma che l'intercettazione è significativamente> 0 - questo ti direbbe che in media la pressione sanguigna dei tuoi soggetti è aumentata tra i due tempi di misurazione. Questo potrebbe essere interessante e richiedere ulteriori approfondimenti.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.