Significato dei coefficienti di regressione (GAM) quando la probabilità del modello non è significativamente superiore a nulla


10

Sto eseguendo una regressione basata su GAM usando il pacchetto R gamlss e assumendo una distribuzione beta a zero inflazionata dei dati. Ho solo una singola variabile esplicativa nel mio modello, quindi è fondamentalmente: mymodel = gamlss(response ~ input, family=BEZI).

L'algoritmo mi dà il coefficiente per l'impatto della variabile esplicativa nella media ( ) e il valore p associato per , qualcosa del tipo:μ k ( input ) = 0kμk(input)=0

Mu link function:  logit                                               
Mu Coefficients:                                                      
              Estimate  Std. Error  t value   Pr(>|t|)                  
(Intercept)  -2.58051     0.03766  -68.521  0.000e+00                  
input        -0.09134     0.01683   -5.428  6.118e-08

Come puoi vedere nell'esempio sopra, l'ipotesi di viene respinta con grande fiducia.k(input)=0

Quindi eseguo il modello null: null = gamlss(response ~ 1, family=BEZI)e confronto le probabilità usando un test del rapporto di verosimiglianza:

p=1-pchisq(-2*(logLik(null)[1]-logLik(mymodel)[1]), df(mymodel)-df(null)).

In un certo numero di casi, ottengo anche quando i coefficienti in ingresso sono altamente significativi (come sopra). Lo trovo abbastanza insolito - almeno non è mai successo nella mia esperienza con regressione lineare o logistica (in realtà, questo non è mai accaduto quando stavo usando una gamma a regolazione zero con gamlss).p>0.05

La mia domanda è: posso ancora fidarmi della dipendenza tra risposta e input quando questo è il caso?

Risposte:


1

Non vedo motivo immediato per cui questo dovrebbe essere correlato a GAM. Il fatto è che stai usando due test per la stessa cosa. Poiché non esiste una certezza assoluta nelle statistiche, è molto probabile che uno dia un risultato significativo e l'altro no.

Forse uno dei due test è semplicemente più potente (ma forse si basa su alcune ipotesi in più), o forse l'unico significativo è l'errore di tipo I su uno su venti.

Un buon esempio sono i test per stabilire se i campioni provengono dalla stessa distribuzione: si hanno test molto parametrici per questo (il T-test è uno che può essere usato per questo: se i mezzi sono diversi, così dovrebbero essere le distribuzioni), e anche non parametrici quelli: potrebbe accadere che quello parametrico dia un risultato significativo e quello non parametrico no. Ciò potrebbe essere dovuto al fatto che i presupposti del test parametrico sono falsi, perché i dati sono semplicemente straordinari (tipo I) o perché la dimensione del campione non è sufficiente affinché il test non parametrico rilevi la differenza o, infine, perché l' aspetto di ciò che vuoi veramente testare (distribuzioni diverse) che viene controllato dai diversi test è semplicemente diverso (diversi significa <-> possibilità di essere "superiore a").

Se un risultato del test mostra risultati significativi e l'altro è solo leggermente non significativo, non mi preoccuperei troppo.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.