Come interpretare i valori P GAM?


10

Mi chiamo Hugh e sono uno studente di dottorato che usa modelli di additivi generalizzati per fare alcune analisi esplorative.

Non sono sicuro di come interpretare i valori-p che provengono dal pacchetto MGCV e volevo verificare la mia comprensione (sto usando la versione 1.7-29 e ho consultato parte della documentazione di Simon Wood). Ho cercato prima altre domande sul CV, ma le più rilevanti sembrano riguardare le regressioni generali, non i valori p di GAM in particolare.

So che ci sono molti argomenti diversi in GAM e i valori p sono solo approssimativi. Ma sto appena iniziando a vedere se c'è qualche "segnale" per le mie covariate. Per esempio:

Y ~ s (a, k = 3) + s (b, k = 3) + s (c, k = 3) + s (d, k = 3) + s (e, k = 3)

Valori p approssimativi di termini uniformi:

s (a) = 0.000473
s (b) = 1.13e-05
s (c) = 0.000736
s (d) = 0.887579
s (e) = 0.234017

R ² (aggiustato) = 0,62 Devianza spiegata = 63,7% Punteggio GCV = 411,17 Scale est. = 390,1 n = 120

Ho tagliato le colonne df, ecc., A causa della formattazione. Sto interpretando i valori di p per ogni covariata come un test per stabilire se la corrispondente funzione liscia riduce significativamente la devianza del modello, dove p è la probabilità di ottenere dati almeno "relativamente non plausibili" come quelli osservati con un modello nullo di 0.

Ciò significherebbe che (ad esempio con alfa = 0,05) le funzioni levigate non hanno ridotto la deviazione per "d" ed "e" rispetto a un modello nullo, mentre lo hanno fatto per gli altri termini. Quindi (d) ed (e) non aggiungono informazioni significative alla regressione e la devianza spiegata è dovuta a (a) (b) (c)?

Qualsiasi consiglio sarebbe molto apprezzato, e buona fortuna con la tua ricerca.

Risposte:


8

Il documento che descrive come funzionano è qui .

Sono valori p associati ai test Wald che l'intera funzione s (.) = 0. Valori p bassi indicano una bassa probabilità che le spline che compongono la funzione siano congiuntamente zero.

La cosa complicata è che coinvolgono uno pseudoinverso di rango ridotto. Il tipico test Wald è . Puoi vedere immediatamente che questo è un test t nel caso univariato (cioè non matrici ma beta e varianza). Ciò fornisce una potenza molto bassa nel caso di spline penalizzate perché tali coefficienti sono penalizzati. Lo pseudoinverso rango lo spiega. Il documento è davvero piuttosto denso, ma una volta acquisito l'essenza generale - migliorare la potenza di un test tenendo conto di EDF anziché del rango di matrice - diventa possibile seguire il formalismo.f^(Vβ)-1f^

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.