Selezione spline df in un problema di modello Poisson additivo generale

9

Ho adattato alcuni dati di serie temporali utilizzando un modello di additivo generale di Poisson utilizzando SAS PROC GAM. In generale, la procedura di convalida incrociata generalizzata incorporata genera almeno un "punto di partenza" decente per la mia singola spline, che è una funzione non lineare del tempo insieme a un singolo termine parametrico (quello che ho sono effettivamente interessato a).

Finora, ha funzionato piuttosto agevolmente, ad eccezione di uno dei miei set di dati. Ci sono 132 osservazioni in quel set di dati e GCV suggerisce una spline di 128 gradi di libertà. Sembra ... sbagliato. Molto sbagliato. Ancora più importante, inoltre, non è affatto stabile. Ho provato un secondo approccio, usando qualcosa come un criterio di "Modifica della stima" per smettere di aggiungere gradi di libertà quando la stima del termine parametrico smette di cambiare perché perché continuare ad aggiungere controllo se nulla è diverso?

Il problema è che la stima non è affatto stabile. Ho provato i seguenti gradi di libertà e, come puoi vedere, il termine parametrico rimbalza selvaggiamente:

DF: Parametric Estimate:
1   -0.76903
2   -0.56308
3   -0.47103
4   -0.43631
5   -0.33108
6   -0.1495
7    0.0743
8    0.33459
9    0.62413
10   0.92161
15   1.88763
20   1.98869
30   2.5223
40-60 had convergence issues
70   7.5497
80   7.22267
90   6.71618
100  5.83808
110  4.61436
128  1.32347

Non ho alcuna intuizione su cosa dovrei usare in termini di df per questo particolare bit di dati. Altre idee su come scegliere un df? Dovrei guardare al significato della spline?

Facendo un po 'di più tra df = 10 e df = 15, sembra che df = 12 sia il più vicino possibile alla stima generata da 128 ed essere ancora nell'intervallo dei "gradi di libertà ragionevoli". Insieme al termine lineare, all'intercetta e al singolo termine parametrico, sembra un modello piuttosto fortemente saturo. È giustificabile andare con 12?

Come secondo aggiornamento, cambiando il livellamento da spline(t)a loess(t)si ottengono stime df molto più ben educate - dovrei semplicemente passare al livellamento del loess?

— fomite
fonte

Nel set di dati con 132 osservazioni, esiste un termine di conteggio e offset associato, il che implica che in realtà è un set di dati ponderato con più di 132 osservazioni? A causa della relazione di varianza media nei camper Poisson, conteggi elevati possono portare a proprietà di "selezione del modello" che sono sfavorevoli a causa della "grande dimensione del campione".

— AdamO,

Il set di dati è composto da 132 settimane di dati, modellati come conteggi = termini del modello + log (persona-tempo) come offset. I conteggi non vanno mai particolarmente alti - ma ci sono un discreto numero di zero.

— Fomite

5

Come menzionato da @ M.Berk, GCV è noto per non regolare, principalmente perché questo criterio penalizza debolmente il sovradimensionamento, che tende a tradursi in un minimo molto superficiale nel criterio GCV in funzione di , il parametro smoothness. Poiché il minimo è molto superficiale, il GCV ottimale può verificarsi su una vasta gamma di stime . Inoltre, il criterio GCV, in funzione di tende ad avere minimi multipli, il che può portare all'instabilità che descrivi. Simon Wood (2011) ne ha una bella illustrazione nella sua Figura 1. $\lambda$ $\lambda$ $\lambda$

Wood (2011) mostra anche che AICc non offre molti vantaggi aggiuntivi rispetto a GCV per le basi di livello medio-basso utilizzate per le funzioni regolari.

Al contrario, la selezione di levigatezza REML (e anche ML) penalizza più fortemente l'adattamento rispetto a GCV e, di conseguenza, ha un ottimale molto più chiaramente definito. Ciò porta a stime più stabili di e a un rischio molto ridotto di sottostima. $\lambda$

Wood (2011) descrive le procedure di stima REML e ML che sono sia veloci che stabili, che mostra miglioramenti rispetto agli approcci REML (ML) esistenti in termini di convergenza. Queste idee sono disponibili in di Simon mgcv pacchetto per la R .

Dato che Wood (2011) è dietro un paywall, includo una copia di un'immagine simile (i risultati AICc non sono mostrati qui) presa da una serie di diapositive di Simon, disponibili sul suo sito Web , sui metodi di selezione della scorrevolezza {PDF}. La figura, dalla diapositiva 10, è mostrata di seguito

inserisci qui la descrizione dell'immagine

Le due righe riflettono dati simulati in cui è presente un segnale forte (superiore) o no (inferiore) rispettivamente. I pannelli più a sinistra mostrano una realizzazione di ciascun modello. I pannelli rimanenti mostrano come i criteri GCV (colonna centrale) e REML variano in funzione di per 10 set di dati ciascuno simulato dal modello reale. Nel caso della riga superiore, notare quanto GCV è piatto a sinistra dell'ottimale. La trama del tappeto in questi pannelli mostra il ottimale per ciascuna delle 10 realizzazioni. Il criterio REML ha un ottimale molto più pronunciato e una minore varianza nei valori scelti di . $\lambda$ $\lambda$ $\lambda$

Quindi suggerirei l'approccio sostenuto da Simon Wood per il suo pacchetto mgcv , ovvero scegliere come dimensione base qualcosa di sufficientemente grande da includere la flessibilità prevista nella relazione tra , ma non così grande. Quindi montare il modello usando la selezione della levigatezza REML. Se il grado di libertà del modello scelto è vicino alla dimensione specificata inizialmente, aumentare la dimensione di base e rimontarla. $y = f(x) + \varepsilon$

Come menzionano sia @ M.Berk che @BrendenDufault, potrebbe essere necessario un certo grado di soggettività quando si configura la base spline, in termini di selezione di una dimensione base appropriata da cui adattarsi al GAM. Ma la selezione della levigatezza REML si è dimostrata abbastanza solida nella mia esperienza in una gamma di applicazioni GAM che utilizzano i metodi di Wood.

Wood, SN (2011) Probabilità massima limitata stabile stabile e stima della probabilità marginale dei modelli lineari generalizzati semiparametrici . J. Royal Statistical Society B 73 (Parte 1), 3--6.

— Gavin Simpson
fonte

@EpiGrad Benvenuti. Mi dispiace, ho perso la domanda in quel momento; negli ultimi due anni ho avuto difficoltà con situazioni simili alle vostre e ho letto gli articoli di Simon Wood su questo e la selezione delle funzionalità in diverse occasioni. Sono contento di essere stato in grado di ricordare alcuni dettagli per aiutare.

— Gavin Simpson,

3

Penso che la tua scommessa migliore sia al di fuori degli algoritmi di smoothing; considerare la parsimonia del modello.

Alludi a questo, ma credo che debba diventare il tuo principale criterio di selezione. Chiediti quante "curve" sembrano ragionevoli in base all'eziologia / causalità dei processi modellati. Rappresenta plots=components(clm)graficamente le spline adattate con la frase e valuta visivamente l'adattamento. Forse le spline DF alte raccontano una storia simile alle spline DF basse, tranne che più rumorosamente. In tal caso, scegli un adattamento DF basso.

Dopo tutto, i modelli GAM devono essere esplorativi.

Avendo usato l' opzione gcv da solo, mi chiedo delle sue prestazioni in condizioni di Poisson, dati scarsi, ecc. Forse qui è previsto uno studio di simulazione.

— Brenden Dufault
fonte

2

Ho scritto la seguente risposta e poi ho capito che non avevo idea se fosse applicabile alla regressione di Poisson con la quale non ho esperienza. Forse le persone possono rispondere a questo con alcuni commenti.

Personalmente, mi piace il consiglio di BW Silverman (1985) "Alcuni aspetti dell'approccio di spline smoothing all'adattamento della curva di regressione non parametrica (con discussione)." (Disponibile senza abbonamento qui ): prova una serie di parametri di livellamento e scegli quello che è visivamente più attraente.

Come giustamente sottolinea anche nello stesso documento, mentre può essere preferito un approccio soggettivo, c'è ancora la necessità di metodi automatici. Tuttavia, GCV è generalmente una cattiva scelta in quanto ha una tendenza a non regolare. Vedi, ad esempio, Hurvich et al (1998) "Smoothing Selezione dei parametri nella regressione non parametrica usando un criterio di informazione Akaike migliorato" (Disponibile senza abbonamento qui ). Nello stesso documento propongono un nuovo criterio che può alleviare il tuo problema, l'AIC corretto che include una piccola correzione della dimensione del campione. È possibile trovare la descrizione di Wikipedia di AICc più facile da seguire rispetto al documento. L'articolo di Wikipedia include anche alcuni buoni consigli di Burnham & Anderson (vale a dire utilizzare AICc anziché AIC indipendentemente dalle dimensioni del campione).

In sintesi, i miei suggerimenti sarebbero, in ordine di preferenza:

Scegli manualmente il parametro di livellamento tramite valutazione visiva
Utilizzare l'AIC (AICc) corretto anziché GCV
Utilizzare l'AIC standard

— M. Berk
fonte