Punta e lastra bayesiane contro metodi penalizzati


11

Sto leggendo le diapositive di Steven Scott sul pacchetto BSTS R (le puoi trovare qui: diapositive ).

Ad un certo punto, quando si parla di includere molti regressori nel modello strutturale delle serie temporali, introduce i picchi di picco e di lastra dei coefficienti di regressione e afferma che sono migliori rispetto ai metodi penalizzati.

Scott dice, riferendosi ad un esempio di un set di dati con 100 predittori:

  • I metodi penalizzati prendono un'unica decisione su quali variabili sono incluse / escluse, ciò significa che decidono un sottoinsieme di predittori, cioè un modello tra i possibili.2100
  • "I priori del lazo (e correlati) non sono radi, inducono la scarsità nella modalità ma non nella distribuzione posteriore"

A questo punto introduce i priori Spike e Slab.

Penso di aver avuto l'intuizione, ma voglio esserne sicuro:

  • Sono migliori nel senso che usano sostanzialmente un approccio a forza bruta per testare ogni possibile sottoinsieme di regressori da includere?
  • Lo svantaggio è il tempo di calcolo nel farlo?
  • Cosa pensi che significhi quando dice "Lazo (e relativi) ... ma non nella distribuzione posteriore"?

Risposte:


10

Prima risponderò alla tua terza domanda e in seguito affronterò le altre due.

  1. Cosa pensi che significhi quando dice "Lazo (e relativi) ... ma non nella distribuzione posteriore"?

Questa figura dalle sue diapositive mostra cosa intende dire. Esprimere il regolarizzatore del lazo come una distribuzione precedente significa che la tua distribuzione precedente assumerà la forma di una distribuzione laplaciana o doppia esponenziale . Questa distribuzione ha un picco caratteristico non uniforme alla media, che è impostato su 0 per ottenere un effetto di regolarizzazione sparsa. Per ottenere direttamente un risultato lazo regolarizzato, è necessario utilizzare la modalità di distribuzione posteriore.

test

Nella figura, la linea tratteggiata blu rappresenta la distribuzione precedente di Laplacian. La distribuzione posteriore, in nero solido, ha la sua modalità a 0 a sinistra con una debole probabilità, mentre la modalità è diversa da zero a destra con una forte probabilità.

Tuttavia, la distribuzione posteriore completa non è scarsa, perché se si esegue il campionamento da essa raramente si otterrà un valore vicino a 0, e in effetti, poiché si tratta di una distribuzione continua, non si otterrà mai esattamente 0.

Per ottenere la scarsità con un approccio lazo, in genere è necessario impostare una soglia di taglio sulla modalità posteriore. Il caso ideale è se la tua modalità posteriore è uguale a 0, ma potresti rilassarla ed eliminare la tua variabile se la sua modalità posteriore è inferiore a 0,2 dopo aver preso il valore assoluto.

L'esecuzione di questa sparsificazione sotto il lazo fornisce una serie particolare di regressori eliminati e mantenuti, che è la "singola decisione" su quali regressori sono inclusi o esclusi.

Un approccio completamente bayesiano alla selezione delle variabili, il picco e la lastra precedente, conserva incertezza su quali variabili debbano essere incluse o escluse lungo tutto il modello.

Quindi, per rispondere alla tua prima domanda:

  1. Sono migliori nel senso che usano sostanzialmente un approccio a forza bruta per testare ogni possibile sottoinsieme di regressori da includere?

Questo è un malinteso, poiché nessuno dei due metodi verifica tutti i possibili sottogruppi di regressori da includere.

  1. Lo svantaggio è il tempo di calcolo nel farlo?

Anche questo è un malinteso, dal momento che il tempo di calcolo non è dominato dalla forza bruta che verifica ogni possibile sottoinsieme di regressori.

Per chiarire il punto di Scott, dati alcuni dati, se si utilizza un approccio di sparsificazione della probabilità penalizzato, si otterrà esattamente un set di regressori inclusi ed esclusi. Ma se usi un approccio di sparsificazione a spike e slab, hai una distribuzione posteriore completa per ciascun regressore, ognuno con una probabilità separata di essere incluso o escluso. Alcuni regressori potrebbero avere una probabilità del 70% di essere inclusi, altri una probabilità del 25%. Questo può essere preferibile in molte applicazioni, poiché dato un singolo set di dati dovremmo avere ancora incertezza su quali regressori siano importanti o meno.

Intuitivamente, un picco e una lastra rappresentano meglio il possibile spazio dei regressori inclusi / esclusi rispetto a un approccio di probabilità penalizzato come il lazo.


2
Grazie mille! La mia comprensione delle diapositive di Scott era così superficiale e parzialmente fuori dal comune, lo hai chiarito!
Tommaso Guerrini,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.