Prima risponderò alla tua terza domanda e in seguito affronterò le altre due.
- Cosa pensi che significhi quando dice "Lazo (e relativi) ... ma non nella distribuzione posteriore"?
Questa figura dalle sue diapositive mostra cosa intende dire. Esprimere il regolarizzatore del lazo come una distribuzione precedente significa che la tua distribuzione precedente assumerà la forma di una distribuzione laplaciana o doppia esponenziale . Questa distribuzione ha un picco caratteristico non uniforme alla media, che è impostato su 0 per ottenere un effetto di regolarizzazione sparsa. Per ottenere direttamente un risultato lazo regolarizzato, è necessario utilizzare la modalità di distribuzione posteriore.
Nella figura, la linea tratteggiata blu rappresenta la distribuzione precedente di Laplacian. La distribuzione posteriore, in nero solido, ha la sua modalità a 0 a sinistra con una debole probabilità, mentre la modalità è diversa da zero a destra con una forte probabilità.
Tuttavia, la distribuzione posteriore completa non è scarsa, perché se si esegue il campionamento da essa raramente si otterrà un valore vicino a 0, e in effetti, poiché si tratta di una distribuzione continua, non si otterrà mai esattamente 0.
Per ottenere la scarsità con un approccio lazo, in genere è necessario impostare una soglia di taglio sulla modalità posteriore. Il caso ideale è se la tua modalità posteriore è uguale a 0, ma potresti rilassarla ed eliminare la tua variabile se la sua modalità posteriore è inferiore a 0,2 dopo aver preso il valore assoluto.
L'esecuzione di questa sparsificazione sotto il lazo fornisce una serie particolare di regressori eliminati e mantenuti, che è la "singola decisione" su quali regressori sono inclusi o esclusi.
Un approccio completamente bayesiano alla selezione delle variabili, il picco e la lastra precedente, conserva incertezza su quali variabili debbano essere incluse o escluse lungo tutto il modello.
Quindi, per rispondere alla tua prima domanda:
- Sono migliori nel senso che usano sostanzialmente un approccio a forza bruta per testare ogni possibile sottoinsieme di regressori da includere?
Questo è un malinteso, poiché nessuno dei due metodi verifica tutti i possibili sottogruppi di regressori da includere.
- Lo svantaggio è il tempo di calcolo nel farlo?
Anche questo è un malinteso, dal momento che il tempo di calcolo non è dominato dalla forza bruta che verifica ogni possibile sottoinsieme di regressori.
Per chiarire il punto di Scott, dati alcuni dati, se si utilizza un approccio di sparsificazione della probabilità penalizzato, si otterrà esattamente un set di regressori inclusi ed esclusi. Ma se usi un approccio di sparsificazione a spike e slab, hai una distribuzione posteriore completa per ciascun regressore, ognuno con una probabilità separata di essere incluso o escluso. Alcuni regressori potrebbero avere una probabilità del 70% di essere inclusi, altri una probabilità del 25%. Questo può essere preferibile in molte applicazioni, poiché dato un singolo set di dati dovremmo avere ancora incertezza su quali regressori siano importanti o meno.
Intuitivamente, un picco e una lastra rappresentano meglio il possibile spazio dei regressori inclusi / esclusi rispetto a un approccio di probabilità penalizzato come il lazo.