Usare la regolarizzazione quando si fa inferenza statistica


17

Conosco i vantaggi della regolarizzazione quando si creano modelli predittivi (distorsione rispetto alla varianza, prevenendo un eccesso di adattamento). Ma mi chiedo se sia una buona idea fare anche regolarizzazione (lazo, cresta, rete elastica) quando lo scopo principale del modello di regressione è l'inferenza sui coefficienti (vedere quali predittori sono statisticamente significativi). Mi piacerebbe ascoltare i pensieri delle persone, nonché i collegamenti a riviste accademiche o articoli non accademici che affrontano questo problema.


4
La regolarizzazione può essere vista con gli occhi bayesiani, il lazo, ad esempio, corrisponde a un doppio precedente esponenziale (con scala scelta dalla validazione incrociata). Quindi una possibilità è quella di andare a fondo.
kjetil b halvorsen,

1
determinare quali predittori sono diversi da zero è ciò di cui parla il lazo! Se vuoi determinare quali sono statisticamente significativamente distinti da zero, è estremamente utile considerare metodi come il lazo
user795305

Risposte:


8

Il termine "regolarizzazione" copre una vasta gamma di metodi. Ai fini di questa risposta, intendo definire "ottimizzazione penalizzata", ovvero aggiungere una penalità o L 2 al problema di ottimizzazione.L1L2

In tal caso, la risposta è un "Sì! Beh, un po '" definitivo.

La ragione di ciò è che l'aggiunta di una penalità o L 2 alla funzione di verosimiglianza porta esattamente alla stessa funzione matematica dell'aggiunta di un Laplace o di un gaussiano prima della probabilità di ottenere la distribuzione posteriore (pitch dell'elevatore: la distribuzione precedente descrive l'incertezza dei parametri prima di vedere i dati, la distribuzione posteriore descrive l'incertezza dei parametri dopo aver visto i dati), che porta alle statistiche bayesiane 101. Le statistiche bayesiane sono molto popolari e vengono eseguite continuamente con l'obiettivo di dedurre gli effetti stimati.L1L2

Quello era il "Sì!" parte. "Well kinda" è che l' ottimizzazione della distribuzione posteriore viene eseguita e viene chiamata stima "Maximum A Posterior" (MAP). Ma la maggior parte dei bayesiani non usa la stima MAP, campionano dalla distribuzione posteriore usando algoritmi MCMC! Ciò presenta numerosi vantaggi, uno dei quali tende a presentare una minore propensione al ribasso nei componenti della varianza.

Per brevità, ho cercato di non entrare nei dettagli delle statistiche bayesiane, ma se questo ti interessa, è il posto da cui iniziare a cercare.


2
(+1) Ma se ho usato quei priori solo perché danno buone previsioni - anzi forse li avrei sintonizzati a tale scopo - allora cosa devo fare delle stime MAP o delle distribuzioni posteriori? (Naturalmente se avessi sollecitato i priori a rappresentare la conoscenza dei parametri prima di vedere i dati, so esattamente cosa farne.)
Scortchi - Ripristina Monica

1
@Scortchi: questo è un ottimo punto: usare la validazione incrociata per scegliere le penalità ti porta ben fuori dal classico quadro bayesiano (per quanto ne so). Costruire un modello con CV per scegliere i parametri di regolarizzazione non coinciderebbe con questa risposta, ma usando la regolarizzazione con penalità fisse, scelto sulla base di informazioni di esperti.
Cliff AB,

2
Un avvertimento: l'approccio precedente + MCMC darà risultati validi solo se i posteriori di tutti i potenziali coefficienti vengono esaminati e riportati. Altrimenti, ci troviamo in una impostazione di inferenza selettiva e le metodologie di inferenza più ingenue non saranno valide.
user3903581

1
(+1) Buona risposta! Tuttavia, penso che valga la pena chiarire la frase "Ma la maggior parte dei bayesiani non usa la stima MAP, campionano dalla distribuzione posteriore usando algoritmi MCMC!" Sembra che tu stia cercando di dire che la maggior parte dei bayesiani usa l'intero posteriore nella scelta del proprio stimatore. Per vedere il problema, notare che dal campione è possibile effettuare una stima per la distribuzione posteriore.
user795305

8

Esiste una differenza sostanziale tra l'esecuzione della stima utilizzando penalità di tipo cresta e penalità di tipo lazo. Gli stimatori del tipo di cresta tendono a ridurre tutti i coefficienti di regressione verso lo zero e sono di parte, ma hanno una distribuzione asintotica facile da derivare perché non riducono nessuna variabile esattamente a zero. La distorsione nelle stime della cresta può essere problematica nel successivo test delle ipotesi, ma non ne sono un esperto. D'altro canto, le penalità di tipo Lazo / rete elastica riducono a zero molti coefficienti di regressione e possono quindi essere viste come tecniche di selezione dei modelli. Il problema di eseguire l'inferenza su modelli che sono stati selezionati in base ai dati è generalmente indicato come problema di inferenza selettiva o inferenza post-selezione. Questo campo ha visto molti sviluppi negli ultimi anni.

y~N(μ,1)μμ|y|>c>0cycy

Allo stesso modo, il Lazo (o rete elastica) limita lo spazio del campione in modo da garantire che il modello selezionato sia stato selezionato. Questo troncamento è più complicato, ma può essere descritto analiticamente.

Sulla base di questa intuizione, è possibile eseguire un'inferenza basata sulla distribuzione troncata dei dati per ottenere statistiche di test valide. Per gli intervalli di confidenza e le statistiche dei test, vedere il lavoro di Lee et al .: http://projecteuclid.org/euclid.aos/1460381681

I loro metodi sono implementati nel pacchetto R. SelectiveInference .

Stima ottimale (e test) dopo che la selezione del modello è discussa in (per il lazo): https://arxiv.org/abs/1705.09417

e il loro pacchetto software (molto meno completo) è disponibile in: https://github.com/ammeir2/selectiveMLE


4

Raccomanderei in particolare LASSO se si sta tentando di utilizzare la regressione per deduzione basata su "quali predittori sono statisticamente significativi" - ma non per il motivo che ci si potrebbe aspettare.

In pratica, i predittori in un modello tendono ad essere correlati. Anche se non esiste una sostanziale multicollinearità, la scelta della regressione di predittori "significativi" tra l'insieme di predittori correlati può variare sostanzialmente da campione a campione.

Quindi sì, vai avanti e fai LASSO per la tua regressione. Quindi ripetere l'intero processo di creazione del modello (inclusa la convalida incrociata per selezionare la penalità LASSO) su più campioni bootstrap (alcune centinaia o giù di lì) dai dati originali. Scopri quanto può essere variabile l'insieme di predittori "significativi" selezionati in questo modo.

A meno che i tuoi predittori non siano fortemente ortogonali tra loro, questo processo dovrebbe farti riflettere due volte sull'interpretazione dei valori di p in una regressione in termini di quali i singoli predittori sono "significativamente" importanti.


1
+1 Sono d'accordo con tutto ciò che è scritto, risposta molto pragmatica, ma perché non usare la rete elastica al posto di LASSO? (dato che anche l'OP lo menziona) La regolarizzazione della cresta controllerebbe le correlazioni tra predittori in modo un po 'più evidente.
usεr11852 dice Reinstate Monic il

È infatti possibile calcolare valori p, stime e intervalli di confidenza validi nei modelli che sono stati selezionati tramite il lazo o la rete elastica, devono solo essere eseguiti correttamente.
user3903581

@utente3903581 Non ho dubbi sul fatto che si possano ottenere validi valori p di LASSO frequentatore, nel senso che una vera ipotesi nulla porterebbe a un coefficiente così grande che, per esempio, nel 5% dei campioni replicati. Il problema è nei tentativi fin troppo frequenti di attribuire inferenze causali solo ai predittori così considerati "significativi" senza considerare i problemi sollevati dai predittori correlati.
EdM,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.