Regolarizzazione che induce la scarsità per matrici stocastiche


10

È noto (ad esempio nel campo del rilevamento compressivo) che la norma è "inducente la scarsità", nel senso che se minimizziamo il funzionale (per matrice fissa A e vettore \ vec {b} ) f_ {A , \ vec {b}} (\ vec {x}) = \ | A \ vec {x} - \ vec {b} \ | _2 ^ 2 + \ lambda \ | \ vec {x} \ | _1 abbastanza grande \ lambda> 0 , è probabile che molte opzioni di A , \ vec {b} e \ lambda abbiano molte voci esattamente zero nello risultante \ vec {x} .L1Ab

fA,b(x)=Axb22+λx1
λ>0Abλx

Ma se minimizziamo fA,b a condizione che le voci di x siano positive e sommino a 1 , allora il termine L1 non ha alcun effetto (perché x1=1 di fiat). Esiste un L1 regolarizzante di tipo L_1 che funziona in questo caso per incoraggiare che il risultante x sia scarso?


Potresti approfondire "allora il termine L1 non ha alcun effetto (perché ||x||1=1 di fiat)"?
Cam.Davidson.Pilon

2
@ Cam.Davidson.Pilon: xi0 e ixi=1 implica x1=1 . :)
cardinale

1
Giustino: ulteriori dettagli potrebbero dare una migliore possibilità di una risposta utile. Ecco alcune domande che sorgono immediatamente dopo aver letto la tua descrizione: ( 1 ) Dov'è la "matrice stocastica" in tutto questo? Sembri solo descrivere una situazione che coinvolge un vettore stocastico . Questi potrebbero essere solo file individuali della tua matrice stocastica, oppure un'altra struttura potrebbe diventare evidente una volta presenti ulteriori dettagli. ( 2 ) Volete che le probabilità stesse siano sparse o forse sparse in una base appropriata? Se il primo, perché? (È una camminata casuale su un grafico ponderato (scarso)?)
Cardinale

Perché stai richiedendo che le voci di siano positive ? Dovresti invece richiedere che siano non negativi ? Inoltre, hai preso in considerazione la ri-parametrizzazione per eliminare il vincolo (supponendo che tu intenda non negativo)? In altre parole, provaxxi=exp(wi)jexp(wj)
jrennie,

1
@jrennie: Dato il contesto, dalla positiva Justin sicuramente significava non negativo .
cardinale il

Risposte:


2

Un metodo generale per la creazione di soluzioni sparse è tramite stima MAP con una media zero normale prima di una varianza sconosciuta.

p(xi|σi2)N(0,σi2)

Se quindi si assegna un precedente a che ha una modalità a zero, la modalità posteriore è generalmente scarsa. Il deriva da questo approccio prendendo una distribuzione miscelazione esponenziale.σi2L1

p(σi2|λ)Expo(λ22)

Quindi ottieni

log[p(xi|λ)]=λ|xi|+log[λ2]

Alcune alternative sono il doppio pareto generalizzato, metà cauchy, beta invertita. In un certo senso, questi sono migliori del lazo perché non riducono grandi valori. In effetti sono abbastanza sicuro che il doppio pareto generalizzato possa essere scritto come una miscela di esponenziali. Cioè scriviamo e quindi posizioniamo una gamma prima di . Noi abbiamo:λ=λip(λi|αβ)

p(xi|αβ)=α2β(1+|xi|β)(α+1)

Nota che ho incluso costanti normalizzanti, in quanto aiutano a scegliere buoni parametri globali. Ora, se applichiamo la limitazione dell'intervallo, allora abbiamo un problema più complicato, poiché dobbiamo rinormalizzare sul simplex.

Un'altra caratteristica generica delle penalità che inducono la scarsità è che non sono differenziabili a zero. Di solito questo è perché i limiti sinistro e destro sono di segno opposto.

Questo si basa sul brillante lavoro di Nicolas Polson e James Scott sulla varianza delle rappresentazioni di miscele che usano per sviluppare TIRLS - un'estensione massiccia di minimi quadrati a una classe molto ampia di combinazioni di perdite e penalità.

In alternativa è possibile utilizzare un priore che è definito sul simplex, ma ha modalità nelle distribuzioni marginali a zero. Un esempio è la distribuzione dirichlet con tutti i parametri tra 0 e 1. La penalità implicita sarebbe simile a:

i=1n1(ai1)log(xi)(an1)log(1i=1n1xi)

Dove . Tuttavia, dovresti stare attento nell'ottimizzare numericamente poiché la penalità ha delle singolarità. Un processo di stima più solido consiste nell'utilizzare la media posteriore. Anche se perdi la scarsità esatta, otterrai molti mezzi posteriori vicini a zero.p0<ai<1


Sembra un'idea molto interessante, anche se non siamo abbastanza attrezzati per capire i dettagli! Se ho capito bene, l'idea è che il precedente derivi dal presupposto che le variabili seguano una distribuzione esponenziale su 0. Quindi, abbiamo bisogno di una distribuzione centrata su 0 che funzioni meglio per le nostre variabili. Ma non c'è un chiaro vincitore, giusto? Ci sono distribuzioni su "variabili positive che si sommano a 1"? Grazie per l'aiuto! L1
Justin Solomon,

Per ottenere la scarsità è necessaria una distribuzione con una modalità pari a zero. E la distribuzione dirichlet è sul simplex, che è precisamente quelle distribuzioni che si sommano a 1. Un'altra classe generale è -normale o logistica t dove hai una distribuzione normale / t perlog[xixn]
Probislogic

Ah, il Dirichlet sembra piuttosto interessante in quanto è sul simplex che ci interessa, come dici tu! Sembra che le altre due citate possano introdurre qualche asimmetria su , giusto? Il mio collaboratore e io lavoreremo attraverso la funzione energetica implicita da Dirichlet domani e riferiremo indietro! Molte grazie per l'aiuto del paziente finora - questo è lontano dal nostro solito campo ma se riusciamo a risolverlo i risultati possono fornire un notevole passo avanti nell'elaborazione della geometria! [E ovviamente ti daremo il dovuto credito!]xn
Justin Solomon,

1

Due opzioni:

  1. Usa una penalità su . L'ovvio inconveniente è che questo non è convesso e quindi difficile da ottimizzare.L0x
  2. Riorganizza, e usa una penalità sul nuovo vettore di parametri (naturale),. Ciò incoraggerà gli eventi ad essere ugualmente probabili a meno che non ci sia una buona ragione per non esserlo.xi=exp(wi)jexp(wj)w

Puoi spiegare in che modo la tua riparametrizzazione incoraggia la scarsità? Sembra piuttosto garantire il contrario.
cardinale il

Incoraggia la scarsità in che corrisponde a incoraggiare diverse voci di ad avere lo stesso valore. wx
jrennie,

Sì, lo capisco. Ma quei valori non saranno zero. Se prendiamo l'OP alla lettera, questo non aiuterà e in realtà "farà male" (in un certo senso). Ma è possibile che il PO sia interessato alla scarsità rispetto ad alcune altre basi, nel qual caso, questo sarebbe uno di questi. :)
cardinale

Ecco perché ho fornito due opzioni nella mia risposta --- Penso che sarebbe necessaria una penalità non convessa per incoraggiare gli zeri in . Come hai notato, Justin probabilmente non significa letteralmente quello che ha detto. x
jrennie,

Sì, purtroppo abbiamo bisogno di scarsità nella base dell'identità. Quindi in questo caso vorremmo che il maggior numero possibile di uguale a . wi
Justin Solomon,

1

La premessa della domanda è solo parzialmente corretta. Mentre è vero che -norm è solo una costante sotto il vincolo, il problema di ottimizzazione del vincolo potrebbe benissimo avere una soluzione sparsa.L1

Tuttavia, la scelta non è influenzata dalla scelta di , quindi o c'è una soluzione scarsa o no. Un'altra domanda è come trovare effettivamente la soluzione. Naturalmente è possibile utilizzare un ottimizzatore quadratico standard sotto vincoli lineari, ma gli algoritmi di discesa delle coordinate più diffusi non possono essere utilizzati immediatamente.λ

Un suggerimento potrebbe essere quello di ottimizzare solo con un contrappeso di positività, per diversi 's, e quindi rinormalizzare la soluzione per avere -norm 1. Un algoritmo di discesa delle coordinate dovrebbe, credo, essere facilmente modificabile per calcolare la soluzione sotto una positività vincolo.λL1


0

Posso pensare a tre metodi.

  • Metodo bayesiano: introduzione di una distribuzione precedente a media zero e utilizzo della probabilità di tipo II per stimare i parametri e gli iperparametri.

  • Utilizzare invece come regolarizzazione. Questo non è differenziabile però. È possibile utilizzare una norma di ordine elevato per approssimarla.

  • Usa .i=1logxi

In effetti, il primo e il terzo metodo sono gli stessi.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.