Analoghi del rilevamento compresso


22

Nel rilevamento compresso , l'obiettivo è trovare schemi di compressione lineari per enormi segnali di ingresso che sono noti per avere una rappresentazione sparsa, in modo che il segnale di ingresso possa essere recuperato in modo efficiente dalla compressione (lo "schizzo"). Più formalmente, la configurazione standard è che esiste un vettore di segnale per il quale , e la rappresentazione compressa è uguale a Ax dove A è un R -by- n reale matrice dove vogliamo R \ ll n . La magia del rilevamento compresso è che si può costruire esplicitamente A in modo tale da consentire un recupero esatto (tempo quasi lineare) di qualsiasi kxRnA x A R n R n A kx0<kAxARnRnAk-sparse x con R piccola quanto O(kno(1)) . Potrei non avere i parametri più noti, ma questa è l'idea generale.

La mia domanda è: ci sono fenomeni simili in altri contesti? Ciò che intendo è che il segnale di ingresso potrebbe provenire da una "famiglia a bassa complessità" secondo una misura di complessità che non è necessariamente una scarsità. Vogliamo quindi algoritmi di compressione e decompressione, non necessariamente mappe lineari, che siano efficienti e corretti. Tali risultati sono noti in un contesto diverso? Quale sarebbe la tua ipotesi per una teoria più "generale" del rilevamento compresso?

(Naturalmente, nelle applicazioni di rilevamento compresso, la linearità e la scarsità sono questioni importanti. La domanda che faccio qui è più "filosofica".)

Risposte:


21

La tua domanda affronta il problema "esatto" di recupero (vogliamo recuperare un k-sparse x dato esattamente Ax ). Nel seguito, tuttavia, mi concentrerò sulla versione "robusta", dove x è un vettore arbitrario e l'obiettivo dell'algoritmo di recupero è trovare un'approssimazione k -sparse da x a x (questa distinzione in realtà conta per alcune delle discussioni seguenti ). Formalmente vuoi seguire il problema (chiamalo P1 ):

Progetta A tale che per ogni x possibile recuperare x dove xxL

minx"Cxx"R , dove estende su tutti i vettori -sparse.kx"k

Qui, e indica la norma destra e sinistra e è il "fattore di approssimazione". Sono disponibili varie opzioni per e . Per concretezza, si può pensare che entrambi siano uguali a o ; può diventare più disordinato però.R C LR 2 1LRCLR21

Ora ad alcuni analoghi e generalizzazioni.

Base arbitraria. Innanzitutto, osserva che qualsiasi schema che soddisfi la definizione di cui sopra può essere utilizzato per risolvere un problema più generale, in cui il segnale recuperato è scarso in una base arbitraria (diciamo, wavelet di Fourier), non solo quello standard. Sia la matrice di base. Formalmente, un vettore è -sparse in base se dove è -sparse. Ora possiamo considerare il problema generalizzato (chiamalo ): B u k B u = B v v k P BxBukBu=BvvkPB

Progetta tale che dato , si possa recuperare doveA B x x x - x LABABxxxxL

x " k Bminx"Cxx"R , dove gamme oltre tutti i vettori che sono -sparse Consente in .x"kB

È possibile ridurre questo problema al problema precedente modificando la base, ovvero utilizzando una matrice di misurazione . Se abbiamo una soluzione a nella norma (cioè, le norme sinistra e destra uguali a ), otteniamo anche una soluzione a nella norma . Se utilizza altre norme, risolviamo in quelle norme modificate cambiando la base.P1 P 1 2 2 P B 2 P 1 P BAB=AB1P122PB2P1PB

Un avvertimento di cui sopra è che nell'approccio di cui sopra, abbiamo bisogno di conoscere la matrice per definire . Sorprendentemente, se ammettiamo randomizzazione ( non è fisso, ma invece scelto a caso), è possibile scegliere da una distribuzione fissa indipendente dal . Questa è la cosiddetta proprietà dell'universalità .A B A B A B BBABABABB

Dizionari. La prossima generalizzazione può essere ottenuta lasciando cadere il requisito che è una base. Invece, possiamo consentire a di avere più righe che colonne. Tali matrici sono chiamate dizionari (incompleti). Un esempio popolare è la matrice di identità in cima alla matrice di Fourier. Un altro esempio è una matrice in cui le righe sono i vettori caratteristici di tutti gli intervalli in {1 ... n}; in questo caso, l'insieme { } contiene tutti gli " istogrammi ", ovvero le costanti a tratti su {1 ... n} con al massimo pezzi.B B u : u è k-sparse k kBBBu:u is k-sparsekk

Per quanto ne so non esiste una teoria generale per tali dizionari arbitrari, sebbene ci sia stata una buona dose di lavoro su questo argomento. Vedere ad esempio, Candes-Eldar-Needell'10 o Donoho-Elad-Temlyakov, IEEE Transactions on Information Theory, 2004 .

Lo sketch per gli istogrammi è stato ampiamente studiato nella letteratura di streaming e database, ad esempio Gilbert-Guha-Indyk-Kotidis-Muthukrishnan-Strauss, STOC 2002 o Thaper-Guha-Indyk-Koudas, SIGMOD 2002 .

Modelli. (menzionato anche da Arnab). Una diversa generalizzazione consiste nell'introdurre restrizioni sugli schemi di scarsità. Sia un sottoinsieme di -subset di {1 ... n}. Diciamo che è -sparse Consente se il supporto di è incluso in un elemento di . Ora possiamo porre il problema (chiamalo ):k u M u M P MMkuMuMPM

Progetta tale che per ogni possibile recuperare dovex x x - x LAxxxxL

x " Mminx"Cxx"R , dove estende su tutti i vettori -sparse.x"M

Ad esempio, gli elementi di potrebbero essere nella forma , dove ogni corrisponde a un "blocco secondario" di {1 ... n} di una certa lunghezza , ovvero è di il modulo {jb + 1 ... (j + 1) b} per alcuni . Questo è il cosiddetto modello "block sparsity". I 1... I k che i b I i jMI1IkIibIij

I vantaggi dei modelli sono che si può risparmiare sul numero di misurazioni, rispetto all'approccio generico -sparsity. Questo perché lo spazio dei segnali -sparse è più piccolo dello spazio di tutti i segnali -sparse, quindi la matrice deve conservare meno informazioni. Per ulteriori informazioni, consultare Baraniuk-Cevher-Duarte-Hegde, Transazioni IEEE sulla teoria dell'informazione, 2010 o Eldar-Mishali, Transazioni IEEE sulla teoria dell'informazione, 2009 .M k AkMkA

Spero che sia di aiuto.


11

Esiste una generalizzazione del rilevamento compresso all'impostazione non commutativa chiamata completamento matrice . Nell'impostazione esatta, ti viene data una matrice sconosciuta che, invece della scarsità, è nota per avere rango basso . Il vostro obiettivo è quello di ricostruire i valori singolari e vettori singolari di questa matrice campionando solo coefficienti della matrice, piuttosto che , come richiesto nel caso peggiore. M r m , n rm×nMrm,nrO(mn)O~(rm+rn)O(mn)

Se i singoli vettori sono sufficientemente "incoerenti" (approssimativamente, non troppo allineati) con la base in cui si campionano gli elementi della matrice, allora si può riuscire con alta probabilità risolvendo un programma convesso, simile al rilevamento compresso standard. In questo caso, è necessario ridurre al minimo la norma 1 di Schatten, ovvero la somma dei valori singolari.

Questo problema ha anche molte applicazioni, ad esempio, per dare consigli sui libri a un cliente di un negozio di libri online conoscendo solo le poche valutazioni che altri clienti hanno generato. In questo contesto, le righe e le colonne di sono etichettate rispettivamente dai libri e dai clienti. I pochi elementi matrice visibili sono le valutazioni dei clienti dei libri che hanno acquistato in precedenza. La matrice dovrebbe essere di basso livello perché riteniamo che in genere solo alcuni fattori primari influenzino le nostre preferenze. Completando , il venditore può fare previsioni accurate su quali libri probabilmente vorrai.M MMMM

Un buon inizio è questo articolo di Candés e Recht, Exact Matrix Completion tramite Convex Optimization . C'è anche una generalizzazione davvero interessante in cui è consentito campionare in modo arbitrario per lo spazio matrice. Questo articolo di David Gross, Recupero di matrici di basso rango da pochi coefficienti in qualsiasi base utilizza questa generalizzazione per semplificare sostanzialmente le prove del completamento della matrice e per alcune basi è possibile rimuovere anche l'assunto di incoerenza. Tale documento contiene anche i migliori limiti fino ad oggi sulla complessità del campionamento. Può sembrare strano campionare su base arbitraria, ma in realtà è abbastanza naturale nel contesto della meccanica quantistica, vedi ad esempio questo documento, Tomografia a stati quantici tramite rilevamento compresso .


9

Esiste un rilevamento compresso basato su molteplice, in cui la condizione di sparsità è sostituita dalla condizione che i dati si trovino su una sotto-divisione a bassa dimensione dello spazio naturale dei segnali. Si noti che la scarsità può essere definita come distesa su una particolare varietà (in effetti, una varietà secante).

Vedi, ad esempio, questo documento e i riferimenti nella sua introduzione. (Devo ammettere che non so se questo documento è rappresentativo dell'area - ho più familiarità con l'argomento correlato dei classificatori basati su molte varianti alla Niyogi-Smale-Weinberger .)


carta interessante. Non ero a conoscenza di questo lavoro.
Suresh Venkat,

per inciso, come ha sottolineato Candes nel suo discorso su SODA 10, la scarsità non è la stessa di essere di bassa dimensione. è abbastanza facile averne uno senza l'altro
Suresh Venkat,

Grazie! Un'opera interessante citata dall'articolo collegato è "Rilevamento compressivo basato su modello". Mostra, a mio avviso, che il numero di misurazioni può essere ridotto ancora di più rispetto al CS normale se si promette che il segnale in ingresso provenga da un piccolo insieme di sottospazi K-dimensionali.
Arnab,

8

Suppongo che, a livello di generalità in cui ho posto la domanda, l'articolo "Compressione di fonti campionabili" di Trevisan, Vadhan e Zuckerman (2004) si qualifichi anche come una possibile risposta. Mostrano che in molti casi, se l'origine delle stringhe di input è di bassa complessità (ad esempio, campionabile dalle macchine dello spazio di log), allora si può comprimere e decomprimere, in tempo polinomiale, per allungare una costante additiva lontano dall'entropia della sorgente.

Non so davvero se il rilevamento compresso possa essere inserito in una più ampia teoria della compressione.


3

Un analogo del rilevamento compressivo è l'apprendimento automatico quando si tenta di stimare un vettore di peso dimensionale elevato (ad esempio, nella classificazione / regressione) da una dimensione del campione molto piccola. Per gestire sistemi di equazioni lineari indeterminati in tali contesti, in genere si impone la sparsità (tramite penalità l0 o l1) sul vettore di peso che viene appreso. Per visualizzare la connessione, considerare il seguente problema di classificazione / regressione dall'apprendimento automatico:

Rappresenta N esempi di dimensioni D ciascuno (D >> N) come una matrice NxD X. Rappresenta le risposte N (una per ogni esempio) come vettore Nx1 Y. L'obiettivo è risolvere un theta vettore Dx1 tramite la seguente equazione : Y = X * theta

Ora ecco l'analogia di questo problema con il rilevamento compressivo (CS): si desidera stimare / misurare il theta che è un vettore dimensionale D (simile a un "segnale" sconosciuto in CS). Per stimarlo, si utilizza una matrice X (simile alla matrice di progettazione in CS) e N 1-D misurazioni Y (simile al segnale compresso in CS, poiché D >> N).


Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.