Esempi di giocattoli per solutori Plotkin-Shmoys-Tardos e Arora-Kale


34

Vorrei capire come il solutore Arora-Kale SDP approssima il rilassamento di Goemans-Williamson in un tempo quasi lineare, come il solutore Plotkin-Shmoys-Tardos approssima i problemi frazionari di "impacchettamento" e "copertura" in un tempo quasi lineare, e come gli algoritmi sono istanze del quadro astratto "imparare dagli esperti".

La tesi di Kale ha una presentazione eccellente, ma trovo molto difficile saltare direttamente nel quadro astratto, e preferirei partire da un esempio di un problema semplice per il quale è assolutamente ovvio cosa fare, per poi passare a problemi più generali , aggiungendo progressivamente "funzionalità" all'algoritmo e alla sua analisi.

Per esempio:

In che modo Plotkin-Shmoys risolve il rilassamento di programmazione lineare della copertura dei vertici non ponderata? Copertura del vertice ponderata? Imposta la copertina? Abbinamento bipartito?

Qual è l'esempio più semplice in cui l'algoritmo Arora-Kale sta facendo qualcosa di interessante? Come calcola il più grande autovalore del Laplaciano di un grafico?

(Il calcolo del più grande autovalore del Laplaciano equivale al problema di risolvere una versione più debole del rilassamento SDP Goemans-Williamson di Max Cut, in cui, invece di richiedere che ogni vettore sia di lunghezza uno, si desidera la somma dei quadrati delle norme da essere | V |.)


2
Questa è una bella domanda.
Suresh Venkat,

4
Per comprendere gli algoritmi in stile PST per i problemi di impacchettamento, è bene esaminare gli algoritmi per risolvere approssimativamente il problema del flusso di multicomunità da cui si è evoluto il PST. Il documento di Neal Young descrive in dettaglio la copertina del set. Ihttp: //www.cs.ucr.edu/~neal/non_arxiv/SODA_1995_170.pdf. Ho pensato che il sondaggio di Arora-Kale-Hazan renda esplicito anche il collegamento tra la struttura degli esperti e i risolutori di imballaggio / copertura.
Chandra Chekuri,

1
@ChandraChekuri: È piuttosto in ritardo, ma mi chiedo se dovresti farne una risposta?
Suresh Venkat,

2
FWIW, per alcune note in espansione sul documento SODA menzionato da @ChandraChekuri, vedere greedyalgs.info/blog/about .
Neal Young,

Risposte:


26

Luca, da quando è passato un anno, probabilmente hai cercato la tua risposta. Sto rispondendo ad alcune delle tue domande qui solo per la cronaca. Rivedo alcuni algoritmi di rilassamento lagrangiano per i problemi menzionati e tracciamo la connessione all'apprendimento (in particolare, seguendo i consigli degli esperti). Non faccio commenti qui sugli algoritmi SDP.

Si noti che i particolari algoritmi citati non vengono eseguiti in un tempo quasi lineare. (Esiste un algoritmo a tempo quasi lineare per problemi espliciti di imballaggio o copertura. Vedi Beating Simplex per i pacchetti lineari di imballaggio e copertura frazionari .) Gli algoritmi che hai in mente in genere hanno varianti che girano in un numero quasi lineare di iterazioni , ma ciascuna l'iterazione richiede in genere anche un tempo almeno lineare. Discuto alcuni di questi algoritmi di seguito.

Alcune funzioni utili

Prima di iniziare, ecco alcune funzioni che utilizzeremo negli schizzi di prova. (Se sei interessato agli algoritmi, ma non ai dettagli della prova, puoi saltare avanti.) Per qualsiasi vettore yy , definisci Lmax ( y )Lmax(y) come ln i exp ( y i )lniexp(yi) . Questa funzione ha un limite superiore su max i y imaxiyi : max i y iLmax ( y ) max i y i + ln m .     

maxiyi  Lmax(y)  maxiyi+lnm.
Analogamente, definireLmin ( y )Lmin(y) essere - Lmax ( - y )Lmax(y) , un limite inferiore di min i y iminiyi .

Per comodità in quanto segue, usiamo g ( y )g(y) per indicare il gradiente Lmin ( y )Lmin(y) di Lmin. Usiamo G ( y )G(y) per indicare il gradiente Lmax ( y )Lmax(y) di Lmax.

Esplicitamente, g i ( y )gi(y) è exp ( - y i ) / i exp ( - y i )exp(yi)/iexp(yi) mentre G i ( y )Gi(y) è exp ( y i ) / i exp ( y i )exp(yi)/iexp(yi) .

Lmin e Lmax sono uniformi nel senso seguente: per ogni vettore d [ 0 , ε ] nd[0,ε]n e y R nyRn , Lmin ( y + d ) Lmin ( y ) + ( 1 - O ( ε ) )    d g ( y )

Lmin(y+d)  Lmin(y) + (1O(ε))dg(y)
e Lmax ( y + d ) Lmax ( y ) + ( 1 + O ( ε ) )    d G ( y ) .
Lmax(y+d)  Lmax(y) + (1+O(ε))dG(y).

Si noti che entrambi i gradienti hanno 1 norma uguale a 1: | G ( y ) | = | g ( y ) | = 1|G(y)|=|g(y)|=1 . (In tutto usiamo | z ||z| per indicare la 1-norma.)

Si noti inoltre che, per una matrice AA , il gradiente della funzione x Lmin ( A x )xLmin(Ax) rispetto a xx è (secondo la regola della catena) ( g ( A x ) ) T A(g(Ax))TA . Più esplicitamente, la derivata parziale della funzione rispetto a x jxj èi A i j exp ( - A i x ) / i exp ( - A i x )iAijexp(Aix)/iexp(Aix). Allo stesso modo, la derivata parziale di Lmax ( A x )(Ax) rispetto a x jxj è i A i j exp ( A i x ) / i exp ( A i x )ΣioUNio jexp( Aiox ) / ioexp( Aiox ) .

Copertura frazionaria del set

Correggi un'istanza Set-Cover. Lascia che AUN indichi l'elemento / imposta la matrice di incidenza. Pertanto, A e s = 1UNe s= 1 se e se s , altrimenti 0 e A e xUNeX è la misura in cui la copertura frazionaria xX copre l'elemento ee .

L'LP è minimo { | x | : A x 1 ; x 0 }min{|x|:Ax1;x0} . Dato ε ( 0 , 1 )ε(0,1) , l'algoritmo è


  1. Inizializza tutto x s = 0xs=0 . Sia N = log ( n ) / εN=log(n)/ε .
  2. Ripetere fino min e A e x NmineAexN :

    2.1. Scegli ss massimizzando la derivata parziale di Lmin ( A x )(Ax) wrt x sxs .
    (Esplicitamente, scegli ss massimizzando e s exp ( - s e x s )esexp(sexs) .)

    2.2. Aumenta x sxs di εε .

  3. Ritorna x / min e A e xx/mineAex .


L'algoritmo restituisce una soluzione approssimativa ( 1 + O ( ε ) )(1+O(ε)) in O ( | x |O(|x|log(n)/ε2)iterazioni log ( n ) / ε 2 ) , dove nn è il numero di elementi e x x è la copertura ottimale dell'insieme frazionario (banalmente | x |n|x|n ). (Un algoritmo simile appare neldocumento citato da Chandra. Vertex Cover è ovviamente un caso speciale.)

( Nota: si noti che il limite di iterazione non dipende dal numero di set, ma solo dal numero di elementi. Pertanto, l'algoritmo può essere utilizzato con un sistema di set implicitamente definito, purché, dati i pesi sugli elementi, si possa efficientemente trova un insieme di peso totale massimo (o quasi massimo). Questo tipo di oracolo è uguale all'oracolo di separazione richiesto per applicare l'algoritmo ellissoide al doppio problema. Per problemi di imballaggio come l'insieme di imballaggi, è necessario un oracolo che, dati pesi sugli elementi, restituisce un set minimizzando il peso totale. Per problemi come il flusso multi-merce, potrebbe essere necessario, ad esempio, trovare un percorso che minimizzi la somma di alcuni pesi del bordo).

Ecco uno schizzo della prova della garanzia di prestazione. In ogni iterazione, la derivata parziale rispetto alla ss scelta è almeno 1 / | x | 1/|x|, dove x x è la copertura ottimale del set frazionario.

(Per capire perché, ricordiamo che il gradiente di Lmin ( A x )(Ax) rispetto a xx è ( g ( A x ) ) T A.(g(Ax))TA Se dovessimo scegliere un set s s a caso dalla distribuzione x / | x |x/|x| , il valore atteso della derivata parziale rispetto a x s XS' sarebbe quindi ( g ( A x ) ) TA x / | x | ( g( A x ) )TA x*/ | X*|. Poiché A x 1A x*1 , questo è almeno | g ( A x ) | / | x | | g( A x ) | / | X*|. Dal | g ( A x ) | = 1| g(Ax)|=1 , questo è almeno 1 / | x | 1/|x|. Pertanto, devono esistere alcuni s ches danno derivato parziale almeno 1 / | x |1/|x|. Poiché l'algoritmo sceglie x sxs in ciascuna iterazione per massimizzare la derivata parziale, ottiene una derivata parziale di almeno 1 / | x | 1/|x|.)

Quindi, la dimensione del passo εε viene scelta solo abbastanza piccola in modo che nessuna coordinata di A xAx aumenti di più di εε . Pertanto, a causa della morbidezza di Lmin, aumentando x sxs per x s + εxs+ε aumenta Lmin ( A x )Lmin(Ax) di almeno ( 1 - O ( ε ) ) ε / | x | (1O(ε))ε/|x|.

In questo modo, l'algoritmo mantiene invariante Lmin ( A x ) ( 1 - O ( ε ) ) | x | / | x | - ln n .

Lmin(Ax)(1O(ε))|x|/|x|lnn.
(Notare che Lmin ( ¯ 0 ) è(0¯¯¯) uguale a ln nlnn .)

Al termine, nell'invariante, il termine ln nlnn è O ( ε )O(ε) volte il lato sinistro, quindi calcolando si ottiene min e A e x ( 1 - O ( ε ) ) | x | / | x | mineAex(1O(ε))|x|/|x|. Dopo la normalizzazione nell'ultima riga dell'algoritmo, questo implica | x | ( 1 + O ( ε ) ) | x | |x|(1+O(ε))|x|.

FWIW, le disuguaglianze coinvolte nel dimostrare l'invariante sono essenzialmente le stesse di quelle coinvolte nel dimostrare il limite di Chernoff. (In effetti, questo algoritmo può essere derivato applicando il metodo delle probabilità condizionate a uno schema di arrotondamento randomizzato che ripetutamente campiona insiemi dalla distribuzione x / | x |x/|x| (con sostituzione), aumentando x sxs per ogni insiemi campionati ss . Questa derandomizzazione di ciò fornisce l'algoritmo: l'invariante sottostante è solo che lo stimatore pessimistico rimane al di sotto di 1. Le penalità esponenziali nello stimatore pessimistico provengono dall'uso del limite di Chernoff nell'analisi dello schema di arrotondamento. Questa idea di base è spiegata ulteriormente inil documento di cui parla Chandra .)

Copertura frazionaria ponderata del set (e copertura frazionaria generale)

Per gestire in modo efficiente problemi come la Copertura ponderata del set , modifichiamo l'algoritmo per utilizzare incrementi non uniformi (un'idea dovuta a Garg e Konemann ).

L'LP è min { c x : ( e ) s e x s1 }min{cx:(e)sexs1} , dove ee spazia sugli elementi, ss spazia sugli insiemi e tutte le variabili non sono negative. Per presentare l'algoritmo, innanzitutto riscrivere il problema come un problema di copertura generale. Sia A e s =1 / c sAes=1/cs perpostasese A e s =0Aes=0altrimenti. Quindi (con un cambiamento di variabili, ridimensionando ogni x sxs di c scs ), l'LP è min { | x | : A x 1 ; x 0 }min{|x|:Ax1;x0} , che possiamo visualizzare come LP di copertura generale. Ecco l'algoritmo:


  1. Inizializza tutto x s = 0xs=0 . Sia N = log ( n ) / εN=log(n)/ε .

  2. Ripetere fino a quando tutti i vincoli di copertura sono stati eliminati:

    2.1. Scegli ss massimizzando la derivata parziale di Lmin ( A x )(Ax) wrt x sxs .
    (Esplicitamente, scegli ss massimizzando e s exp ( - s e x s ) / c sesexp(sexs)/cs .)

    2.2. Aumenta di x sxs di δδ , dove δδ viene scelto al massimo in modo tale che, per ogni restante limite di copertura ee , l'aumento di A exAex sia al massimo εε .

    2.3 Elimina tutti i vincoli che coprono all'ee tale che A ex NAexN .

  3. Ritorna x / min e A exx / mineUNex .


L'algoritmo restituisce una soluzione ( 1 + O ( ε ) )( 1 + O ( ε ) ) approssimata nelle iterazioni O ( n log ( n ) / ε 2 )O ( n log( n ) / ε2) , dove nn è il numero di vincoli di copertura. (Ogni iterazione aumenta alcuni A e xUNeX rimanentidi εε ; ciò può accadere solo N / εN/ ε volte a un vincolo prima che venga eliminato.) La prova di correttezza è essenzialmente tramite lo stesso invariante di Set Cover.

La copertura dei vertici ponderata è un caso speciale.

Corrispondenza bipartita frazionaria massima

Dato un grafico G = ( U , W , E )G = ( U, W,E) , l'LP naturale per il problema è max { | x | : v .e v x e1 }max{|x|:v.evxe1} .

Nella rappresentazione matrice, si tratta di un LP di imballaggio max { | x | : A x 1 ; x 0 }max {|x|:Ax1;x0} con coefficienti 0-1 ( A v e = 1Ave=1 se v eve ). Tali problemi non richiedono incrementi non uniformi, quindi un semplice algoritmo analogo all'algoritmo Set Cover non ponderato (ma per l'imballaggio) farà:


  1. Inizializza tutto x e = 0xe=0 . Sia N = log ( n ) / εN=log(n)/ε .
  2. Mentre A x < NAx<N :

    2.1. Scegli ee minimizzando la derivata parziale di Lmax ( A x )(Ax) wrt x exe .
    (Esplicitamente, selezionare ee per ridurre a icona v e exp ( e v x e )veexp(evxe) .)

    2.2. Aumentare x exe da εε .

  3. Ritorno x / max v A v xx/maxvAvx .


L'algoritmo restituisce un ( 1 - O ( ε ) )(1O(ε)) approssimata nelle iterazioni O ( n log ( n ) / ε 2 )O(nlog(n)/ε2) . (Questo perché ogni iterazione aumenta | x ||x| di εε , e infine, prima della normalizzazione, | x | = O ( N n )|x|=O(Nn) .)

Solo per divertimento, ecco un curioso algoritmo alternativo per Perfect Bipartite Matching. Ricorda che G = ( U , W , E )G=(U,W,E) . Sia n = | U | = | W | n=|U|=|W|.


  1. Inizializza tutto x e = 0xe=0 . Sia N = 4 ln ( n ) / εN=4ln(n)/ε .
  2. Ripeti nNnN volte:

    2.1. Scegliere uu uniformemente a caso da UU .
    2.2. Scegli ww tale che ( u , w ) E(u,w)E minimizzandoe w x eewxe .
    2.3. Aumenta x u wxuw da εε .

  3. Ritorno x / Nx/N .


Se GG ha una corrispondenza perfetta, l'algoritmo restituisce una xx tale che | x | = n|x|=n , e, con alta probabilità, per tutti i vertici u UuU , 1 - O ( ε ) e u x e1 + O ( ε )1O(ε)euxe1+O(ε) , e per tutti i vertici w WwW ,e w x e1 + O ( ε)ewxe1+O(ε) . Se sei interessato ai dettagli della prova, chiedi ...

Imballaggio misto e copertura

Potresti aver chiesto informazioni sulla corrispondenza bipartita sperando in un esempio di a problema misto di imballaggio e copertura, ovvero uno dei moduli x ? P x p ; C x c ; x 0. 

x? Pxp;Cxc;x0.
Ecco un algoritmo per tali problemi. In primo luogo, normalizzare modo che p = ¯ 1p=1¯¯¯ e c = ¯ 1c=1¯¯¯ .

Sia mm il numero di vincoli (righe in PP più righe in CC ).


  1. Inizializza tutto x j = 0xj=0 . Sia N = 2 ln ( m ) / εN=2ln(m)/ε .
  2. Mentre P x < NPx<N :

    2.1. Scegli j inj modo che la derivata parziale di Lmax ( P x )(Px) rispetto a x jxj sia al massimo la derivata parziale di Lmin ( C x )(Cx) rispetto a x jxj . (Esplicitamente, scegli jj tale chei P i j exp ( P i x )Exp i exp ( P i x )iCijexp(-Cix)Exp I exp ( - C i x ) . )

    iPijexp(Pix )ioexp( Piox )ioCio jexp( - Ciox )Σioexp( - Ciox ). )

    2.2. Aumenta x jXj di δδ , dove δδ viene scelto al massimo in modo tale che nessun vincolo P i xPioX o restante vincolo C i xCioX aumenti di più di εε .

    2.3. Elimina tutti iio vincoli di copertura in modo tale C i x NCiox N .

  3. Ritorno x / max i P i xx / maxioPioX .


Supponendo che il problema dato sia fattibile, l'algoritmo restituisce una xX tale che P x 1Px 1 e C x 1 - O ( ε )Cx 1 - O ( ε ) . Il numero di iterazioni è O ( m ln ( m ) / ε 2 )O ( m ln( m ) / ε2) , poiché ogni iterazione aumenta alcuni vincoli di εε , e ciò può accadere per ogni vincolo al massimo NN volte.

La prova di correttezza è tramite l'invariante Lmax ( P x ) 2 ln ( m ) + ( 1 + O ( ε ) ) Lmin ( C x ) .

Lmax (Px)2ln(m)+(1+O(ε))Lmin(Cx).
L'invariante implica max P x 2 ln ( m ) + ( 1 + O ( ε ) ) min C x .
maxPx2ln(m)+(1+O(ε))minCx.
Alla fine il lato sinistro è Ω (log ( m ) / ε )Ω(log(m)/ε) , a dimostrazione della garanzia di prestazione.

Nel passaggio 2.1, il jj desiderato deve esistere fino a quando il problema originale è fattibile. (Questo perché, per ogni fattibile x *x e ogni xx , se dovessimo scegliere un casuale j 'j dalla distribuzione x * / | x * |x/|x| , il valore atteso della derivata parziale di Lmax ( P x )(Px) rispetto a x j xj sarebbe al massimo 1 / | x |1/|x|(vedi lo schizzo di prova precedente per Set Cover). Allo stesso modo, il valore atteso della derivata parziale di Lmin ( C x )(Cx) è al massimo la derivata parziale di Lmin ( C x ) .)rispetto a x j xj sarebbe almeno 1 / | x | 1/|x|. Pertanto, esiste una jj tale che la derivata parziale di Lmax ( P x )(Px) rispetto a x j xj(Cx)

Quindi l'invariante viene mantenuto in ogni iterazione perché, con la scelta di x jxj e δδ , e la levigatezza di Lmin e Lmax, aumentando x jxj a x j + δxj+δ aumenta Lmax ( P x )(Px) al massimo di 1 + O ( ε )1+O(ε) volte l'aumento di Lmin ( C x )(Cx) .

Apprendimento (a seguito di esperti / potenziamento)

Un riferimento per comprendere questa connessione è il gioco adattivo che utilizza pesi moltiplicativi , di Freund e Schapire. Ecco un breve riassunto per dare l'idea tecnica.

Considera il seguente gioco ripetuto. In ogni round tt :

  1. Scegli una distribuzione di probabilità p tpt su [ n ][n] (i nn cosiddetti esperti ).
  2. Conoscendo p tpt , l'avversario sceglie quindi un vettore di payoff a t[ 0 , 1 ] nat[0,1]n .
  3. Ricevi il payoff p ta tptat per il round.

Il gioco si interrompe dopo un certo numero di round. Il tuo obiettivo è ridurre al minimo il tuo rimpianto rispetto a qualsiasi singolo esperto (vale a dire, pura strategia) ii . Cioè, il tuo obiettivo è ridurre al minimo ( max i t a t i ) - t p ta t(maxitati)tptat .

Correggi qualsiasi ε > 0ε>0 . Lascia che il vettore y tyt indichi ε s t a sεstas , cioè εε volte la somma vettoriale dei vettori di payoff fino al tempo tt . Ricorda che G ( y )G(y) è il gradiente di Lmax ( y )(y) .

Ecco la strategia di base che analizzeremo: al giro tt , scegli p tpt per essere G ( y t - 1 )G(yt1) .

Per ispezione, questo ti dà il profitto a tG ( y t - 1 )atG(yt1) al giro tt .

A causa della proprietà di levigatezza di FF , Lmax ( y t ) Lmax ( y t - 1 ) + ( 1 + O ( ε ) ) ε a tG ( y t - 1 ) .

Lmax(yt)Lmax(yt1)+(1+O(ε))εatG(yt1).
Cioè, in ogni round, Lmax ( y t )Lmax(yt) non può aumentare di più di ε ( 1 + O ( ε ) )ε(1+O(ε)) volte il tuo guadagno. Dal momento che Lmax ( ¯ 0 )=lnnLmax(0¯¯¯)=lnn, questo mantiene il invariante cheLmax(yt)Lmax(yt) è al massimo i tempi di payoff totaliε(1+O ( ε )ε(1+O(ε) , più ln ( n )ln(n) . D'altra parte, il tuo rimpianto rispetto al miglior esperto ii è max i t a t imaxitati , ovvero ε - 1 max i y tiε1maxiyti , che è a sua volta al massimoε-1Lmax(yt)ε1Lmax(yt).

Pertanto, il tuo rimpianto è al massimo ε - 1 ln ( n )ε1ln(n) , più O ( ε )O(ε) volte il tuo guadagno totale.

Nota: penso, come sottolinea Freund e Schapire, anche un algoritmo di "potenziamento" (nella teoria dell'apprendimento) è implicito in questa analisi. Vedi il loro documento per maggiori dettagli.

Riduzione al minimo del profitto totale

È possibile derivare una strategia simile per l'impostazione in cui l'obiettivo è minimizzare , piuttosto che massimizzare, il payoff totale. Il tuo rimpianto, che vuoi ancora minimizzare, è t p ta t - min i a t itptatminiati . In tal caso, la strategia corrispondente è scegliere p tpt come gradiente di Lmin ( y t )Lmin(yt) . Con questa strategia il tuo rimpianto è di nuovo al massimo ε - 1 ln nε1lnn più O ( ε )O(ε) volte il tuo guadagno totale.

Connessione agli algoritmi di rilassamento lagrangiano

Per vedere la connessione agli algoritmi di rilassamento lagrangiano, correggi un'istanza Set-Cover. Considera l'ultimo tipo di gioco (con l'obiettivo di minimizzare il payoff), in cui gli esperti corrispondono agli elementi ee del tuo sistema set. In ogni round, scegli la distribuzione di probabilità p tpt come gradiente di Lmin ( y t )(yt) come sopra e fai in modo che l'avversario scelga il vettore di payoff a tat in funzione di p tpt come segue: scegli il set s t chest massimizza es p t eespte , quindi lascia a te= 1ate=1altrimenti. se e s test e a t e = 0ate=0

Data la condizione di arresto corretta (discussa di seguito), questo processo fornisce esattamente l'algoritmo Set-Cover discusso all'inizio.

La garanzia di prestazione dell'algoritmo segue dal rimpianto legato come segue. Let X sXs essere il numero di volte in cui l'avversario ha scelto insieme ss durante il gioco. Sia x x la copertura ottimale del set frazionario. Sia T = | X s | T=|Xs|essere il numero di round giocati. Il limite di rimpianto implica t a tp tε - 1 ln ( m ) + min e t a t e .

tatptε1ln(m)+minetate.

Utilizzando la definizione di un tat , la tt ° payoff (il tt esimo termine nella somma a sinistra) è uguale a Σ e s t p t eestpte . L'avversario ha scelto s tst per ridurre al minimo questo payoff. Se l'avversario avesse invece scelto s tst casualmente dalla distribuzione x / | x | x/|x|, l'aspettativa del payoff sarebbe stata s x s| x | esp t e =1  | x | ep t esexs1  | x | ep t e =1  | x | .

sxs|x|espte = 1|x|eptesexs  1|x|epte = 1|x|.
(Sopra usiamo chesexs1sexs1per tutteee, e|pt|=1.|pt|=1) Poiché ogni payoff è almeno1/| x| 1/|x|, il rimpianto associato implica T| x | ε-1ln(m)+mineta t e .
T|x|ε1ln(m)+minetate.
Per definizione diXX, abbiamo| X| =T|X|=T(ogni round sceglie un set), eta t e =e[est]= s e X state=e[est]=seXs , dando | X || x | ε-1ln(m)+mineseXs.
|X||x|ε1ln(m)+mineseXs.
Facciamo arrestare il processo quandomineseXs=Ω(ε- 2 lnm)mineseXs=Ω(ε2lnm), quindi (riordinando i termini) | X |min e s e X s(1+O(ε)|x|.  
|X|mineseXs  (1+O(ε)|x|.
Ovvero, la normalizzazione di XX fornisce una copertura frazionaria della dimensione al massimo ( 1 + O ( ε ) )(1+O(ε)) volte ottimali.

Nota: in un certo senso, questa interpretazione della teoria dell'apprendimento generalizza l'interpretazione algoritmica. Tuttavia, alcune delle tecniche algoritmiche necessarie per l'efficienza (come gli incrementi non uniformi e l'eliminazione dei vincoli di copertura soddisfatti) non sembrano ripercuotersi naturalmente sulla teoria dell'apprendimento. Allo stesso modo, gli algoritmi per gli imballaggi misti e gli LP coprenti (ad es. Questi ) non sembrano avere analoghi naturali nell'impostazione della teoria dell'apprendimento.


8
Questa è piuttosto la risposta !!
Suresh Venkat,

1
Grazie. Probabilmente esagerato. Sono interessato al feedback: come presentare queste idee in modo accessibile, cos'altro includere ...
Neal Young
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.