Luca, da quando è passato un anno, probabilmente hai cercato la tua risposta. Sto rispondendo ad alcune delle tue domande qui solo per la cronaca. Rivedo alcuni algoritmi di rilassamento lagrangiano per i problemi menzionati e tracciamo la connessione all'apprendimento (in particolare, seguendo i consigli degli esperti). Non faccio commenti qui sugli algoritmi SDP.
Si noti che i particolari algoritmi citati non vengono eseguiti in un tempo quasi lineare. (Esiste un algoritmo a tempo quasi lineare per
problemi espliciti di imballaggio o copertura. Vedi Beating Simplex per i pacchetti
lineari di imballaggio e copertura frazionari .) Gli algoritmi che hai in mente in genere hanno varianti che girano in un numero quasi lineare di iterazioni , ma ciascuna l'iterazione richiede in genere anche un tempo almeno lineare. Discuto alcuni di questi algoritmi di seguito.
Alcune funzioni utili
Prima di iniziare, ecco alcune funzioni che utilizzeremo negli schizzi di prova. (Se sei interessato agli algoritmi, ma non ai dettagli della prova, puoi saltare avanti.) Per qualsiasi vettore yy , definisci Lmax ( y )Lmax(y) come ln ∑ i exp ( y i )ln∑iexp(yi) . Questa funzione ha un limite superiore su max i y imaxiyi :
max i y i ≤ Lmax ( y ) ≤ max i y i + ln m . maxiyi ≤ Lmax(y) ≤ maxiyi+lnm.
Analogamente, definireLmin ( y )Lmin(y) essere - Lmax ( - y )−Lmax(−y) , un limite inferiore di min i y iminiyi .
Per comodità in quanto segue, usiamo g ( y )g(y) per indicare il gradiente ∇ Lmin ( y )∇Lmin(y) di Lmin. Usiamo G ( y )G(y) per indicare il gradiente ∇ Lmax ( y )∇Lmax(y) di Lmax.
Esplicitamente, g i ( y )gi(y) è exp ( - y i ) / ∑ i ′ exp ( - y i ′ )exp(−yi)/∑i′exp(−yi′)
mentre G i ( y )Gi(y) è exp ( y i ) / ∑ i ′ exp ( y i ′ )exp(yi)/∑i′exp(yi′) .
Lmin e Lmax sono uniformi nel senso seguente: per ogni vettore d ∈ [ 0 , ε ] nd∈[0,ε]n e y ∈ R ny∈Rn ,
Lmin ( y + d ) ≥ Lmin ( y ) + ( 1 - O ( ε ) ) d ⋅ g ( y )Lmin(y+d) ≥ Lmin(y) + (1−O(ε))d⋅g(y)
e
Lmax ( y + d ) ≤ Lmax ( y ) + ( 1 + O ( ε ) ) d ⋅ G ( y ) .Lmax(y+d) ≤ Lmax(y) + (1+O(ε))d⋅G(y).
Si noti che entrambi i gradienti hanno 1 norma uguale a 1:
| G ( y ) | = | g ( y ) | = 1|G(y)|=|g(y)|=1 . (In tutto usiamo | z ||z| per indicare la 1-norma.)
Si noti inoltre che, per una matrice AA , il gradiente della funzione x ↦ Lmin ( A x )x↦Lmin(Ax) rispetto a xx
è (secondo la regola della catena) ( g ( A x ) ) T A(g(Ax))TA . Più esplicitamente, la derivata parziale della funzione rispetto a x jxj
è ∑ i A i j exp ( - A i x ) / ∑ i exp ( - A i x )∑iAijexp(−Aix)/∑iexp(−Aix). Allo stesso modo, la derivata parziale di Lmax ( A x )(Ax)
rispetto a x jxj è ∑ i A i j exp ( A i x ) / ∑ i exp ( A i x )ΣioUNio jexp( Aiox ) / ∑ioexp( Aiox ) .
Copertura frazionaria del set
Correggi un'istanza Set-Cover. Lascia che AUN indichi l'elemento / imposta la matrice di incidenza. Pertanto, A e s = 1UNe s= 1 se e ∈ se ∈ s , altrimenti 0 e A e xUNeX è la misura in cui la copertura frazionaria xX copre l'elemento ee .
L'LP è minimo { | x | : A x ≥ 1 ; x ≥ 0 }min{|x|:Ax≥1;x≥0} . Dato ε ∈ ( 0 , 1 )ε∈(0,1) , l'algoritmo è
- Inizializza tutto x s = 0xs=0 . Sia N = log ( n ) / εN=log(n)/ε .
Ripetere fino min e A e x ≥ NmineAex≥N :
2.1. Scegli ss massimizzando la derivata parziale di Lmin ( A x )(Ax) wrt x sxs .
(Esplicitamente, scegli ss massimizzando ∑ e ∈ s exp ( - ∑ s ′ ∋ e x s ′ )∑e∈sexp(−∑s′∋exs′) .)
2.2. Aumenta x sxs di εε .
Ritorna x / min e A e xx/mineAex .
L'algoritmo restituisce una soluzione approssimativa ( 1 + O ( ε ) )(1+O(ε)) in O ( | x ∗ |O(|x∗|log(n)/ε2)iterazioni log ( n ) / ε 2 ) , dove nn è il numero di elementi e x ∗x∗ è la copertura ottimale dell'insieme frazionario (banalmente | x ∗ | ≤ n|x∗|≤n ). (Un algoritmo simile appare neldocumento citato da Chandra. Vertex Cover è ovviamente un caso speciale.)
( Nota: si noti che il limite di iterazione non dipende dal numero di set, ma solo dal numero di elementi. Pertanto, l'algoritmo può essere utilizzato con un sistema di set implicitamente definito, purché, dati i pesi sugli elementi, si possa efficientemente trova un insieme di peso totale massimo (o quasi massimo). Questo tipo di oracolo è uguale all'oracolo di separazione richiesto per applicare l'algoritmo ellissoide al doppio problema. Per problemi di imballaggio come l'insieme di imballaggi, è necessario un oracolo che, dati pesi sugli elementi, restituisce un set minimizzando il peso totale. Per problemi come il flusso multi-merce, potrebbe essere necessario, ad esempio, trovare un percorso che minimizzi la somma di alcuni pesi del bordo).
Ecco uno schizzo della prova della garanzia di prestazione. In ogni iterazione, la derivata parziale rispetto alla ss scelta
è almeno 1 / | x ∗ | 1/|x∗|, dove x ∗x∗ è la copertura ottimale del set frazionario.
(Per capire perché, ricordiamo che il gradiente di Lmin ( A x )(Ax) rispetto a xx è ( g ( A x ) ) T A.(g(Ax))TA Se dovessimo scegliere un set s ″s′ a caso dalla distribuzione x ∗ / | x ∗ |x∗/|x∗| , il valore atteso della derivata parziale rispetto a x s ′XS'
sarebbe quindi ( g ( A x ) ) TA x ∗ / | x ∗ | ( g( A x ) )TA x*/ | X*|. Poiché A x ∗ ≥ 1A x*≥ 1 , questo è almeno | g ( A x ) | / | x ∗ | | g( A x ) | / | X*|. Dal | g ( A x ) | = 1| g(Ax)|=1 , questo è almeno 1 / | x ∗ | 1/|x∗|. Pertanto, devono esistere alcuni s ches danno derivato parziale almeno 1 / | x ∗ |1/|x∗|. Poiché l'algoritmo sceglie x sxs in ciascuna iterazione per massimizzare
la derivata parziale, ottiene una derivata parziale di almeno 1 / | x ∗ | 1/|x∗|.)
Quindi, la dimensione del passo εε viene scelta solo abbastanza piccola in modo che nessuna coordinata di A xAx aumenti di più di εε . Pertanto, a causa della morbidezza di Lmin, aumentando x sxs
per x s + εxs+ε aumenta Lmin ( A x )Lmin(Ax) di almeno
( 1 - O ( ε ) ) ε / | x ∗ | (1−O(ε))ε/|x∗|.
In questo modo, l'algoritmo mantiene invariante
Lmin ( A x ) ≥ ( 1 - O ( ε ) ) | x | / | x ∗ | - ln n . Lmin(Ax)≥(1−O(ε))|x|/|x∗|−lnn.
(Notare che Lmin ( ¯ 0 ) è(0¯¯¯) uguale a ln nlnn .)
Al termine, nell'invariante, il termine ln nlnn è O ( ε )O(ε) volte il lato sinistro, quindi calcolando si ottiene min e A e x ≥ ( 1 - O ( ε ) ) | x | / | x ∗ | mineAex≥(1−O(ε))|x|/|x∗|. Dopo la normalizzazione nell'ultima riga dell'algoritmo, questo implica | x | ≤ ( 1 + O ( ε ) ) | x ∗ | |x|≤(1+O(ε))|x∗|.
FWIW, le disuguaglianze coinvolte nel dimostrare l'invariante sono essenzialmente le stesse di quelle coinvolte nel dimostrare il limite di Chernoff. (In effetti, questo algoritmo può essere derivato applicando il metodo delle probabilità condizionate a uno schema di arrotondamento randomizzato che ripetutamente campiona insiemi dalla distribuzione x ∗ / | x ∗ |x∗/|x∗|
(con sostituzione), aumentando x sxs per ogni insiemi campionati ss . Questa derandomizzazione di ciò fornisce l'algoritmo: l'invariante sottostante è solo che lo stimatore pessimistico rimane al di sotto di 1. Le penalità esponenziali nello stimatore pessimistico provengono dall'uso del limite di Chernoff nell'analisi dello schema di arrotondamento. Questa idea di base è spiegata ulteriormente inil documento di cui parla Chandra .)
Copertura frazionaria ponderata del set (e copertura frazionaria generale)
Per gestire in modo efficiente problemi come la Copertura ponderata del set , modifichiamo l'algoritmo per utilizzare incrementi non uniformi (un'idea dovuta a Garg e Konemann ).
L'LP è min { c ⋅ x : ( ∀ e ) ∑ s ∋ e x s ≥ 1 }min{c⋅x:(∀e)∑s∋exs≥1} , dove ee spazia sugli elementi, ss spazia sugli insiemi e tutte le variabili non sono negative. Per presentare l'algoritmo, innanzitutto riscrivere il problema come un problema di copertura generale. Sia A e s =1 / c sAes=1/cs perposta∈se∈se A e s =0Aes=0altrimenti. Quindi (con un cambiamento di variabili, ridimensionando ogni x sxs di c scs ), l'LP è min { | x | : A x ≥ 1 ; x ≥ 0 }min{|x|:Ax≥1;x≥0} , che possiamo visualizzare come LP di copertura generale. Ecco l'algoritmo:
Inizializza tutto x s = 0xs=0 . Sia N = log ( n ) / εN=log(n)/ε .
Ripetere fino a quando tutti i vincoli di copertura sono stati eliminati:
2.1. Scegli ss massimizzando la derivata parziale di Lmin ( A x )(Ax) wrt x sxs .
(Esplicitamente, scegli ss massimizzando ∑ e ∈ s exp ( - ∑ s ′ ∋ e x s ′ ) / c s∑e∈sexp(−∑s′∋exs′)/cs .)
2.2. Aumenta di x sxs di δδ , dove δδ viene scelto al massimo in modo tale che, per ogni restante limite di copertura ee , l'aumento di A e ⋅ xAe⋅x sia al massimo εε .
2.3 Elimina tutti i vincoli che coprono all'ee tale che A e ⋅ x ≥ NAe⋅x≥N .
Ritorna x / min e A e ⋅ xx / mineUNe⋅ x .
L'algoritmo restituisce una soluzione ( 1 + O ( ε ) )( 1 + O ( ε ) ) approssimata nelle iterazioni O ( n log ( n ) / ε 2 )O ( n log( n ) / ε2) , dove nn è il numero di vincoli di copertura. (Ogni iterazione aumenta alcuni A e xUNeX rimanentidi εε ; ciò può accadere solo N / εN/ ε volte a un vincolo prima che venga eliminato.) La prova di correttezza è essenzialmente tramite lo stesso invariante di Set Cover.
La copertura dei vertici ponderata è un caso speciale.
Corrispondenza bipartita frazionaria massima
Dato un grafico G = ( U , W , E )G = ( U, W,E) , l'LP naturale per il problema è max { | x | : ∀ v .∑ e ∋ v x e ≤ 1 }max{|x|:∀v.∑e∋vxe≤1} .
Nella rappresentazione matrice, si tratta di un LP di imballaggio max { | x | : A x ≤ 1 ; x ≥ 0 }max {|x|:Ax≤1;x≥0}
con coefficienti 0-1 ( A v e = 1Ave=1 se v ∈ ev∈e ). Tali problemi non richiedono incrementi non uniformi, quindi un semplice algoritmo analogo all'algoritmo Set Cover non ponderato (ma per l'imballaggio) farà:
- Inizializza tutto x e = 0xe=0 . Sia N = log ( n ) / εN=log(n)/ε .
Mentre A x < NAx<N :
2.1. Scegli ee minimizzando la derivata parziale di Lmax ( A x )(Ax) wrt x exe .
(Esplicitamente, selezionare ee per ridurre a icona ∑ v ∈ e exp ( ∑ e ′ ∋ v x e ′ )∑v∈eexp(∑e′∋vxe′) .)
2.2. Aumentare x exe da εε .
Ritorno x / max v A v xx/maxvAvx .
L'algoritmo restituisce un ( 1 - O ( ε ) )(1−O(ε)) approssimata nelle iterazioni O ( n log ( n ) / ε 2 )O(nlog(n)/ε2) . (Questo perché ogni iterazione aumenta | x ||x| di εε , e infine, prima della normalizzazione, | x | = O ( N n )|x|=O(Nn) .)
Solo per divertimento, ecco un curioso algoritmo alternativo per Perfect Bipartite Matching. Ricorda che G = ( U , W , E )G=(U,W,E) . Sia n = | U | = | W | n=|U|=|W|.
- Inizializza tutto x e = 0xe=0 . Sia N = 4 ln ( n ) / εN=4ln(n)/ε .
Ripeti nNnN volte:
2.1. Scegliere uu uniformemente a caso da UU .
2.2. Scegli ww tale che ( u , w ) ∈ E(u,w)∈E minimizzando ∑ e ∋ w x e∑e∋wxe .
2.3. Aumenta x u wxuw da εε .
Ritorno x / Nx/N .
Se GG ha una corrispondenza perfetta, l'algoritmo restituisce una xx tale che | x | = n|x|=n , e, con alta probabilità, per tutti i vertici u ∈ Uu∈U , 1 - O ( ε ) ≤ ∑ e ∋ u x e ≤ 1 + O ( ε )1−O(ε)≤∑e∋uxe≤1+O(ε) , e per tutti i vertici w ∈ Ww∈W , ∑ e ∋ w x e ≤ 1 + O ( ε)∑e∋wxe≤1+O(ε) . Se sei interessato ai dettagli della prova, chiedi ...
Imballaggio misto e copertura
Potresti aver chiesto informazioni sulla corrispondenza bipartita sperando in un esempio di a problema misto di imballaggio e copertura, ovvero uno dei moduli
∃ x ? P x ≤ p ; C x ≥ c ; x ≥ 0. ∃x? Px≤p;Cx≥c;x≥0.
Ecco un algoritmo per tali problemi. In primo luogo, normalizzare modo che p = ¯ 1p=1¯¯¯ e c = ¯ 1c=1¯¯¯ .
Sia mm il numero di vincoli (righe in PP più righe in CC ).
- Inizializza tutto x j = 0xj=0 . Sia N = 2 ln ( m ) / εN=2ln(m)/ε .
Mentre P x < NPx<N :
2.1. Scegli j inj modo che la derivata parziale di Lmax ( P x )(Px) rispetto a x jxj sia al massimo la derivata parziale di Lmin ( C x )(Cx) rispetto a x jxj . (Esplicitamente, scegli jj tale che ∑ i P i j exp ( P i x )Exp i exp ( P i x ) ≤∑iCijexp(-Cix)Exp I exp ( - C i x ) . )∑iPijexp(Pix )∑ioexp( Piox )≤∑ioCio jexp( - Ciox )Σioexp( - Ciox ). )
2.2. Aumenta x jXj di δδ , dove δδ viene scelto al massimo in modo tale che nessun vincolo P i xPioX o restante vincolo C i xCioX aumenti di più di εε .
2.3. Elimina tutti iio vincoli di copertura in modo tale C i x ≥ NCiox ≥ N .
Ritorno x / max i P i xx / maxioPioX .
Supponendo che il problema dato sia fattibile, l'algoritmo restituisce una xX tale che P x ≤ 1Px ≤ 1
e C x ≥ 1 - O ( ε )Cx ≥ 1 - O ( ε ) . Il numero di iterazioni è O ( m ln ( m ) / ε 2 )O ( m ln( m ) / ε2) , poiché ogni iterazione aumenta alcuni vincoli di εε , e ciò può accadere per ogni vincolo al massimo NN volte.
La prova di correttezza è tramite l'invariante
Lmax ( P x ) ≤ 2 ln ( m ) + ( 1 + O ( ε ) ) Lmin ( C x ) . Lmax (Px)≤2ln(m)+(1+O(ε))Lmin(Cx).
L'invariante implica
max P x ≤ 2 ln ( m ) + ( 1 + O ( ε ) ) min C x . maxPx≤2ln(m)+(1+O(ε))minCx.
Alla fine il lato sinistro è Ω (log ( m ) / ε )Ω(log(m)/ε) , a dimostrazione della garanzia di prestazione.
Nel passaggio 2.1, il jj desiderato deve esistere fino a quando il problema originale è fattibile. (Questo perché, per ogni fattibile x *x∗ e ogni xx , se dovessimo scegliere un casuale j 'j′ dalla distribuzione x * / | x * |x∗/|x∗| , il valore atteso della derivata parziale di Lmax ( P x )(Px) rispetto a x j ′xj′
sarebbe al massimo 1 / | x ∗ |1/|x∗|(vedi lo schizzo di prova precedente per Set Cover). Allo stesso modo, il valore atteso della derivata parziale di Lmin ( C x )(Cx)
è al massimo la derivata parziale di Lmin ( C x ) .)rispetto a x j ′xj′
sarebbe almeno 1 / | x ∗ | 1/|x∗|. Pertanto, esiste una jj tale che la derivata parziale di Lmax ( P x )(Px) rispetto a x j ′xj′(Cx)
Quindi l'invariante viene mantenuto in ogni iterazione perché, con la scelta di x jxj e δδ , e la levigatezza di Lmin e Lmax, aumentando x jxj a x j + δxj+δ
aumenta Lmax ( P x )(Px)
al massimo di 1 + O ( ε )1+O(ε)
volte l'aumento di Lmin ( C x )(Cx) .
Apprendimento (a seguito di esperti / potenziamento)
Un riferimento per comprendere questa connessione è il
gioco adattivo che utilizza pesi moltiplicativi , di Freund e Schapire. Ecco un breve riassunto per dare l'idea tecnica.
Considera il seguente gioco ripetuto. In ogni round tt :
- Scegli una distribuzione di probabilità p tpt su [ n ][n] (i nn cosiddetti esperti ).
- Conoscendo p tpt , l'avversario sceglie quindi un vettore di payoff a t ∈ [ 0 , 1 ] nat∈[0,1]n .
- Ricevi il payoff p t ⋅ a tpt⋅at per il round.
Il gioco si interrompe dopo un certo numero di round. Il tuo obiettivo è ridurre al minimo il tuo rimpianto rispetto a qualsiasi singolo esperto (vale a dire, pura strategia) ii . Cioè, il tuo obiettivo è ridurre al minimo ( max i ∑ t a t i ) - ∑ t p t ⋅ a t(maxi∑tati)−∑tpt⋅at .
Correggi qualsiasi ε > 0ε>0 . Lascia che il vettore y tyt indichi ε ∑ s ≤ t a sε∑s≤tas , cioè
εε volte la somma vettoriale dei vettori di payoff fino al tempo tt . Ricorda che G ( y )G(y) è il gradiente di Lmax ( y )(y) .
Ecco la strategia di base che analizzeremo: al
giro tt , scegli p tpt per essere G ( y t - 1 )G(yt−1) .
Per ispezione, questo ti dà il profitto a t ⋅ G ( y t - 1 )at⋅G(yt−1) al giro tt .
A causa della proprietà di levigatezza di FF ,
Lmax ( y t ) ≤ Lmax ( y t - 1 ) + ( 1 + O ( ε ) ) ε a t ⋅ G ( y t - 1 ) . Lmax(yt)≤Lmax(yt−1)+(1+O(ε))εat⋅G(yt−1).
Cioè, in ogni round, Lmax ( y t )Lmax(yt) non può aumentare di più di ε ( 1 + O ( ε ) )ε(1+O(ε)) volte il tuo guadagno. Dal momento che Lmax ( ¯ 0 )=lnnLmax(0¯¯¯)=lnn, questo mantiene il invariante cheLmax(yt)Lmax(yt)
è al massimo i tempi di payoff totaliε(1+O ( ε )ε(1+O(ε) , più ln ( n )ln(n) . D'altra parte, il tuo rimpianto rispetto al miglior esperto ii
è max i ∑ t a t imaxi∑tati , ovvero ε - 1 max i y tiε−1maxiyti , che è a sua volta al massimoε-1Lmax(yt)ε−1Lmax(yt).
Pertanto, il tuo rimpianto è al massimo ε - 1 ln ( n )ε−1ln(n) , più O ( ε )O(ε) volte il tuo guadagno totale.
Nota: penso, come sottolinea Freund e Schapire, anche un algoritmo di "potenziamento" (nella teoria dell'apprendimento) è implicito in questa analisi. Vedi il loro documento per maggiori dettagli.
Riduzione al minimo del profitto totale
È possibile derivare una strategia simile per l'impostazione in cui l'obiettivo è minimizzare , piuttosto che massimizzare, il payoff totale. Il tuo rimpianto, che vuoi ancora minimizzare, è ∑ t p t ⋅ a t - min i a t i∑tpt⋅at−miniati . In tal caso, la strategia corrispondente è scegliere p tpt come gradiente di Lmin ( y t )Lmin(yt) . Con questa strategia il tuo rimpianto è di nuovo al massimo
ε - 1 ln nε−1lnn più O ( ε )O(ε) volte il tuo guadagno totale.
Connessione agli algoritmi di rilassamento lagrangiano
Per vedere la connessione agli algoritmi di rilassamento lagrangiano, correggi un'istanza Set-Cover. Considera l'ultimo tipo di gioco (con l'obiettivo di minimizzare il payoff), in cui gli esperti corrispondono agli elementi ee del tuo sistema set. In ogni round, scegli la distribuzione di probabilità p tpt
come gradiente di Lmin ( y t )(yt) come sopra e fai in modo che l'avversario scelga il vettore di payoff a tat in funzione di p tpt come segue:
scegli il set s t chest massimizza ∑ e ∈ s p t e∑e∈spte , quindi lascia a te= 1ate=1altrimenti. se e ∈ s te∈st e a t e = 0ate=0
Data la condizione di arresto corretta (discussa di seguito), questo processo fornisce esattamente l'algoritmo Set-Cover discusso all'inizio.
La garanzia di prestazione dell'algoritmo segue dal rimpianto legato come segue. Let X sXs essere il numero di volte in cui l'avversario ha scelto insieme ss durante il gioco. Sia x ∗x∗ la copertura ottimale del set frazionario. Sia T = | X s | T=|Xs|essere il numero di round giocati. Il limite di rimpianto implica
∑ t a t ⋅ p t ≤ ε - 1 ln ( m ) + min e ∑ t a t e .∑tat⋅pt≤ε−1ln(m)+mine∑tate.
Utilizzando la definizione di un tat , la tt ° payoff (il tt esimo termine nella somma a sinistra) è uguale a Σ e ∈ s t p t e∑e∈stpte . L'avversario ha scelto s tst per ridurre al minimo questo payoff. Se l'avversario avesse invece scelto s tst casualmente dalla distribuzione x ∗ / | x ∗ | x∗/|x∗|, l'aspettativa del payoff sarebbe stata
∑ s x ∗ s| x ∗ | ∑e∈sp t e =1 | x ∗ | ∑ep t e ∑s∋ex ∗ s ≥1 | x ∗ | ∑ep t e =1 | x ∗ | . ∑sx∗s|x∗|∑e∈spte = 1|x∗|∑epte∑s∋ex∗s ≥ 1|x∗|∑epte = 1|x∗|.
(Sopra usiamo che∑s∋ex ∗ s ≥1∑s∋ex∗s≥1per tutteee, e|pt|=1.|pt|=1) Poiché ogni payoff è almeno1/| x∗| 1/|x∗|, il rimpianto associato implica
T| x ∗ | ≤ε-1ln(m)+mine∑ta t e . T|x∗|≤ε−1ln(m)+mine∑tate.
Per definizione diXX, abbiamo| X| =T|X|=T(ogni round sceglie un set), e∑ta t e =∑e[e∈st]=∑ s ∋ e X s∑tate=∑e[e∈st]=∑s∋eXs , dando
| X || x ∗ | ≤ε-1ln(m)+mine∑s∋eXs. |X||x∗|≤ε−1ln(m)+mine∑s∋eXs.
Facciamo arrestare il processo quandomine∑s∋eXs=Ω(ε- 2 lnm)mine∑s∋eXs=Ω(ε−2lnm), quindi (riordinando i termini)
| X |min e ∑ s ∋ e X s ≤(1+O(ε)|x∗|. |X|mine∑s∋eXs ≤ (1+O(ε)|x∗|.
Ovvero, la normalizzazione di XX fornisce una copertura frazionaria della dimensione al massimo ( 1 + O ( ε ) )(1+O(ε)) volte ottimali.
Nota: in un certo senso, questa interpretazione della teoria dell'apprendimento generalizza l'interpretazione algoritmica. Tuttavia, alcune delle tecniche algoritmiche necessarie per l'efficienza (come gli incrementi non uniformi e l'eliminazione dei vincoli di copertura soddisfatti) non sembrano ripercuotersi naturalmente sulla teoria dell'apprendimento. Allo stesso modo, gli algoritmi per gli
imballaggi misti e gli LP coprenti (ad es. Questi ) non sembrano avere analoghi naturali nell'impostazione della teoria dell'apprendimento.