Limiti su in termini di diverso dalla disuguaglianza di Jensen?


21

Se è una funzione convessa, la disuguaglianza di Jensen afferma che e, mutatis mutandis, quando è concavo. Chiaramente, nel peggiore dei casi, non è possibile limite superiore in termini di per una convessa , ma esiste un limite che va in questa direzione se è convesso ma "non troppo convesso"? C'è qualche limite standard che dà condizioni su una funzione convessa (e possibilmente anche la distribuzione, se necessario) che ti permetterebbe di concludere che , doveff(E[x])E[f(x)]E [ f ( x ) ] f ( E [ x ] ) f f f E [ f ( x ) ] φ ( f ) f ( E [ x ] ) φ ( f )fE[f(x)]f(E[x])fffE[f(x)]φ(f)f(E[x])φ(f)è una funzione della curvatura / grado di convessità di ? Qualcosa di simile a una condizione di Lipschitz, forse?f


Votazione per chiudere come fuori tema. math.stackexchange.com forse?
Aryabhata,

7
Penso che questa domanda dovrebbe rimanere aperta; questo è il tipo di disuguaglianza che molti teorici del lavoro troverebbero utile su base regolare.
Aaron Roth,

10
So che questo è più vicino alla matematica pura rispetto alla maggior parte delle domande postate finora, ma direi che questo è in argomento poiché questo tipo di cose emerge frequentemente nell'analisi di algoritmi randomizzati (che è l'applicazione che ho in mente). Penso che la matematica ampiamente utilizzata nell'informatica debba essere considerata un gioco equo per le domande.
Ian,

6
vota per rimanere aperto. sicuramente in tema
Suresh Venkat,

1
Voto anche per tenermi aperto.
Jeffε

Risposte:


21

EDIT: la versione originale ha perso un valore assoluto. spiacente!!

Ciao Ian Descriverò brevemente due disuguaglianze di esempio, una usando un limite di Lipschitz, l'altra usando un limite sul secondo derivato, e poi discuterò alcune difficoltà in questo problema. Sebbene io sia ridondante, poiché un approccio che utilizza un derivato spiega cosa succede con più derivati ​​(tramite Taylor), risulta che la seconda versione derivata è piuttosto carina.

Innanzitutto, con un limite di Lipschitz: rielaborare semplicemente la disuguaglianza standard di Jensen. Lo stesso trucco si applica: calcolare l'espansione di Taylor al valore atteso.

In particolare, Sia misura corrispondente e imposta . Se ha la costante Lipschitz , allora secondo il teorema di Taylorμ m : = E ( x ) f LXμm:=E(x)fL

f(x)=f(m)+f(z)(xm)f(m)+L|xm|,

dove (si noti che e sono possibili). Usando questo e rielaborando la prova di Jensen (sono paranoico e ho verificato che quello standard sia effettivamente su Wikipedia),x m x > mz[m,x]xmx>m

E(f(X))=f(x)dμ(x)f(m)dμ(x)+L|xm|dμ(x)=f(E(X))+LE(|XE(X)|).

Supponiamo ora . In questo caso,|f(x)|λ

f(x)=f(m)+f(m)(xm)+f(z)(xm)22f(m)+f(m)(xm)+λ(xm)22,

e così

E(f(X))f(m)+f(m)(E(X)m)+λE((Xm)2)2=f(E(X))+λVar(X)2.

Vorrei menzionare brevemente alcune cose. Scusa se sono ovvi.

Uno è che non puoi semplicemente dire "wlog " spostando la distribuzione, perché stai cambiando la relazione tra e .f μE(X)=0fμ

Il prossimo è che il limite deve dipendere in qualche modo dalla distribuzione. Per vedere questo, immaginare che e . Qualunque sia il valore di , ottieni comunque . D'altra parte, . Quindi, cambiando , puoi rendere arbitrario il divario tra le due quantità! Intuitivamente, più massa viene allontanata dalla media e quindi, per qualsiasi funzione strettamente convessa, aumenterà .f ( x ) = x 2 σ f ( E ( X ) ) = f ( 0 ) = 0 E ( f ( X ) ) = E ( X 2 ) = σ 2 σ E ( f ( X ) )XGaussian(0,σ2)f(x)=x2σf(E(X))=f(0)=0E(f(X))=E(X2)=σ2σE(f(X))

Infine, non vedo come ottenere un limite moltiplicativo come suggerisci tu. Tutto ciò che ho usato in questo post è standard: il teorema di Taylor e i limiti dei derivati ​​sono pane e burro nei limiti delle statistiche e danno automaticamente errori additivi, non moltiplicativi.

Ci penserò e pubblicherò qualcosa. La vaga intuizione è che avrà bisogno di condizioni molto faticose sia per la funzione che per la distribuzione e che il limite additivo è effettivamente al centro di esso.


Ogni volta che modifico, la risposta viene respinta. Quindi sottolineo: il secondo limite derivato è stretto per l'esempio che ho dato.
matus,

Penso che tu abbia ragione nel dire che i limiti additivi sono i migliori possibili senza condizioni molto più forti sulla funzione.
Ian,

Caro Ian, ho pensato a questo problema un po 'di più, ma la principale difficoltà nella mia mente è suggerita dall'esempio che ho dato, dove , ma . Puoi vincolare sia la famiglia di funzioni (limitate, derivate limitate, integrabili) sia la distribuzione (smooth, bounded, bounded momemts), e hai ancora questi esempi. È sufficiente avere una funzione simmetrica, non negativa, pari a zero alla media della distribuzione. Detto questo, tutto dipende dai vincoli del tuo esatto problema. Nel caso generale, penso che la natura additiva sia fondamentale. E ( f ( X ) ) > 0f(E(X))=0E(f(X))>0
matus,

@Ian: Le prove delle disuguaglianze di Chernoff e Azuma-Hoeffding usano argomenti che ne ricordano questo, quindi potresti voler leggere quelle per ispirazione. Vedi ad esempio il libro di Mitzenmacher e Upfal sulla randomizzazione nell'informatica.
Warren Schudy,

3

Per approfondimento, considera una distribuzione concentrata su due valori; ad esempio, con pari probabilità di 1/2 che equivale a 1 o 3, da cui . Prendi e . Considera le funzioni per le quali e . Rendendo sufficientemente piccolo e collegando continuamente tra questi tre punti, possiamo rendere la curvatura di piccola quanto desiderato. PoiN > > 0 ε > 0 f f ( 1 ) = f ( 3 ) = N ε f ( E [ x ] ) = f ( 2 ) = ε ε f fE[x]=2N>>0ϵ>0ff(1)=f(3)=Nϵf(E[x])=f(2)=ϵϵff

E[f(x)]=Nϵ , ancora

N=Nϵ/ϵ=E[f(x)]/f(E[x])φ(f) .

Ciò mostra che deve essere arbitrariamente grande.φ(f)

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.