Gli iperpiani classificano in modo ottimale i dati quando gli input sono condizionatamente indipendenti - Perché?


10

Nel documento chiamato Deep Learning e il principio del collo di bottiglia delle informazioni gli autori dichiarano nella sezione II A) quanto segue:

I singoli neuroni classificano solo input separabili linearmente, poiché possono implementare solo iperpiani nel loro spazio di input . Gli iperpiani possono classificare in modo ottimale i dati quando gli input sono indipendenti dalla condizione.u=wh+b

Per dimostrarlo, derivano quanto segue. Usando il teorema di Bayes, ottengono:

p(y|x)=11+exp(logp(x|y)p(x|y)logp(y)p(y)) (1)

Dove è l'input, è la classe e è la classe prevista (presumo, non definita). Continuando, affermano che:xyyy

p(x|y)p(x|y)=j=1N[p(xj|y)p(xj|y)]np(xj) (2)

Dove è la dimensione di input e non sono sicuro (di nuovo, entrambi non sono definiti). Considerando un neurone sigmoidale, con la funzione di attivazione sigmoidea e preaattivazione , dopo aver inserito (2) in (1) otteniamo i valori di peso ottimali e , quando i valori di input .Nnσ(u)=11+exp(u)uwj=logp(xj|y)p(xj|y)b=logp(y)p(y)hj=np(xj)

Ora passiamo alle mie domande. Capisco come l'inserimento di (2) in (1) porti al peso ottimale e ai valori di input . Ciò che non capisco, tuttavia, è il seguente:w,b,h

  1. Come viene derivato (1) usando il teorema di Bayes?
  2. Come viene derivato (2)? Che cos'è ? Qual è il significato di esso? Presumo che abbia qualcosa a che fare con l'indipendenza condizionalen
  3. Anche se le dimensioni di x sono condizionatamente indipendenti, come si può affermare che è uguale alla sua probabilità scalata? (cioè come si può dire ?)hj=np(xj)

EDIT: la variabile è una variabile di classe binaria. Da ciò presumo che sia la "altra" classe. Ciò risolverebbe la domanda 1. Sei d'accordo?yy


Faccio fatica a capire da dove provenga l'eq 2, nonostante i suggerimenti nella risposta dell'autore dell'articolo (Prof. Tishby). Capisco la parte che deriva dal presupposto di indipendenza condizionale. Tuttavia, non sono sicuro dell'esponente - perché è lì? np(xj)
IcannotFix Questo

Risposte:


5

Mi dispiace per i dettagli mancanti nel nostro breve articolo, ma queste relazioni e connessioni tra il test del rapporto di verosimiglianza e i neuroni sigmoidali non sono certamente nuove, e possono essere trovate nei libri di testo (ad esempio Bishop 2006). Nel nostro documento, 'N' è la dimensione di input e 'n' è la dimensione del campione di test (che in realtà si è tradotto in input SNR presupponendo che SNR cresca come sqrt (n)). La connessione alla funzione sigmoidale avviene tramite la regola di Bayes, come posteriore della classe. Nulla nel resto del documento e nel nostro documento più recente e più importante del 2017 dipende in realtà da questo.

Naftali Tishby


2
Grazie per aver chiarito questo qui. È prassi normale in questa comunità scrivere citazioni complete in modo che i lettori interessati possano cercare le fonti. Potresti farlo per Bishop (2006)?
mkt - Ripristina Monica il

5

Questa è una configurazione del modello in cui gli autori stanno usando una forma speciale di teorema di Bayes che si applica quando si ha una variabile binaria di interesse. Derivano prima questa forma speciale del teorema di Bayes come Equazione (1), e poi mostrano che la condizione nell'equazione (2) li conduce alla forma lineare specificata per la loro rete. È importante notare che quest'ultima equazione non deriva da condizioni precedenti --- piuttosto, è una condizione per la forma lineare che stanno usando per la loro rete.


Derivare la prima equazione: l' equazione (1) nel documento è solo una forma del teorema di Bayes che inquadra la probabilità condizionale di interesse in termini della funzione logistica standard (sigmoide) che opera sulle funzioni della probabilità e del precedente. Prendendo e sia i due risultati binari della variabile casuale , e applicando il teorema di Bayes, dà:yyY

p(y|x)=p(y,x)p(x)=p(x|y)p(y)p(x|y)p(y)+p(x|y)p(y)=11+p(x|y)p(y)/p(x|y)p(y)=11+exp(log(p(x|y)p(y)p(x|y)p(y)))=11+exp(logp(x|y)p(x|y)logp(y)p(y))=logistic(logp(x|y)p(x|y)+logp(y)p(y)).

Utilizzo dell'equazione (2) come condizione per la forma lienar della rete: come detto sopra, questa equazione non è qualcosa che deriva da risultati precedenti. Piuttosto, è una condizione sufficiente che porta alla forma lineare che gli autori usano nel loro modello --- cioè, gli autori stanno dicendo che se questa equazione è valida, seguono alcuni risultati successivi. Consentire al vettore di input avere una lunghezza , se l'equazione (2) è valida, quindi prendere i logaritmi di entrambi i lati dà:x=(x1,...,xN)N

logp(x|y)p(x|y)=logi=1N[p(xi|y)p(xi|y)]np(xi)=i=1Nnp(xi)log[p(xi|y)p(xi|y)]=i=1Nhiwi.

In questa condizione, otteniamo quindi la forma posteriore:

p(y|x)=logistic(logp(x|y)p(x|y)+logp(y)p(y))=logistic(i=1Nhiwi+b),

che è la forma utilizzata dagli autori nella loro rete. Questo è il modulo modello postulato dagli autori nella sezione di sfondo, prima di specificare le equazioni (1) - (2). Il documento non definisce è in questa configurazione del modello, ma come sottolineato, la risposta del Prof Tishby afferma che questa è la dimensione del campione di prova. Per quanto riguarda la tua terza domanda, sembra che il requisito dell'equazione (2) significhi che i valori in non sono condizionatamente indipendenti dato .nxy


Il prof. Tishby (autore) afferma, nella sua risposta, che è la dimensione del campione di prova. Questo è il motivo per cui ho sentito che eq (2) aveva un'interpretazione molto più ricca di una condizione arbitraria alla forma lineare della rete. n
IcannotFix Questo

Grazie - Ho modificato la mia risposta per riflettere queste informazioni aggiuntive.
Ben - Ripristina Monica il

4

Per 1

P(yx)=P(y,x)P(x)

=P(y,x)iP(yi,x)

Ora che è binario, questo diventa:yi

=P(y,x)P(y,x)+P(y,x)

=11+P(y,x)P(y,x)

=11+exp[log P(y,x)P(y,x)]

e da lì è solo la proprietà del logaritmo per arrivare alla forma finale (dovrebbe essere sufficientemente chiaro a questo punto, fammi sapere se no).

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.