Nel documento chiamato Deep Learning e il principio del collo di bottiglia delle informazioni gli autori dichiarano nella sezione II A) quanto segue:
I singoli neuroni classificano solo input separabili linearmente, poiché possono implementare solo iperpiani nel loro spazio di input . Gli iperpiani possono classificare in modo ottimale i dati quando gli input sono indipendenti dalla condizione.
Per dimostrarlo, derivano quanto segue. Usando il teorema di Bayes, ottengono:
(1)
Dove è l'input, è la classe e è la classe prevista (presumo, non definita). Continuando, affermano che:
(2)
Dove è la dimensione di input e non sono sicuro (di nuovo, entrambi non sono definiti). Considerando un neurone sigmoidale, con la funzione di attivazione sigmoidea e preaattivazione , dopo aver inserito (2) in (1) otteniamo i valori di peso ottimali e , quando i valori di input .
Ora passiamo alle mie domande. Capisco come l'inserimento di (2) in (1) porti al peso ottimale e ai valori di input . Ciò che non capisco, tuttavia, è il seguente:
- Come viene derivato (1) usando il teorema di Bayes?
- Come viene derivato (2)? Che cos'è ? Qual è il significato di esso? Presumo che abbia qualcosa a che fare con l'indipendenza condizionale
- Anche se le dimensioni di x sono condizionatamente indipendenti, come si può affermare che è uguale alla sua probabilità scalata? (cioè come si può dire ?)
EDIT: la variabile è una variabile di classe binaria. Da ciò presumo che sia la "altra" classe. Ciò risolverebbe la domanda 1. Sei d'accordo?