Supponiamo di avere un livello di input con n neuroni e il primo livello nascosto neuroni, con tipicamente . Quindi calcoli l'attivazione del -th neurone nello strato nascosto di
, dove è una funzione di attivazione come o .
Per addestrare la rete, si calcola la ricostruzione dell'input, indicato e minimizzare l'errore tra e . Ora il-th element in viene generalmente calcolato come:
Mi chiedo perché vengano ricostruiti di solito vengono calcolati con la stessa funzione di attivazione invece di utilizzare la funzione inversa e perché separati e sono utili invece di usare pesi e inclinazioni legate? Mi sembra molto più intuitivo calcolare il ricostruito con la funzione di attivazione inversa, per esempio, , come segue:
Si noti che qui vengono utilizzati pesi legati, ovvero e i pregiudizi del livello nascosto vengono utilizzati, invece di introdurre un ulteriore set di distorsioni per il livello di input.
E una domanda molto correlata: per visualizzare le caratteristiche, invece di calcolare la ricostruzione, si creerebbe di solito una matrice di identità con la dimensione del livello nascosto. Quindi, si utilizzerebbe ciascuna colonna della matrice come input per una funzione di riattivazione, che induce un output nei neuroni di input. Per la funzione di riattivazione, sarebbe meglio usare la stessa funzione di attivazione (risp) o la funzione inversa (risp )?