In sostanza, la mia domanda è che nei Perceptron multistrato, i percettroni sono usati con una funzione di attivazione sigmoidea. In modo che nella regola di aggiornamento sia calcolato come
In che modo questo "sigmoide" Perceptron differisce quindi da una regressione logistica?
Direi che un percettrone sigmoideo a strato singolo equivale a una regressione logistica nel senso che entrambi usano nella regola di aggiornamento. Inoltre, entrambi restituiscono nella previsione. Tuttavia, nei percetroni multistrato, la funzione di attivazione sigmoidea viene utilizzata per restituire una probabilità, non un segnale on / off in contrasto con la regressione logistica e un percettrone a strato singolo.
Penso che l'uso del termine "Perceptron" possa essere un po 'ambiguo, quindi lasciatemi fornire alcuni retroscena basati sulla mia attuale comprensione dei percetroni a strato singolo:
Regola percettiva classica
Innanzitutto, il classico perceptron di F. Rosenblatt in cui abbiamo una funzione di passaggio:
per aggiornare i pesi
In modo che sia calcolato come
Discesa a gradiente
Usando la discesa gradiente, ottimizziamo (minimizziamo) la funzione di costo
dove abbiamo numeri "reali", quindi vedo questo sostanzialmente analogo alla regressione lineare con la differenza che il nostro output di classificazione è soglia.
Qui, facciamo un passo nella direzione negativa del gradiente quando aggiorniamo i pesi
Ma qui abbiamo invece di
Inoltre, calcoliamo la somma degli errori al quadrato per un passaggio completo sull'intero set di dati di allenamento (nella modalità di apprendimento batch) in contrasto con la classica regola percettrone che aggiorna i pesi all'arrivo di nuovi campioni di allenamento (analogico alla discesa gradiente stocastica - online apprendimento).
Funzione di attivazione sigmoide
Ora, ecco la mia domanda:
Nei Perceptron multistrato, i percettroni sono usati con una funzione di attivazione sigmoidea. In modo che nella regola di aggiornamento sia calcolato come
In che modo questo "sigmoide" Perceptron differisce quindi da una regressione logistica?