Avrai un minimo globale se il problema è convesso o quasiconvex.
Informazioni sui "blocchi" convessi durante la costruzione di reti neurali (versione di Informatica)
Penso che ce ne siano molti che possono essere menzionati:
max (0, x) - convesso e crescente
log-sum-exp - convesso e crescente in ciascun parametro
y = Ax è affine e quindi convesso in (A), forse aumentando forse diminuendo. y = Ax è affine e quindi convesso in (x), forse aumentando forse diminuendo.
Sfortunatamente non è convesso in (A, x) perché sembra una forma quadratica indefinita.
Convoluzione discreta matematica usuale (per "solito" intendo definita con segnale ripetuto) Y = h * X Sembra che sia una funzione affine di h o della variabile X. Quindi è convessa nella variabile h o nella variabile X. Informazioni su entrambe le variabili - Non la penso così perché quando h e X sono scalari la convoluzione si riduce a forma quadratica indefinita.
max (f, g) - se f e g sono convessi, anche max (f, g) è convesso.
Se si sostituisce una funzione in un'altra e si creano composizioni, si deve rimanere nella stanza convessa per y = h (g (x), q (x)), ma h dovrebbe essere convesso e dovrebbe aumentare (non diminuire) in ogni argomento. ...
Perché le reti neurali in non convesse:
Penso che la convoluzione Y = h * X non sia necessariamente crescente in h. Quindi, se non si usano ipotesi extra sul kernel, si uscirà immediatamente dall'ottimizzazione convessa dopo aver applicato la convoluzione. Quindi non tutto va bene con la composizione .
Anche la convoluzione e la moltiplicazione della matrice non sono convesse se si considerano i parametri di coppia come menzionato sopra. Quindi c'è un problema con la moltiplicazione della matrice: si tratta di un'operazione non convessa nei parametri (A, x)
y = Ax può essere quasiconvex in (A, x) ma si dovrebbero prendere in considerazione anche ipotesi extra.
Per favore fatemi sapere se non siete d'accordo o avete qualche considerazione in più. La domanda è anche molto interessante per me.
ps max-pooling - che è downsamping con la selezione di max sembra una modifica delle operazioni max elementwise con precomposizione affine (per tirare i blocchi necessari) e sembra convesso per me.
A proposito di altre domande
No, la regressione logistica non è convessa o concava, ma è log-concava. Ciò significa che dopo l'applicazione del logaritmo avrai una funzione concava nelle variabili esplicative. Quindi qui il trucco della massima verosimiglianza è fantastico.
Se non ci sono solo un minimo globale. Non si può dire nulla sulla relazione tra i minimi locali. O almeno non puoi usare l'ottimizzazione convessa e le sue estensioni per questo, perché quest'area della matematica è profondamente basata sul sottostimatore globale.
Forse hai confusione su questo. Perché davvero le persone che creano tali schemi fanno semplicemente "qualcosa" e ricevono "qualcosa". Sfortunatamente perché non abbiamo un meccanismo perfetto per affrontare l'ottimizzazione non convessa (in generale).
Ma ci sono cose ancora più semplici accanto a Neural Networks - che non possono essere risolte come i minimi quadrati non lineari - https://youtu.be/l1X4tOoIHYo?t=2992 (EE263, L8, 50:10)