Sto cercando di comprendere l'ottimizzazione della discesa gradiente negli algoritmi ML (machine learning). Capisco che esiste una funzione di costo, in cui l'obiettivo è ridurre al minimo l'errore . In uno scenario in cui i pesi vengono ottimizzati per fornire l'errore minimo e vengono utilizzate derivate parziali, cambia sia che in ogni passaggio o è una combinazione (ad esempio, in poche iterazioni viene modificato solo e quando non riduce più l'errore, la derivata inizia con )? L'applicazione potrebbe essere un modello di regressione lineare, un modello di regressione logistica o aumentare gli algoritmi.
w1
, diminuzione inw2
base alla direzione da derivata parziale per raggiungere i minimi locali e solo per confermare che l'algoritmo non fornirà necessariamente sempre i minimi globali?