La discesa gradiente è un algoritmo di ottimizzazione iterativa di primo ordine. Per trovare un minimo locale di una funzione usando la discesa gradiente, si procede in modo proporzionale al negativo del gradiente (o del gradiente approssimativo) della funzione nel punto corrente. Per la discesa gradiente stocastica c'è anche il tag [sgd].