Lo scopo del documento era ottimizzare alcuni parametri massimizzando la probabilità di log regolarizzata. Quindi calcolano i derivati parziali. E poi gli autori menzionano che ottimizzano l'equazione usando L-BFGS, una procedura quasi-Newton standard per ottimizzare le funzioni regolari di molte variabili (niente più dettagli).
Come funziona ?