L'impressione che ho avuto, sulla base di diversi articoli, libri e articoli che ho letto, è che il modo consigliato di adattare una distribuzione di probabilità su un insieme di dati è utilizzando la stima della massima verosimiglianza (MLE). Tuttavia, come fisico, un modo più intuitivo è semplicemente quello di adattare il pdf del modello al pdf empirico dei dati usando i minimi quadrati. Perché allora MLE è migliore dei minimi quadrati per adattare le distribuzioni di probabilità? Qualcuno potrebbe indicarmi un articolo / libro scientifico che risponde a questa domanda?
La mia impressione è perché MLE non assume un modello di rumore e il "rumore" nel pdf empirico è eteroscedastico e non normale.