Quali sono i pro e i contro di entrambi i metodi?
Quali sono i pro e i contro di entrambi i metodi?
Risposte:
La stima della massima verosimiglianza è un approccio generale alla stima dei parametri nei modelli statistici massimizzando lafunzione di verosimiglianza definita come
cioè la probabilità di ottenere dati dato un certo valore del parametro θ . Conoscere la funzione di verosimiglianza per un dato problema si può cercare tale θ che massimizza la probabilità di ottenere i dati che avete. A volte abbiamo stimatori noti, ad esempio la media aritmetica è uno stimatore MLE per parametro μ per la distribuzione normale , ma in altri casi è possibile utilizzare diversi metodi che includono l'utilizzo di algoritmi di ottimizzazione. L'approccio ML non ti dice come trovare il valore ottimale di θ - puoi semplicemente fare ipotesi e usare la probabilità per confrontare quale ipotesi era migliore - ti dice solo come puoi confrontare se un valore di è "più probabile" dell'altro.
La discesa gradiente è un algoritmo di ottimizzazione . È possibile utilizzare questo algoritmo per trovare il minimo (o il massimo, quindi viene chiamato salita gradiente ) di molte funzioni diverse. L'algoritmo non importa davvero quale sia la funzione che minimizza, fa solo quello che gli è stato chiesto. Quindi, usando l'algoritmo di ottimizzazione, devi sapere in qualche modo come capire se un valore del parametro di interesse è "migliore" dell'altro. Devi fornire al tuo algoritmo una funzione per ridurre al minimo e l'algoritmo si occuperà di trovare il suo minimo.
È possibile ottenere le stime della massima verosimiglianza utilizzando metodi diversi e l'utilizzo di un algoritmo di ottimizzazione è uno di questi. D'altra parte, la discesa gradiente può anche essere usata per massimizzare le funzioni diverse dalla funzione di verosimiglianza.
f
Ma la probabilità di regressione logistica non funziona in questo modo una soluzione a forma chiusa . Quindi dobbiamo usare un altro metodo, come gradient descent
.
likelihood function
+ gradient descent
(che per ottenere la soluzione della funzione di verosimiglianza) è ancora un modo per fare MLE.
Unlike linear regression, we can no longer write down the MLE in closed form. Instead, we need to use an optimization algorithm to compute it. For this, we need to derive the gradient and Hessian.
da Machine Learning: una prospettiva probabilistica, Kevin Murphy.