Qual è la differenza tra stima della massima verosimiglianza e discesa del gradiente?


16

Quali sono i pro e i contro di entrambi i metodi?


1
Non sto cercando solo la definizione di questi due metodi che ho già dalla ricerca di Google. Sto cercando di capire quale metodo è preferito in quale caso. Ad esempio: per Bigdata funzionerà meglio di altri, ecc. Non sono riuscito a trovare del materiale valido che parli degli aspetti pratici, ecc.
GeorgeOfTheRF

8
In che modo un corvo è come uno scrittoio?
whuber

4
@ML_Pro GD non si riferisce in alcun modo alla modellazione statistica, è un algoritmo. Probabilmente potresti iniziare con un manuale introduttivo sulle statistiche per comprendere meglio l'inferenza statistica prima di approfondire gli strumenti (come GD) per risolvere i problemi statistici.
Tim

1
Intendevi chiedere la differenza tra Discesa del gradiente e Massimizzazione delle aspettative (che viene generalmente utilizzata per risolvere il problema di ottimizzazione in MLE)?
Sobi,

Risposte:


32

La stima della massima verosimiglianza è un approccio generale alla stima dei parametri nei modelli statistici massimizzando lafunzione di verosimiglianza definita come

L(θ|X)=f(X|θ)

cioè la probabilità di ottenere dati dato un certo valore del parametro θ . Conoscere la funzione di verosimiglianza per un dato problema si può cercare tale θ che massimizza la probabilità di ottenere i dati che avete. A volte abbiamo stimatori noti, ad esempio la media aritmetica è uno stimatore MLE per parametro μ per la distribuzione normale , ma in altri casi è possibile utilizzare diversi metodi che includono l'utilizzo di algoritmi di ottimizzazione. L'approccio ML non ti dice come trovare il valore ottimale di θ - puoi semplicemente fare ipotesi e usare la probabilità per confrontare quale ipotesi era migliore - ti dice solo come puoi confrontare se un valore diXθθμθ è "più probabile" dell'altro.θ

La discesa gradiente è un algoritmo di ottimizzazione . È possibile utilizzare questo algoritmo per trovare il minimo (o il massimo, quindi viene chiamato salita gradiente ) di molte funzioni diverse. L'algoritmo non importa davvero quale sia la funzione che minimizza, fa solo quello che gli è stato chiesto. Quindi, usando l'algoritmo di ottimizzazione, devi sapere in qualche modo come capire se un valore del parametro di interesse è "migliore" dell'altro. Devi fornire al tuo algoritmo una funzione per ridurre al minimo e l'algoritmo si occuperà di trovare il suo minimo.

È possibile ottenere le stime della massima verosimiglianza utilizzando metodi diversi e l'utilizzo di un algoritmo di ottimizzazione è uno di questi. D'altra parte, la discesa gradiente può anche essere usata per massimizzare le funzioni diverse dalla funzione di verosimiglianza.


5
@ML_Pro Ho fornito due link in cui è possibile trovare informazioni dettagliate, non credo sia necessario duplicare queste risposte.
Tim

8
@ML_Pro come ho scritto nella mia risposta, sono cose diverse e non puoi confrontarle ...
Tim

7
Sì, ma MLE è un approccio generale e GD è solo un algoritmo che è possibile utilizzare per ridurre al minimo un numero di funzioni diverse. È come se avessi confrontato l'algebra con la calcolatrice tascabile ...
Tim

4
MLE specifica la funzione obiettivo (la funzione di probabilità); GD trova la soluzione ottimale a un problema una volta specificata la funzione obiettivo. È possibile utilizzare GD (o altri algoritmi di ottimizzazione) per risolvere un problema di massima verosimiglianza e il risultato sarà lo stimatore della massima verosimiglianza.
jbowman,

1
@ML_Pro questo è descritto nei link che ho fornito nella mia risposta. In breve: sì, è un prodotto di pdf. Prodotto perché presumiamo che i dati siano iid. È definito in termini di pdf perché stiamo parlando di un modello di probabilità.
Tim

-3

f=l(θ)
dfdθ=0

θ
f

Ma la probabilità di regressione logistica non funziona in questo modo una soluzione a forma chiusa . Quindi dobbiamo usare un altro metodo, come gradient descent.



"I coefficienti di regressione sono generalmente stimati utilizzando la stima della massima verosimiglianza" ( en.wikipedia.org/wiki/Logistic_regression )
Tim

La stima della massima verosimiglianza è un tipo di metodo per stimare i coefficienti di regressione, ma abbiamo diversi modi per trovare la soluzione di MLE. Quindi usare likelihood function+ gradient descent(che per ottenere la soluzione della funzione di verosimiglianza) è ancora un modo per fare MLE.
Belter,

Puoi anche vedere questa frase Unlike linear regression, we can no longer write down the MLE in closed form. Instead, we need to use an optimization algorithm to compute it. For this, we need to derive the gradient and Hessian.da Machine Learning: una prospettiva probabilistica, Kevin Murphy.
Belter,

... quindi la formulazione della tua risposta è confusa in quanto sembra che tu stia dicendo che per la regressione logistica non stiamo usando ML e invece usiamo GD.
Tim
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.