Alcune fonti affermano che la funzione di verosimiglianza non è una probabilità condizionata, altre lo dicono. Questo è molto confuso per me.
Secondo la maggior parte delle fonti che ho visto, la probabilità di una distribuzione con il parametro dovrebbe essere un prodotto delle funzioni di massa di probabilità dati n campioni di x i :
Ad esempio nella regressione logistica, utilizziamo un algoritmo di ottimizzazione per massimizzare la funzione di probabilità (stima della massima verosimiglianza) per ottenere i parametri ottimali e quindi il modello LR finale. Dati gli campioni di addestramento, che riteniamo indipendenti l'uno dall'altro, vogliamo massimizzare il prodotto delle probabilità (o le funzioni di massa delle probabilità congiunte). Questo mi sembra abbastanza ovvio.
Secondo la relazione tra: probabilità, probabilità condizionale e tasso di fallimento , "la probabilità non è una probabilità e non è una probabilità condizionale". Ha anche menzionato che "la probabilità è una probabilità condizionata solo nella comprensione bayesiana della probabilità, vale a dire se si assume che sia una variabile casuale".
Ho letto delle diverse prospettive di trattare un problema di apprendimento tra frequentista e bayesiano.
Secondo una fonte, per l'inferenza bayesiana, abbiamo a priori , probabilità P ( X | θ ) e vogliamo ottenere la P posteriore ( θ | X ) , usando il teorema bayesiano:
Non ho familiarità con l'inferenza bayesiana. Come mai che è la distribuzione dei dati osservati subordinata ai suoi parametri, viene anche definita probabilità? In Wikipedia , a volte dice che è scritto L ( θ | X ) = p ( X | θ ) . Cosa significa questo?
c'è una differenza tra le definizioni di Frequentist e Bayesian sulla probabilità ??
Grazie.
MODIFICARE:
Esistono diversi modi di interpretare il teorema di Bayes: l'interpretazione bayesiana e l'interpretazione frequentista (Vedi: teorema di Bayes - Wikipedia ).