Qual è la differenza tra una probabilità parziale, la probabilità del profilo e la probabilità marginale?

56

Vedo questi termini usati e continuo a confonderli. C'è una semplice spiegazione delle differenze tra loro?

estimation maximum-likelihood

— Rob Hyndman
fonte

57

La funzione di probabilità di solito dipende da molti parametri. A seconda dell'applicazione, di solito siamo interessati solo a un sottoinsieme di questi parametri. Ad esempio, nella regressione lineare, l'interesse risiede tipicamente nei coefficienti di pendenza e non nella varianza dell'errore.

Indica i parametri che ci interessano come e i parametri che non sono di interesse primario come . Il modo standard di affrontare il problema della stima è massimizzare la funzione di probabilità in modo da ottenere stime di e . Tuttavia, poiché l'interesse primario risiede nel parziale, il profilo e la probabilità marginale offrono modi alternativi per stimare senza stimare . $\beta$ $\theta$ $\beta$ $\theta$ $\beta$ $\beta$ $\theta$

Per vedere la differenza denotare la probabilità standard di . $L(\beta, \theta|\mathrm{data})$

Probabilità massima

Trova e che massimizzano . $\beta$ $\theta$ $L(\beta, \theta|\mathrm{data})$

Probabilità parziale

Se riusciamo a scrivere la funzione di verosimiglianza come:

L (β, θ | d a t a) = L_{1} (β | d a t a) L_{2} (θ | d a t a)

$L(\beta, \theta|\mathrm{data}) = L_1(\beta|\mathrm{data}) L_2(\theta|\mathrm{data})$

Quindi massimizziamo semplicemente . $L_1(\beta|\mathrm{data})$

Probabilità del profilo

Se possiamo esprimere in funzione di , sostituiamo con la funzione corrispondente. $\theta$ $\beta$ $\theta$

Dì, . Quindi, massimizziamo: $\theta = g(\beta)$

L (β, g (β) | d a t a)

$L(\beta, g(\beta)|\mathrm{data})$

Probabilità marginale

Integriamo dall'equazione di verosimiglianza sfruttando il fatto che possiamo identificare la distribuzione di probabilità di condizionale su . $\theta$ $\theta$ $\beta$

— febstar
fonte

2

Si noti che l'ultima definizione qui è una verosimiglianza integrata (o bayesiana), non una verosimiglianza marginale.

— ars

È corretto nell'RHS per una probabilità parziale: "L2 (θ | theta)"?

— jpalecek,

@ars, per favore, modifica la risposta e fornisci la definizione di Probabilità marginale?

— Waldir Leoncio,

13

Tutti e tre sono usati quando si hanno a che fare con i parametri di disturbo nella funzione di probabilità completamente specificata.

La probabilità marginale è il metodo principale per eliminare i parametri di disturbo in teoria. È una vera funzione di verosimiglianza (ovvero è proporzionale alla probabilità (marginale) dei dati osservati).

La probabilità parziale non è una vera probabilità in generale. Tuttavia, in alcuni casi può essere trattato come una probabilità di inferenza asintotica. Ad esempio nei modelli di rischi proporzionali di Cox, da cui provengono, siamo interessati alle classifiche osservate nei dati (T1> T2> ..) senza specificare il rischio di base. Efron ha dimostrato che la probabilità parziale perde poche o nessuna informazione per una varietà di funzioni di pericolo.

La probabilità del profilo è conveniente quando abbiamo una funzione di probabilità multidimensionale e un singolo parametro di interesse. Viene specificato sostituendo il fastidio S con il suo MLE ad ogni T fisso (il parametro di interesse), cioè L (T) = L (T, S (T)). Questo può funzionare bene in pratica, sebbene ci sia un potenziale pregiudizio nel MLE ottenuto in questo modo; la probabilità marginale corregge questo pregiudizio.

— ars
fonte