Vedo questi termini usati e continuo a confonderli. C'è una semplice spiegazione delle differenze tra loro?
Vedo questi termini usati e continuo a confonderli. C'è una semplice spiegazione delle differenze tra loro?
Risposte:
La funzione di probabilità di solito dipende da molti parametri. A seconda dell'applicazione, di solito siamo interessati solo a un sottoinsieme di questi parametri. Ad esempio, nella regressione lineare, l'interesse risiede tipicamente nei coefficienti di pendenza e non nella varianza dell'errore.
Indica i parametri che ci interessano come e i parametri che non sono di interesse primario come . Il modo standard di affrontare il problema della stima è massimizzare la funzione di probabilità in modo da ottenere stime di e . Tuttavia, poiché l'interesse primario risiede nel parziale, il profilo e la probabilità marginale offrono modi alternativi per stimare senza stimare .
Per vedere la differenza denotare la probabilità standard di .
Probabilità massima
Trova e che massimizzano .
Probabilità parziale
Se riusciamo a scrivere la funzione di verosimiglianza come:
Quindi massimizziamo semplicemente .
Probabilità del profilo
Se possiamo esprimere in funzione di , sostituiamo con la funzione corrispondente.
Dì, . Quindi, massimizziamo:
Probabilità marginale
Integriamo dall'equazione di verosimiglianza sfruttando il fatto che possiamo identificare la distribuzione di probabilità di condizionale su .
Tutti e tre sono usati quando si hanno a che fare con i parametri di disturbo nella funzione di probabilità completamente specificata.
La probabilità marginale è il metodo principale per eliminare i parametri di disturbo in teoria. È una vera funzione di verosimiglianza (ovvero è proporzionale alla probabilità (marginale) dei dati osservati).
La probabilità parziale non è una vera probabilità in generale. Tuttavia, in alcuni casi può essere trattato come una probabilità di inferenza asintotica. Ad esempio nei modelli di rischi proporzionali di Cox, da cui provengono, siamo interessati alle classifiche osservate nei dati (T1> T2> ..) senza specificare il rischio di base. Efron ha dimostrato che la probabilità parziale perde poche o nessuna informazione per una varietà di funzioni di pericolo.
La probabilità del profilo è conveniente quando abbiamo una funzione di probabilità multidimensionale e un singolo parametro di interesse. Viene specificato sostituendo il fastidio S con il suo MLE ad ogni T fisso (il parametro di interesse), cioè L (T) = L (T, S (T)). Questo può funzionare bene in pratica, sebbene ci sia un potenziale pregiudizio nel MLE ottenuto in questo modo; la probabilità marginale corregge questo pregiudizio.