Se intendevi veramente verosimiglianza , allora la risposta è: non è sempre zero.
Ad esempio, considerare i dati di Poisson: yi∼Poisson(μi),i=1,…,n . La probabilità logaritmica per Y=(y1,…,yn) è data da:
ℓ(μ;Y)=−∑i=1nμi+∑i=1nyilogμi−∑i=1nlog(yi!).(∗)
Differenzia ℓ(μ;Y) in (∗) rispetto a μi e impostalo su 0 (è così che otteniamo il MLE per il modello saturo):
- 1 + yioμio= 0.
risolvere questo per
μioottenga
μ i=yi, sostituendo
μ iresta in
(*)per
μidà che verosimiglianza del modello saturo è:
ℓ( μ ;Y)=n ∑ i=1yi(logyi-1)-n ∑ i=μ^io= yioμ^io( ∗ )μio
meno che
y iℓ ( μ^; Y) = ∑i = 1nyio( logyio- 1 ) - ∑i = 1nlog( yio! ) ≠ 0
yio prendo valori molto speciali.
Nella pagina di aiuto della R
funzione glm
, sotto l'elemento deviance
, il documento spiega questo problema come segue:
deviance
fino a una costante, meno il doppio della probabilità logaritmica massima. Ove sensato, la costante viene scelta in modo tale che un modello saturo abbia devianza zero.
Si noti che ha menzionato che la devianza , invece della verosimiglianza del modello saturo, è stata scelta come zero.
Probabilmente, quello che volevi davvero confermare è che "la devianza del modello saturo viene sempre data come zero", il che è vero, dal momento della devianza, per definizione (vedi Sezione 4.5.1 di Analisi dei dati categorici (2a edizione) di Alan Agresti) è la statistica del rapporto di probabilità di un GLM specificato rispetto al modello saturo. Quanto constant
sopra menzionato nella documentazione R è in realtà il doppio della probabilità logaritmica massima del modello saturo.
Per quanto riguarda la tua affermazione "Tuttavia, il modo in cui viene data la formula della devianza suggerisce che a volte questa quantità è diversa da zero", è probabilmente dovuto all'abuso dell'uso del termine devianza . Ad esempio, in R, la statistica del rapporto di verosimiglianza del confronto tra due modelli arbitrari (nidificati) e M 2 viene anche definita devianza, che sarebbe più precisamente definita come la differenza tra la devianza di M 1 e la devianza di M 2 , se seguissimo da vicino la definizione data nel libro di Agresti.M1M2M1M2
Conclusione
La probabilità logaritmica del modello saturo è generalmente diversa da zero.
La deviazione (nella sua definizione originale) del modello saturo è zero.
L' output di devianza dai software (come R) è generalmente diverso da zero in quanto in realtà significa qualcos'altro (la differenza tra deviazioni).
Quelli che seguono sono la derivazione del caso familiare esponenziale generale e un altro esempio concreto. Supponiamo che i dati provengano da una famiglia esponenziale (vedi Statistica applicata moderna con S , capitolo ):
f ( y i ; θ i , φ ) = exp [ A i ( y i θ i - γ ( θ i ) ) / φ + τ ( y i , φ / A i ) ] .7
f( yio; θio, φ ) = exp[ Aio( yioθio- γ( θio) ) / φ + τ( yio, φ / Aio) ] .(1)
dove
UNio sono noti pesi precedenti e
sono parametri di dispersione / scala (per molti casi come binomiale e Poisson, questo parametro è noto, mentre per altri casi come normale e Gamma, questo parametro è sconosciuto). Quindi la probabilità logaritmica è data da:
ℓ ( θ , φ ; Y ) = n ∑ i = 1 A i ( y i θ i - γ ( θ i ) ) / φ + n ∑ i = 1 τφ
Come nell'esempio di Poisson, i parametri del modello saturo possono essere stimati risolvendo la seguentefunzione di
punteggio:
0 = U ( θ i ) = ∂ ℓ ( θ , φ ; Y )ℓ ( θ , φ ;Y)=∑i=1nAi(yiθi−γ(θi))/φ+∑i=1nτ(yi,φ/Ai).
0=U(θi)=∂ℓ(θ,φ;Y)∂θi=Ai(yi−γ′(θi))φ
θ^i
ℓ(θ^,φ;Y)=∑i=1nAi(yiθ^i−γ(θ^i))/φ+∑i=1nτ(yi,φ/Ai).(∗∗)
(∗∗)Γ(α,β)
f( y; α , β) = βαΓ ( α )e- βyyα - 1,y> 0 , α > 0 , β> 0 ,
f( 1 )φ = 1α,θ = - βα,
ff( y; θ , φ ) = exp[ θ y- ( - registro( - θ ) )φ+ τ( y, φ ) ] ,
τ( y, φ ) = - logφφ+(1φ−1)logy−logΓ(φ−1).
θ^i=−1yi∑i=1n1φ[θ^iyi−(−log(−θ^i))]=∑i=1n1φ[−1−log(yi)]≠0,
unless
yi take very special values.