Come fare una stima, quando sono disponibili solo statistiche riassuntive?


17

Ciò è in parte motivato dalla seguente domanda e dalla discussione che segue.

Supponiamo che il campione iid sia osservato, . L'obiettivo è stimare . Ma il campione originale non è disponibile. Quello che abbiamo invece sono alcune statistiche del campione . Supponiamo che sia corretto. Come stimiamo ? Quale sarebbe lo stimatore della massima verosimiglianza in questo caso?θ T 1 , . . . , T k k θXiF(x,θ)θT1,...,Tkkθ


1
Se per una funzione nota è possibile scrivere la distribuzione di e lo stimatore della massima verosimiglianza viene derivato nel modo consueto. Ma non hai precisato quali sono i ? Ti=f(Xi)fTiTi
Stéphane Laurent,

3
Sono interessato al caso in cui per noto . Questo era ciò che intendevo quando ho detto che sono statistiche di esempio. f T iTi=f(X1,...,Xn)fTi
mpiktas,

Quindi qual è la differenza tra Ti e Tj ?
Stéphane Laurent,

2
Siamo spiacenti, che avrebbe dovuto essere fi , non uno f . Abbiamo diverse funzioni fi , che prendono come argomento l'intero campione.
mpiktas,

Non è per questo che è stata progettata la massima entropia?
Probislogic,

Risposte:


14

In questo caso, puoi considerare un'approssimazione ABC della probabilità (e di conseguenza dell'MLE ) in base al seguente presupposto / restrizione:

Assunzione. La dimensione del campione originale n è nota.

Questo non è un presupposto selvaggio dato che la qualità, in termini di convergenza, degli stimatori frequentisti dipende dalla dimensione del campione, quindi non si possono ottenere stimatori arbitrariamente buoni senza conoscere la dimensione del campione originale.

L'idea è di generare un campione dalla distribuzione posteriore di θ e, al fine di produrre un'approssimazione dell'MLE , è possibile utilizzare un'importante tecnica di campionamento come in [1] o considerare un'uniforme prima di θ con supporto su un adeguato impostato come in [2] .

Descriverò il metodo in [2]. Prima di tutto, lasciami descrivere il campionatore ABC.

Campionatore ABC

Sia f(|θ) il modello che genera il campione in cui θΘ è un parametro (da stimare), T è una statistica (una funzione del campione) e T0 è la statistica osservata, nel gergo ABC questa è chiamata statistica riassuntiva , ρ sia una metrica, π(θ) una distribuzione precedente su θ e ϵ>0 una tolleranza. Quindi, il campionatore di rifiuto dell'ABC può essere implementato come segue.

  1. Campione θ da π() .
  2. Genera un campione di dimensione n dal modello .xnf(|θ)
  3. Calcola .T=T(x)
  4. Se , accetta θ come simulazione dal retro di θ .ρ(T,T0)<ϵθθ

Questo algoritmo genera un campione approssimativo dalla distribuzione posteriore di dato T ( x ) = T 0 . Pertanto, lo scenario migliore è quando la statistica T è sufficiente ma è possibile utilizzare altre statistiche. Per una descrizione più dettagliata di questo vedi questo documento .θT(x)=T0T

Ora, in un quadro generale, se si usa un'uniforme precedente che contiene l'MLE nel suo supporto, allora il Maximum a posteriori (MAP) coincide con il Maximum Likelihood Estimator (MLE). Pertanto, se si considera un'uniforme appropriata prima del campionatore ABC, è possibile generare un campione approssimativo di una distribuzione posteriore il cui MAP coincide con l'MLE. Il passaggio rimanente consiste nella stima di questa modalità. Questo problema è stato discusso nel CV, ad esempio in "Stima computazionalmente efficiente della modalità multivariata" .

Un esempio di giocattolo

Let sia un campione da un N ( μ , 1 ), e supponiamo che le uniche informazioni disponibili da questo campione è ˉ x = 1(x1,...,xn)N(μ,1). Siaρla metrica euclidea inReϵ=0,001. Il seguente codice R mostra come ottenere un MLE approssimativo usando i metodi sopra descritti usando un campione simulato conn=100eμ=0, un campione della distribuzione posteriore di dimensione1000, un'uniforme precedente perμon(-0,3,0,3)e uno stimatore della densità del kernel per la stima della modalità del campione posteriore (MAP = MLE).x¯=1nj=1nxjρRϵ=0.001n=100μ=01000μ(0.3,0.3)

rm(list=ls())

# Simulated data
set.seed(1)
x = rnorm(100)

# Observed statistic
T0=mean(x)

# ABC Sampler using a uniform prior 

N=1000
eps = 0.001
ABCsamp = rep(0,N)
i=1

while(i<N+1){
u = runif(1,-0.3,0.3)
t.samp = rnorm(100,u,1)
Ts = mean(t.samp)
if(abs(Ts-T0)<eps){
ABCsamp[i]=u
i=i+1
print(i)
}
}

# Approximation of the MLE
kd = density(ABCsamp)
kd$x[which(kd$y==max(kd$y))]

Come puoi vedere, usando una piccola tolleranza otteniamo un'ottima approssimazione della MLE (che in questo banale esempio può essere calcolata dalla statistica dato che è sufficiente). È importante notare che la scelta della statistica riassuntiva è cruciale. I quantili sono in genere una buona scelta per la statistica riassuntiva, ma non tutte le scelte producono una buona approssimazione. Può darsi che la statistica riassuntiva non sia molto istruttiva e quindi la qualità dell'approssimazione potrebbe essere scarsa, cosa ben nota nella comunità ABC.

Aggiornamento: un approccio simile è stato recentemente pubblicato su Fan et al. (2012) . Vedi questa voce per una discussione sul documento.


2
(+1) Per indicare il risultato corretto sulla relazione tra MLE e MAP e per l'avvertenza nell'ultimo paragrafo (tra le altre ragioni). Per rendere più esplicito quell'avvertimento, questo (o qualunque!) Approccio fallirà miseramente se le statistiche a portata di mano sono accessorie o quasi. Si può considerare il tuo esempio di giocattolo e , ad esempio. T=i(XiX¯)2
cardinale il

1
+1 @procrastinator Stavo per dire semplicemente sì, puoi utilizzare le statistiche sufficienti se sono disponibili per il tuo modello. Ma le tue ampie risposte sembrano averlo coperto.
Michael R. Chernick,

Una semplice domanda, dici che l'uniforme precedente deve contenere MLE nel suo supporto. Ma MLE è una variabile casuale che è limitata solo stocasticamente, cioè può essere al di fuori di qualsiasi insieme limitato con probabilità positiva.
mpiktas,

1
@mpiktas Per un campione specifico, devi scegliere il supporto appropriato per l'uniforme prima. Questo può cambiare se si cambia il campione. È importante notare che questa non è una procedura bayesiana, la stiamo solo usando come metodo numerico, quindi non c'è alcun problema a giocare con la scelta del priore. Più piccolo è il supporto del precedente, meglio è. Ciò aumenterebbe la velocità del campionatore ABC ma quando le tue informazioni sono vaghe nel senso che non hai un indizio affidabile su dove si trova l'MLE, allora potresti aver bisogno di un supporto più grande (e pagherai il prezzo).

@mpiktas Nell'esempio del giocattolo, puoi usare, ad esempio, un'uniforme precedente con supporto su o un'uniforme precedente con supporto su ( 0.1 , 0.15 ) ottenendo gli stessi risultati ma con tassi di accettazione estremamente diversi. La scelta di questo supporto è ad hoc ed è impossibile trovare un precedente per scopi generali dato che l'MLE non è limitato stocasticamente, come accennato. Questa scelta può essere considerata come una leva del metodo che deve essere regolato in ciascun caso particolare. (1000000,1000000)(0.1,0.15)

5

Tutto dipende se la distribuzione congiunta di coloro s' è noto. Se è, ad esempio, ( T 1 , ... , T k ) g ( t 1 , ... , t k | θ , n ), è possibile effettuare la stima della massima verosimiglianza basata su questa distribuzione congiunta. Tieni presente che, a meno che ( T 1 , ... , T k ) sia sufficiente, ciò avrà quasi sempre una probabilità massima diversa rispetto a quando si utilizzano i dati non elaborati (Ti

(T1,,Tk)g(t1,,tk|θ,n)
(T1,,Tk) . Sarà necessariamente meno efficiente, con una maggiore varianza asintotica.(X1,,Xn)

Se la suddetta distribuzione articolare con densità non è disponibile, la soluzione proposta da Procrastinator è abbastanza appropriata.g


1

Lo stimatore della massima probabilità (frequentista) è il seguente:

F

l(θ|T)=exp(ψ(θ)+T,ϕ(θ)),
,Tψ()ϕ() sono due volte differenziabili continui.

Il modo in cui massimizzi effettivamente la probabilità dipende principalmente dalla possibilità di scrivere analiticamente la probabilità in modo trattabile. Se questo è possibile, sarai in grado di prendere in considerazione algoritmi di ottimizzazione generale (newton-raphson, simplex ...). Se non si ha una probabilità trattabile, potrebbe essere più semplice calcolare un'aspettativa condizionale come nell'algoritmo EM, che fornirà anche stime della massima verosimiglianza con ipotesi piuttosto convenienti.

Migliore


Per problemi a cui sono interessato, la tracciabilità analitica non è possibile.
mpiktas,

Il motivo della non trattabilità condiziona quindi lo schema di ottimizzazione. Tuttavia, le estensioni dell'EM di solito consentono di aggirare la maggior parte di questi motivi. Non credo di poter essere più specifico nei miei suggerimenti senza vedere il modello stesso
julien stirnemann
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.