Il teorema di Halmos-Savage afferma che per un modello statistico dominato una statistica è sufficiente se (e solo se) per tutti esiste una versione misurabile del derivato Radon Nikodym dove è un misura privilegiata tale che per e . $(\Omega, \mathscr A, \mathscr P)$ $T: (\Omega, \mathscr A, \mathscr P)\to(\Omega', \mathscr A')$ $\{P \in \mathscr{P} \}$ $T$ $\frac{dP}{dP*}$ $dP*$ $P*=\sum_{i=1}^\infty P_i c_i$ $c_i >0, \sum _{i=1}^\infty c_i =1$ $P_i \in \mathscr P$

Ho cercato di ottenere una comprensione intuitiva del perché il teorema è vero, ma non ci sono riuscito, quindi la mia domanda è se esiste un modo intuitivo per comprendere il teorema.

— Sebastian
fonte

Credo di avere il link corretto qui. Si prega di controllare e rimuoverlo se ho fatto un errore.

— gung - Ripristina Monica

Forse aiutare il lettore con la terminologia, ad esempio, definire "modelli statistici dominati", " misurabilità a " e "misure privilegiate?

T

$T$

— Carl

Un Lemma tecnico

Non sono sicuro di quanto sia intuitivo, ma il principale risultato tecnico alla base della tua affermazione del teorema di Halmos-Savage è il seguente:

Lemma. Sia una misura -finite su . Supponiamo che sia una raccolta di misure su tale che per ogni , . Esiste quindi una sequenza di numeri non negativi e una sequenza di elementi di , tale che e per ogni . $\mu$ $\sigma$ $(S, \mathcal{A})$ $\aleph$ $(S, \mathcal{A})$ $\nu \in \aleph$ $\nu \ll \mu$ $\{c_i\}_{i=1}^\infty$ $\aleph$ $\{\nu_i\}_{i=1}^\infty$ $\sum_{i=1}^\infty c_i = 1$ $\nu \ll \sum_{i=1}^\infty c_i \nu_i$ $\nu \in \aleph$

Questo è tratto letteralmente dal Teorema A.78 di Schervish's Theory of Statistics (1995) . Qui lo attribuisce a Lehmann's Testing Statistical Hypotheses (1986) ( link alla terza edizione ), dove il risultato è attribuito agli stessi Halmos e Savage (vedi Lemma 7). Un altro buon riferimento è la Mathematical Statistics di Shao (seconda edizione, 2003) , dove i risultati rilevanti sono Lemma 2.1 e Teorema 2.2.

Il lemma sopra afferma che se si inizia con una famiglia di misure dominata da una misura definita , in effetti è possibile sostituire la misura dominante con una combinazione convessa numerabile di misure all'interno della famiglia. Schervish scrive prima di affermare il Teorema A.78, $\sigma$

"Nelle applicazioni statistiche avremo spesso una classe di misure, ognuna delle quali è assolutamente continua rispetto a una singola misura definita . Sarebbe bello se la singola misura dominante fosse nella classe originale o potesse essere costruita da la classe. Il seguente teorema risolve questo problema. " $\sigma$

Un esempio concreto

Supponiamo di prendere una misura di una quantità che crediamo sia distribuita uniformemente sull'intervallo per alcuni sconosciuti . In questo problema statistico, stiamo implicitamente considerando l'insieme delle misure di probabilità di Borel su consiste nelle distribuzioni uniformi su tutti gli intervalli del modulo . Cioè, se indica la misura di Lebesgue e, per , indica la distribuzione (ovvero, $X$ $[0, \theta]$ $\theta > 0$ $\mathcal{P}$ $\mathbb{R}$ $[0, \theta]$ $\lambda$ $\theta > 0$ $P_\theta$ $\operatorname{Uniform}([0, \theta])$

P_{θ} (A) = \frac{1}{θ} λ (A \cap [0, θ]) = \int_{A} \frac{1}{θ} 1_{[0, θ]} (x) d x

$P_\theta(A) = \frac{1}{\theta} \lambda(A \cap [0, \theta]) = \int_A \frac{1}{\theta} \mathbf{1}_{[0, \theta]}(x) \, dx$ per ogni Borel ), quindi abbiamo semplicemente Questo è l'insieme di distribuzioni di candidati per la nostra misura .

A \subseteq R

$A \subseteq \mathbb{R}$

P = {P_{θ} : θ > 0} .

$\mathcal{P} = \{P_\theta : \theta > 0\}.$

X

$X$

La famiglia è chiaramente dominata dalla misura di Lebesgue (che è -finite), quindi il lemma sopra (con ) garantisce l'esistenza di una sequenza di numeri non negativi che sommano e una sequenza di distribuzioni uniformi in tale che per ogni . In questo esempio, possiamo costruire esplicitamente tali sequenze! $\mathcal{P}$ $\lambda$ $\sigma$ $\aleph = \mathcal{P}$ $\{c_i\}_{i=1}^\infty$ $1$ $\{Q_i\}_{i=1}^\infty$ $\mathcal{P}$

P_{θ} ≪ \sum_{i = 1}^{\infty} c_{i} Q_{i}

$P_\theta \ll \sum_{i=1}^\infty c_i Q_i$

θ > 0

$\theta > 0$

Innanzitutto, sia un'enumerazione dei numeri razionali positivi ( ciò può essere fatto in modo esplicito ) e lasciare per ogni . Quindi, lascia che , in modo che . Dichiaro che questa combinazione di e funziona. $(\theta_i)_{i=1}^\infty$ $Q_i = P_{\theta_i}$ $i$ $c_i = 2^{-i}$ $\sum_{i=1}^\infty c_i = 1$ $\{c_i\}_{i=1}^\infty$ $\{Q_i\}_{i=1}^\infty$

Per vedere questo, correggi e lascia che sia un sottoinsieme di Borel di tale che . Dobbiamo mostrare che . Poiché e ogni summand non è negativo, ne consegue che per ogni . Inoltre, poiché ogni è positivo, ne consegue che per ogni . Che è, per tutti abbiamo Dal momento che ogni $\theta > 0$ $A$ $\mathbb{R}$ $\sum_{i=1}^\infty c_i Q_i(A) = 0$ $P_\theta(A) = 0$ $\sum_{i=1}^\infty c_i Q_i(A) = 0$ $c_i Q_i(A) = 0$ $i$ $c_i$ $Q_i(A) = 0$ $i$ $i$

Q_{i} (A) = P_{θ_{i}} (A) = \frac{1}{θ_{i}} λ (A \cap [0, θ_{i}]) = 0.

$Q_i(A) = P_{\theta_i}(A) = \frac{1}{\theta_i} \lambda(A \cap [0, \theta_i]) = 0.$

θ_{i}

$\theta_i$ è positivo, ne consegue che per ogni .

λ (A \cap [0, θ_{i}]) = 0

$\lambda(A \cap [0, \theta_i]) = 0$

i

$i$

Ora scegli una of che converge in dall'alto (questo può essere fatto poiché è denso in ). Quindi come , quindi per continuità di misura concludiamo che e quindi . Questo dimostra l'affermazione. $\{\theta_{i_k}\}_{k=1}^\infty$ $\{\theta_i\}_{i=1}^\infty$ $\theta$ $\mathbb{Q}$ $\mathbb{R}$ $A \cap [0, \theta_{\theta_{i_k}}] \downarrow A \cap [0, \theta]$ $k \to \infty$

λ (A \cap [0, θ]) = lim_{k \to \infty} λ (A \cap [0, θ_{i_{k}}]) = 0,

$\lambda(A \cap [0, \theta]) = \lim_{k \to \infty} \lambda(A \cap [0, \theta_{i_k}]) = 0,$

P_{θ} (A) = 0

$P_\theta(A) = 0$

Pertanto, in questo esempio siamo stati in grado di costruire esplicitamente una combinazione convessa numerabile di misure di probabilità della nostra famiglia dominata che domina ancora l'intera famiglia. Il Lemma sopra garantisce che ciò può essere fatto per qualsiasi famiglia dominata (almeno fino a quando la misura dominante è -finite). $\sigma$

Il teorema di Halmos-Savage

Quindi ora al Teorema di Halmos-Savage (per il quale userò una notazione leggermente diversa rispetto alla domanda a causa delle preferenze personali). Dato il teorema di Halmos-Savage, il teorema di fattorizzazione di Fisher-Neyman è solo un'applicazione del lemma Doob-Dynkin e la regola della catena per i derivati Radon-Nikodym!

Teorema di Halmos-Savage. Sia un modello statistico dominato (nel senso che è un insieme di misure di probabilità su e c'è un -finite misura su tale che per tutte le ). Sia sia una funzione misurabile, dove è un Borel standard spazio. Quindi i seguenti sono equivalenti: $(\mathcal{X}, \mathcal{B}, \mathcal{P})$ $\mathcal{P}$ $\mathcal{B}$ $\sigma$ $\mu$ $\mathcal{B}$ $P \ll \mu$ $P \in \mathcal{P}$ $T : (\mathcal{X}, \mathcal{B}) \to (\mathcal{T}, \mathcal{C})$ $(T, \mathcal{C})$

$T$ è sufficiente per (nel senso che esiste un kernel di probabilità tale che è una versione di per tutti e ). $\mathcal{P}$ $r : \mathcal{B} \times \mathcal{T} \to [0, 1]$ $r(B, T)$ $P(B \mid T)$ $B \in \mathcal{B}$ $P \in \mathcal{P}$

Esiste una sequenza di numeri non negativi tale che e una sequenza di probabilità misura in tale che per tutto , dove , e per ogni esiste una versione misurabile di . $\{c_i\}_{i=1}^\infty$ $\sum_{i=1}^\infty c_i = 1$ $\{P_i\}_{i=1}^\infty$ $\mathcal{P}$ $P \ll P^*$ $P \in \mathcal{P}$ $P^* = \sum_{i=1}^\infty c_i P_i$ $P \in \mathcal{P}$ $T$ $dP/dP^*$

Prova. Con il lemma sopra, possiamo immediatamente sostituire con per qualche sequenza di numeri non negativi tali che e una sequenza delle misure di probabilità in . $\mu$ $P^* = \sum_{i=1}^\infty c_i P_i$ $\{c_i\}_{i=1}^\infty$ $\sum_{i=1}^\infty c_i = 1$ $\{P_i\}_{i=1}^\infty$ $\mathcal{P}$

(1. implica 2.) Supponiamo che sia sufficiente. Quindi dobbiamo mostrare che ci sono versioni misurabili di per tutti i . Sia il kernel di probabilità nell'affermazione del teorema. Per ogni e abbiamo Pertanto è una versione di per tutti . $T$ $T$ $dP/dP^*$ $P \in \mathcal{P}$ $r$ $A \in \sigma(T)$ $B \in \mathcal{B}$

\begin{aligned} P^{*} (A \cap B) & = \sum_{i = 1}^{\infty} c_{i} P_{i} (A \cap B) \\ = \sum_{i = 1}^{\infty} c_{i} \int_{A} P_{i} (B ∣ T) d P_{i} \\ = \sum_{i = 1}^{\infty} c_{i} \int_{A} r (B, T) d P_{i} \\ = \int_{A} r (B, T) d P^{*} . \end{aligned}

$\begin{aligned} P^*(A \cap B) &= \sum_{i=1}^\infty c_i P_i(A \cap B) \\ &= \sum_{i=1}^\infty c_i \int_A P_i(B \mid T) \, dP_i \\ &= \sum_{i=1}^\infty c_i \int_A r(B, T) \, dP_i \\ &= \int_A r(B, T) \, dP^*. \end{aligned}$

r (B, T)

$r(B, T)$

P^{*} (B ∣ T)

$P^*(B \mid T)$

B \in B

$B \in \mathcal{B}$

Per ogni , denota una versione del derivato Radon-Nikodym sullo spazio misurabile (quindi in particolare è misurabile). Quindi per tutti e abbiamo Quindi in effetti è una $P \in \mathcal{P}$ $f_P$ $dP/dP^*$ $(\mathcal{X}, \sigma(T))$ $f_P$ $T$ $B \in \mathcal{B}$ $P \in \mathcal{P}$

\begin{aligned} P (B) & = \int_{X} P (B ∣ T) d P \\ = \int_{X} r (B, T) d P \\ = \int_{X} r (B, T) f_{P} d P^{*} \\ = \int_{X} P^{*} (B ∣ T) f_{P} d P^{*} \\ = \int_{X} E_{P^{*}} [1_{B} f_{P} ∣ T] d P^{*} \\ = \int_{B} f_{P} d P^{*} . \end{aligned}

$\begin{aligned} P(B) &= \int_{\mathcal{X}} P(B \mid T) \, dP \\ &= \int_{\mathcal{X}} r(B, T) \, dP \\ &= \int_{\mathcal{X}} r(B, T) f_P \, dP^* \\ &= \int_{\mathcal{X}} P^*(B \mid T) f_P \, dP^* \\ &= \int_{\mathcal{X}} E_{P^*}[\mathbf{1}_B f_P \mid T] \, dP^* \\ &= \int_B f_P \, dP^*. \end{aligned}$

f_{P}

$f_P$

T

$T$ -misura misurabile di on . Ciò dimostra che la prima condizione del teorema implica la seconda.

d P / d P^{*}

$dP/dP^*$

(X, B)

$(\mathcal{X}, \mathcal{B})$

(2. implica 1.) Supponiamo che si possa scegliere una versione f_P di per ogni . Per ogni , diamo una versione particolare di (es. è una funzione tale che è una versione di ). Poiché è uno spazio standard di Borel, possiamo scegliere in un modo che lo renda un kernel di probabilità (vedi, ad esempio, Teorema B.32 nella teoria delle statistiche di Schervish (1995)). Mostreremo che $T$ $f_P$ $dP/dP^*$ $P \in \mathcal{P}$ $B \in \mathcal{B}$ $r(B, t)$ $P^*(B \mid T = t)$ $r(B, t)$ $r(B, T)$ $P^*(B \mid T)$ $(T, \mathcal{C})$ $r$ $r(B, T)$ è una versione di per qualsiasi e qualsiasi . Pertanto, sia data e . Quindi per tutto abbiamo Questo mostra che è una versione di per qualsiasi e qualsiasi , e la prova è fatto. $P(B \mid T)$ $P \in \mathcal{P}$ $B \in \mathcal{B}$ $A \in \sigma(T)$ $B \in \mathcal{B}$ $P \in \mathcal{P}$

\begin{aligned} P (A \cap B) & = \int_{A} 1_{B} f_{P} d P^{*} \\ = \int_{A} E_{P^{*}} [1_{B} f_{P} ∣ T] d P^{*} \\ = \int_{A} P^{*} (B ∣ T) f_{P} d P^{*} \\ = \int_{A} r (B, T) f_{P} d P^{*} \\ = \int_{A} r (B, T) d P . \end{aligned}

$\begin{aligned} P(A \cap B) &= \int_A \mathbf{1}_B f_P \, dP^* \\ &= \int_A E_{P^*}[\mathbf{1}_B f_P \mid T] \, dP^* \\ &= \int_A P^*(B \mid T) f_P \, dP^* \\ &= \int_A r(B, T) f_P \, dP^* \\ &= \int_A r(B, T) \, dP. \end{aligned}$

r (B, T)

$r(B, T)$

P (B ∣ T)

$P(B \mid T)$

P \in P

$P \in \mathcal{P}$

B \in B

$B \in \mathcal{B}$

Sommario. L'importante risultato tecnico alla base del teorema di Halmos-Savage qui presentato è il fatto che una famiglia dominata di misure di probabilità è in realtà dominata da una combinazione convessa numerabile di misure di probabilità di quella famiglia. Dato questo risultato, il resto del teorema di Halmos-Savage è principalmente solo manipolazioni con proprietà di base dei derivati Radon-Nikodym e aspettative condizionali.

— Artem Mavrin
fonte

Comprensione intuitiva del teorema di Halmos-Savage

Un Lemma tecnico

Un esempio concreto

Il teorema di Halmos-Savage