Riproduce la figura di "Inferenza statistica sull'era dei computer" di Efron e Hastie

La versione sintetizzata della mia domanda

(26 dicembre 2018)

Sto cercando di riprodurre Figura 2.2 dal computer Età Statistical Inference da Efron e Hastie, ma per qualche motivo che io non sono in grado di capire, i numeri non sono corrispondenti a quelli del libro.

Supponiamo che stiamo cercando di decidere tra due possibili funzioni di densità di probabilità per i dati osservati $x$ , una densità di ipotesi nulla $f_0\left(x\right)$ e una densità alternativa $f_1\left(x\right)$ . Una regola di prova $t\left(x\right)$ dice quale scelta, $0$ o $1$ , faremo osservare i dati $x$ . Ogni regola del genere ha due probabilità di errore frequentist associate: la scelta $f_1$ quando in realtà $f_0$ generato $x$ , e viceversa,

α = {Pr}_{f_{0}} {t (X) = 1},

$\alpha = \text{Pr}_{f_0} \{t(x)=1\},$

β = {Pr}_{f_{1}} {t (X) = 0} .

$\beta = \text{Pr}_{f_1} \{t(x)=0\}.$

Permettere $L(x)$ essere il rapporto di verosimiglianza ,

L (X) = \frac{f_{1} (X)}{f_{0} (X)}

$L(x) = \frac{f_1\left(x\right)}{f_0\left(x\right)}$

Quindi, il lemma di Neyman-Pearson afferma che la regola di prova del modulo $t_c(x)$ è l'algoritmo di verifica delle ipotesi ottimale

t_{c} (X) = {\begin{cases} 1 se registro L (X) \geq c \\ 0 se registro L (X) < c . \end{cases}

$t_c(x) = \left\{ \begin{array}{ll} 1\enspace\text{if log } L(x) \ge c\\ 0\enspace\text{if log } L(x) \lt c.\end{array} \right.$

Per $f_0 \sim \mathcal{N} \left(0,1\right), \enspace f_1 \sim \mathcal{N} \left(0.5,1\right)$ e dimensione del campione $n=10$ quali sarebbero i valori per $\alpha$ e $\beta$ per un taglio $c=0.4$ ?

Dalla Figura 2.2 dell'Inferenza statistica sull'era dei computer di Efron e Hastie abbiamo:
- $\alpha=0.10$ e $\beta=0.38$ per un taglio $c=0.4$
ho trovato $\alpha=0.15$ e $\beta=0.30$ per un taglio $c=0.4$ usando due approcci diversi: A) simulazione e B) analiticamente .

Gradirei se qualcuno potesse spiegarmi come ottenere $\alpha=0.10$ e $\beta=0.38$ per un taglio $c=0.4$ . Grazie.

La versione sintetizzata della mia domanda finisce qui. Da adesso troverai:

Nella sezione A) dettagli e codice python completo del mio approccio di simulazione .
Nella sezione B) dettagli e codice python completo dell'approccio analitico .

A) Il mio approccio alla simulazione con codice e spiegazioni complete di Python

(20 dicembre 2018)

Dal libro ...

Nello stesso spirito, il lemma di Neyman-Pearson fornisce un algoritmo di verifica delle ipotesi ottimale. Questa è forse la più elegante delle costruzioni frequentiste. Nella sua formulazione più semplice, il lemma NP presuppone che stiamo cercando di decidere tra due possibili funzioni di densità di probabilità per i dati osservati $x$ , una densità di ipotesi nulla $f_0\left(x\right)$ e una densità alternativa $f_1\left(x\right)$ . Una regola di prova $t\left(x\right)$ dice quale scelta, $0$ o $1$ , faremo osservare i dati $x$ . Ogni regola del genere ha due probabilità di errore frequentist associate: la scelta $f_1$ quando in realtà generato , e viceversa,

$α = {Pr}_{f_{0}} {t (X) = 1},$ $\alpha = \text{Pr}_{f_0} \{t(x)=1\},$ $β = {Pr}_{f_{1}} {t (X) = 0} .$ $\beta = \text{Pr}_{f_1} \{t(x)=0\}.$

Permettere $L(x)$ essere il rapporto di verosimiglianza ,

$L (X) = \frac{f_{1} (X)}{f_{0} (X)}$ $L(x) = \frac{f_1\left(x\right)}{f_0\left(x\right)}$

(Fonte: Efron, B., & Hastie, T. (2016). Inferenza statistica sull'era dei computer: algoritmi, prove e scienza dei dati. Cambridge: Cambridge University Press. )

Quindi, ho implementato il codice Python di seguito ...

import numpy as np

def likelihood_ratio(x, f1_density, f0_density):
    return np.prod(f1_density.pdf(x)) / np.prod(f0_density.pdf(x))

Ancora una volta, dal libro ...

e definire la regola di prova di

$t_{c} (X) = {\begin{cases} 1 se registro L (X) \geq c \\ 0 se registro L (X) < c . \end{cases}$ $t_c(x) = \left\{ \begin{array}{ll} 1\enspace\text{if log } L(x) \ge c\\ 0\enspace\text{if log } L(x) \lt c.\end{array} \right.$

(Fonte: Efron, B., & Hastie, T. (2016). Inferenza statistica sull'era dei computer: algoritmi, prove e scienza dei dati. Cambridge: Cambridge University Press. )

Quindi, ho implementato il codice Python di seguito ...

def Neyman_Pearson_testing_rule(x, cutoff, f0_density, f1_density):
    lr = likelihood_ratio(x, f1_density, f0_density)
    llr = np.log(lr)

    if llr >= cutoff:
        return 1
    else:
        return 0

Finalmente, dal libro ...

Dove è possibile concludere che un taglio $c=0.4$ implicherà $\alpha=0.10$ e $\beta=0.38$ .

Quindi, ho implementato il codice Python di seguito ...

def alpha_simulation(cutoff, f0_density, f1_density, sample_size, replicates):
    NP_test_results = []

    for _ in range(replicates):
        x = f0_density.rvs(size=sample_size)
        test = Neyman_Pearson_testing_rule(x, cutoff, f0_density, f1_density)
        NP_test_results.append(test)

    return np.sum(NP_test_results) / float(replicates)

def beta_simulation(cutoff, f0_density, f1_density, sample_size, replicates):
    NP_test_results = []

    for _ in range(replicates):
        x = f1_density.rvs(size=sample_size)
        test = Neyman_Pearson_testing_rule(x, cutoff, f0_density, f1_density)
        NP_test_results.append(test)

    return (replicates - np.sum(NP_test_results)) / float(replicates)

e il codice ...

from scipy import stats as st

f0_density = st.norm(loc=0, scale=1)
f1_density = st.norm(loc=0.5, scale=1)

sample_size = 10
replicates = 12000

cutoffs = []
alphas_simulated = []
betas_simulated = []
for cutoff in np.arange(3.2, -3.6, -0.4):
    alpha_ = alpha_simulation(cutoff, f0_density, f1_density, sample_size, replicates)
    beta_ = beta_simulation(cutoff, f0_density, f1_density, sample_size, replicates)

    cutoffs.append(cutoff)
    alphas_simulated.append(alpha_)
    betas_simulated.append(beta_)

e il codice ...

import matplotlib.pyplot as plt
%matplotlib inline

# Reproducing Figure 2.2 from simulation results.
plt.xlabel('$\\alpha$')
plt.ylabel('$\\beta$')
plt.xlim(-0.1, 1.05)
plt.ylim(-0.1, 1.05)
plt.axvline(x=0, color='b', linestyle='--')
plt.axvline(x=1, color='b', linestyle='--')
plt.axhline(y=0, color='b', linestyle='--')
plt.axhline(y=1, color='b', linestyle='--')
figure_2_2 = plt.plot(alphas_simulated, betas_simulated, 'ro', alphas_simulated, betas_simulated, 'k-')

per ottenere qualcosa del genere:

sembra simile alla figura originale del libro, ma le 3 tuple $(c,\alpha,\beta)$ dalla mia simulazione ha valori diversi di $\alpha$ e $\beta$ rispetto a quelli del libro per lo stesso valore soglia $c$ . Per esempio:

dal libro che abbiamo $(c=0.4, \alpha=0.10, \beta=0.38)$
dalla mia simulazione abbiamo:
- $(c=0.4, \alpha=0.15, \beta=0.30)$
- $(c=0.8, \alpha=0.10, \beta=0.39)$

Sembra che il taglio $c=0.8$ dalla mia simulazione è equivalente al cutoff $c=0.4$ dal libro.

Gradirei se qualcuno potesse spiegarmi cosa sto facendo di sbagliato qui. Grazie.

B) Il mio approccio di calcolo con codice e spiegazioni complete di Python

(26 dicembre 2018)

Ancora cercando di capire la differenza tra i risultati della mia simulazione ( alpha_simulation(.), beta_simulation(.)) e quelli presentati nel libro, con l'aiuto di un mio statistico (Sofia) amico, abbiamo calcolato $\alpha$ e $\beta$ analiticamente invece che tramite simulazione, quindi ...

Una volta quello

f_{0} ~ N (0, 1)

$f_0 \sim \mathcal{N} \left(0,1\right)$

f_{1} ~ N (0.5, 1)

$f_1 \sim \mathcal{N} \left(0.5,1\right)$

poi

f (X | μ, σ^{2}) = Π_{io = 1}^{n} \frac{1}{\sqrt{2 π σ^{2}}} e^{- \frac{{(X_{io} - μ)}^{2}}{2 σ^{2}}}

$f\left(x \;\middle\vert\; \mu, \sigma^2 \right) = \prod_{i = 1}^{n} \frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{\left(x_i-\mu\right)^2}{2\sigma^2}}$

Inoltre,

L (X) = \frac{f_{1} (X)}{f_{0} (X)}

$L(x) = \frac{f_1\left(x\right)}{f_0\left(x\right)}$

così,

L (X) = \frac{f_{1} (X | μ_{1}, σ^{2})}{f_{0} (X | μ_{0}, σ^{2})} = \frac{Π_{io = 1}^{n} \frac{1}{\sqrt{2 π σ^{2}}} e^{- \frac{{(X_{io} - μ_{1})}^{2}}{2 σ^{2}}}}{Π_{io = 1}^{n} \frac{1}{\sqrt{2 π σ^{2}}} e^{- \frac{{(X_{io} - μ_{0})}^{2}}{2 σ^{2}}}}

$L(x) = \frac{f_1\left(x\;\middle\vert\; \mu_1, \sigma^2\right)}{f_0\left(x\;\middle\vert\; \mu_0, \sigma^2\right)} = \frac{\prod_{i = 1}^{n} \frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{\left(x_i-\mu_1\right)^2}{2\sigma^2}}}{\prod_{i = 1}^{n} \frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{\left(x_i-\mu_0\right)^2}{2\sigma^2}}}$

Pertanto, eseguendo alcune semplificazioni algebriche (come sotto), avremo:

L (X) = \frac{{(\frac{1}{\sqrt{2 π σ^{2}}})}^{n} e^{- \frac{Σ_{io = 1}^{n} {(X_{io} - μ_{1})}^{2}}{2 σ^{2}}}}{{(\frac{1}{\sqrt{2 π σ^{2}}})}^{n} e^{- \frac{Σ_{io = 1}^{n} {(X_{io} - μ_{0})}^{2}}{2 σ^{2}}}}

$L(x) = \frac{\left(\frac{1}{\sqrt{2\pi\sigma^2}}\right)^n e^{-\frac{\sum_{i = 1}^{n} \left(x_i-\mu_1\right)^2}{2\sigma^2}}}{\left(\frac{1}{\sqrt{2\pi\sigma^2}}\right)^n e^{-\frac{\sum_{i = 1}^{n} \left(x_i-\mu_0\right)^2}{2\sigma^2}}}$

= e^{\frac{- Σ_{io = 1}^{n} {(X_{io} - μ_{1})}^{2} + Σ_{io = 1}^{n} {(X_{io} - μ_{0})}^{2}}{2 σ^{2}}}

$= e^{\frac{-\sum_{i = 1}^{n} \left(x_i-\mu_1\right)^2 + \sum_{i = 1}^{n} \left(x_i-\mu_0\right)^2}{2\sigma^2}}$

= e^{\frac{- Σ_{io = 1}^{n} (X_{io}^{2} - 2 X_{io} μ_{1} + μ_{1}^{2}) + Σ_{io = 1}^{n} (X_{io}^{2} - 2 X_{io} μ_{0} + μ_{0}^{2})}{2 σ^{2}}}

$= e^{\frac{-\sum_{i = 1}^{n} \left(x_i^2 -2x_i\mu_1 + \mu_1^2\right) + \sum_{i = 1}^{n} \left(x_i^2 -2x_i\mu_0 + \mu_0^2\right)}{2\sigma^2}}$

= e^{\frac{- Σ_{io = 1}^{n} X_{io}^{2} + 2 μ_{1} Σ_{io = 1}^{n} X_{io} - Σ_{io = 1}^{n} μ_{1}^{2} + Σ_{io = 1}^{n} X_{io}^{2} - 2 μ_{0} Σ_{io = 1}^{n} X_{io} + Σ_{io = 1}^{n} μ_{0}^{2}}{2 σ^{2}}}

$= e^{\frac{-\sum_{i = 1}^{n}x_i^2 + 2\mu_1\sum_{i = 1}^{n}x_i - \sum_{i = 1}^{n}\mu_1^2 + \sum_{i = 1}^{n}x_i^2 - 2\mu_0\sum_{i = 1}^{n}x_i + \sum_{i = 1}^{n}\mu_0^2}{2\sigma^2}}$

= e^{\frac{2 (μ_{1} - μ_{0}) Σ_{io = 1}^{n} X_{io} + n (μ_{0}^{2} - μ_{1}^{2})}{2 σ^{2}}}

$= e^{\frac{2\left(\mu_1-\mu_0\right)\sum_{i = 1}^{n}x_i + n\left(\mu_0^2-\mu_1^2\right)}{2\sigma^2}}$ .

Quindi se

t_{c} (X) = {\begin{cases} 1 se registro L (X) \geq c \\ 0 se registro L (X) < c . \end{cases}

$t_c(x) = \left\{ \begin{array}{ll} 1\enspace\text{if log } L(x) \ge c\\ 0\enspace\text{if log } L(x) \lt c.\end{array} \right.$

quindi, per $\text{log } L(x) \ge c$ avremo:

log (e^{\frac{2 (μ_{1} - μ_{0}) Σ_{io = 1}^{n} X_{io} + n (μ_{0}^{2} - μ_{1}^{2})}{2 σ^{2}}}) \geq c

$\text{log } \left( e^{\frac{2\left(\mu_1-\mu_0\right)\sum_{i = 1}^{n}x_i + n\left(\mu_0^2-\mu_1^2\right)}{2\sigma^2}} \right) \ge c$

\frac{2 (μ_{1} - μ_{0}) Σ_{io = 1}^{n} X_{io} + n (μ_{0}^{2} - μ_{1}^{2})}{2 σ^{2}} \geq c

$\frac{2\left(\mu_1-\mu_0\right)\sum_{i = 1}^{n}x_i + n\left(\mu_0^2-\mu_1^2\right)}{2\sigma^2} \ge c$

Σ_{io = 1}^{n} X_{io} \geq \frac{2 c σ^{2} - n (μ_{0}^{2} - μ_{1}^{2})}{2 (μ_{1} - μ_{0})}

$\sum_{i = 1}^{n}x_i \ge \frac{2c\sigma^2 - n\left(\mu_0^2-\mu_1^2\right)}{2\left(\mu_1-\mu_0\right)}$

Σ_{io = 1}^{n} X_{io} \geq \frac{2 c σ^{2}}{2 (μ_{1} - μ_{0})} - \frac{n (μ_{0}^{2} - μ_{1}^{2})}{2 (μ_{1} - μ_{0})}

$\sum_{i = 1}^{n}x_i \ge \frac{2c\sigma^2}{2\left(\mu_1-\mu_0\right)} - \frac{n\left(\mu_0^2-\mu_1^2\right)}{2\left(\mu_1-\mu_0\right)}$

Σ_{io = 1}^{n} X_{io} \geq \frac{c σ^{2}}{(μ_{1} - μ_{0})} - \frac{n (μ_{0}^{2} - μ_{1}^{2})}{2 (μ_{1} - μ_{0})}

$\sum_{i = 1}^{n}x_i \ge \frac{c\sigma^2}{\left(\mu_1-\mu_0\right)} - \frac{n\left(\mu_0^2-\mu_1^2\right)}{2\left(\mu_1-\mu_0\right)}$

Σ_{io = 1}^{n} X_{io} \geq \frac{c σ^{2}}{(μ_{1} - μ_{0})} + \frac{n (μ_{1}^{2} - μ_{0}^{2})}{2 (μ_{1} - μ_{0})}

$\sum_{i = 1}^{n}x_i \ge \frac{c\sigma^2}{\left(\mu_1-\mu_0\right)} + \frac{n\left(\mu_1^2-\mu_0^2\right)}{2\left(\mu_1-\mu_0\right)}$

Σ_{io = 1}^{n} X_{io} \geq \frac{c σ^{2}}{(μ_{1} - μ_{0})} + \frac{n (μ_{1} - μ_{0}) (μ_{1} + μ_{0})}{2 (μ_{1} - μ_{0})}

$\sum_{i = 1}^{n}x_i \ge \frac{c\sigma^2}{\left(\mu_1-\mu_0\right)} + \frac{n\left(\mu_1-\mu_0\right)\left(\mu_1+\mu_0\right)}{2\left(\mu_1-\mu_0\right)}$

Σ_{io = 1}^{n} X_{io} \geq \frac{c σ^{2}}{(μ_{1} - μ_{0})} + \frac{n (μ_{1} + μ_{0})}{2}

$\sum_{i = 1}^{n}x_i \ge \frac{c\sigma^2}{\left(\mu_1-\mu_0\right)} + \frac{n\left(\mu_1+\mu_0\right)}{2}$

(\frac{1}{n}) Σ_{io = 1}^{n} X_{io} \geq (\frac{1}{n}) (\frac{c σ^{2}}{(μ_{1} - μ_{0})} + \frac{n (μ_{1} + μ_{0})}{2})

$\left(\frac{1}{n}\right) \sum_{i = 1}^{n}x_i \ge \left(\frac{1}{n}\right) \left( \frac{c\sigma^2}{\left(\mu_1-\mu_0\right)} + \frac{n\left(\mu_1+\mu_0\right)}{2}\right)$

\frac{Σ_{io = 1}^{n} X_{io}}{n} \geq \frac{c σ^{2}}{n (μ_{1} - μ_{0})} + \frac{(μ_{1} + μ_{0})}{2}

$\frac{\sum_{i = 1}^{n}x_i}{n} \ge \frac{c\sigma^2}{n\left(\mu_1-\mu_0\right)} + \frac{\left(\mu_1+\mu_0\right)}{2}$

\bar{X} \geq \frac{c σ^{2}}{n (μ_{1} - μ_{0})} + \frac{(μ_{1} + μ_{0})}{2}

$\bar{x} \ge \frac{c\sigma^2}{n\left(\mu_1-\mu_0\right)} + \frac{\left(\mu_1+\mu_0\right)}{2}$

\bar{X} \geq K, dove K = \frac{c σ^{2}}{n (μ_{1} - μ_{0})} + \frac{(μ_{1} + μ_{0})}{2}

$\bar{x} \ge k \text{, where } k = \frac{c\sigma^2}{n\left(\mu_1-\mu_0\right)} + \frac{\left(\mu_1+\mu_0\right)}{2}$

con il risultato di

t_{c} (X) = {\begin{cases} 1 Se \bar{X} \geq K \\ 0 Se \bar{X} < K . \end{cases}, dove K = \frac{c σ^{2}}{n (μ_{1} - μ_{0})} + \frac{(μ_{1} + μ_{0})}{2}

$t_c(x) = \left\{ \begin{array}{ll} 1\enspace\text{if } \bar{x} \ge k\\ 0\enspace\text{if } \bar{x} \lt k.\end{array} \right. \enspace \enspace \text{, where } k = \frac{c\sigma^2}{n\left(\mu_1-\mu_0\right)} + \frac{\left(\mu_1+\mu_0\right)}{2}$

Per calcolare $\alpha$ e $\beta$ , lo sappiamo:

α = {Pr}_{f_{0}} {t (X) = 1},

$\alpha = \text{Pr}_{f_0} \{t(x)=1\},$

β = {Pr}_{f_{1}} {t (X) = 0} .

$\beta = \text{Pr}_{f_1} \{t(x)=0\}.$

così,

\begin{array}{ll} α = {Pr}_{f_{0}} {\bar{X} \geq K}, \\ β = {Pr}_{f_{1}} {\bar{X} < K} . \end{array} dove K = \frac{c σ^{2}}{n (μ_{1} - μ_{0})} + \frac{(μ_{1} + μ_{0})}{2}

$\begin{array}{ll} \alpha = \text{Pr}_{f_0} \{\bar{x} \ge k\},\\ \beta = \text{Pr}_{f_1} \{\bar{x} \lt k\}.\end{array} \enspace \enspace \text{ where } k = \frac{c\sigma^2}{n\left(\mu_1-\mu_0\right)} + \frac{\left(\mu_1+\mu_0\right)}{2}$

Per $\alpha$ ...

α = {Pr}_{f_{0}} {\bar{X} \geq K} = {Pr}_{f_{0}} {\bar{X} - μ_{0} \geq K - μ_{0}}

$\alpha = \text{Pr}_{f_0} \{\bar{x} \ge k\} = \text{Pr}_{f_0} \{\bar{x} - \mu_0 \ge k - \mu_0\}$

α = {Pr}_{f_{0}} {\frac{\bar{X} - μ_{0}}{\frac{σ}{\sqrt{n}}} \geq \frac{K - μ_{0}}{\frac{σ}{\sqrt{n}}}}

$\alpha = \text{Pr}_{f_0} \left\{\frac{\bar{x} - \mu_0}{\frac{\sigma}{\sqrt{n}}} \ge \frac{k - \mu_0}{\frac{\sigma}{\sqrt{n}}}\right\}$

α = {Pr}_{f_{0}} {z-score \geq \frac{K - μ_{0}}{\frac{σ}{\sqrt{n}}}} dove K = \frac{c σ^{2}}{n (μ_{1} - μ_{0})} + \frac{(μ_{1} + μ_{0})}{2}

$\alpha = \text{Pr}_{f_0} \left\{\text{z-score} \ge \frac{k - \mu_0}{\frac{\sigma}{\sqrt{n}}}\right\} \enspace \enspace \text{ where } k = \frac{c\sigma^2}{n\left(\mu_1-\mu_0\right)} + \frac{\left(\mu_1+\mu_0\right)}{2}$

così, ho implementato il codice Python di seguito:

def alpha_calculation(cutoff, m_0, m_1, variance, sample_size):
    c = cutoff
    n = sample_size
    sigma = np.sqrt(variance)

    k = (c*variance)/(n*(m_1-m_0)) + (m_1+m_0)/2.0

    z_alpha = (k-m_0)/(sigma/np.sqrt(n))

    # Pr{z_score >= z_alpha}
    return 1.0 - st.norm(loc=0, scale=1).cdf(z_alpha)

Per $\beta$ ...

β = {Pr}_{f_{1}} {\bar{X} < K} = {Pr}_{f_{1}} {\bar{X} - μ_{1} < K - μ_{1}}

$\beta = \text{Pr}_{f_1} \{\bar{x} \lt k\} = \text{Pr}_{f_1} \{\bar{x} - \mu_1 \lt k - \mu_1\}$

β = {Pr}_{f_{1}} {\frac{\bar{X} - μ_{1}}{\frac{σ}{\sqrt{n}}} < \frac{K - μ_{1}}{\frac{σ}{\sqrt{n}}}}

$\beta = \text{Pr}_{f_1} \left\{\frac{\bar{x} - \mu_1}{\frac{\sigma}{\sqrt{n}}} \lt \frac{k - \mu_1}{\frac{\sigma}{\sqrt{n}}}\right\}$

β = {Pr}_{f_{1}} {z-score < \frac{K - μ_{1}}{\frac{σ}{\sqrt{n}}}} dove K = \frac{c σ^{2}}{n (μ_{1} - μ_{0})} + \frac{(μ_{1} + μ_{0})}{2}

$\beta = \text{Pr}_{f_1} \left\{\text{z-score} \lt \frac{k - \mu_1}{\frac{\sigma}{\sqrt{n}}}\right\} \enspace \enspace \text{ where } k = \frac{c\sigma^2}{n\left(\mu_1-\mu_0\right)} + \frac{\left(\mu_1+\mu_0\right)}{2}$

risultante nel codice Python di seguito:

def beta_calculation(cutoff, m_0, m_1, variance, sample_size):
    c = cutoff
    n = sample_size
    sigma = np.sqrt(variance)

    k = (c*variance)/(n*(m_1-m_0)) + (m_1+m_0)/2.0

    z_beta = (k-m_1)/(sigma/np.sqrt(n))

    # Pr{z_score < z_beta}
    return st.norm(loc=0, scale=1).cdf(z_beta)

e il codice ...

alphas_calculated = []
betas_calculated = []
for cutoff in cutoffs:
    alpha_ = alpha_calculation(cutoff, 0.0, 0.5, 1.0, sample_size)
    beta_ = beta_calculation(cutoff, 0.0, 0.5, 1.0, sample_size)

    alphas_calculated.append(alpha_)
    betas_calculated.append(beta_)

e il codice ...

# Reproducing Figure 2.2 from calculation results.
plt.xlabel('$\\alpha$')
plt.ylabel('$\\beta$')
plt.xlim(-0.1, 1.05)
plt.ylim(-0.1, 1.05)
plt.axvline(x=0, color='b', linestyle='--')
plt.axvline(x=1, color='b', linestyle='--')
plt.axhline(y=0, color='b', linestyle='--')
plt.axhline(y=1, color='b', linestyle='--')
figure_2_2 = plt.plot(alphas_calculated, betas_calculated, 'ro', alphas_calculated, betas_calculated, 'k-')

per ottenere una cifra e valori per $\alpha$ e $\beta$ molto simile alla mia prima simulazione

E infine per confrontare i risultati tra simulazione e calcolo fianco a fianco ...

df = pd.DataFrame({
    'cutoff': np.round(cutoffs, decimals=2), 
    'simulated alpha': np.round(alphas_simulated, decimals=2),
    'simulated beta': np.round(betas_simulated, decimals=2),
    'calculated alpha': np.round(alphas_calculated, decimals=2),
    'calculate beta': np.round(betas_calculated, decimals=2)
})
df

con il risultato di

Ciò dimostra che i risultati della simulazione sono molto simili (se non uguali) a quelli dell'approccio analitico.

In breve, ho ancora bisogno di aiuto per capire cosa potrebbe essere sbagliato nei miei calcoli. Grazie. :)

— Francisco Fonseca
fonte

Mi sembra che qualsiasi domanda che richieda ai lettori di superare 11 pagine di codice informatico, output statistico e algebra è improbabile che venga letta da nessuno, e tanto meno con una risposta convincente. Se sei interessato a perseguire questo, come sembri provenire dal tempo e dall'attenzione che ci hai dedicato, potrei suggerirti di identificare il nocciolo della questione e vedere se puoi spiegarlo e porre la tua domanda nello spazio di una o al massimo due pagine di materiale?

— whuber

Ciao @whuber, grazie per il tuo suggerimento! La mia intenzione era quella di pubblicare dettagli (codice sorgente e spiegazioni) per consentire a chiunque di riprodurre i miei risultati, ma sembra che questa strategia non abbia funzionato molto bene come avete osservato correttamente :). Grazie ancora. Quindi ho modificato la domanda per riassumere il mio dubbio all'inizio del post. Spero che funzioni.

— Francisco Fonseca,

Nel sito web del libro Computer Age Statistical Inference , c'è una sessione di discussione in cui Trevor Hastie e Brad Efron rispondono spesso a diverse domande. Quindi, ho postato questa domanda lì (come sotto) e ho ricevuto da Trevor Hastie la conferma che c'è un errore nel libro che verrà corretto (in altre parole, le mie simulazioni e calcoli - come implementato in Python in questa domanda - sono corretti ).

Quando Trevor Hastie rispose che "In effetti c = .75 per quella trama" significa che nella figura sottostante (Figura 2.2 originale del libro) il taglio $c$ dovrebbe essere $c=0.75$ invece di $c=0.4$ :

Così, usando le mie funzioni alpha_simulation(.), beta_simulation(.), alpha_calculation(.)e beta_calculation(.)(il cui codice completo Python è disponibile in questa domanda) ho ottenuto $\alpha=0.10$ e $\beta=0.38$ per un taglio $c=0.75$ come conferma che il mio codice è corretto.

alpha_simulated_c075 = alpha_simulation(0.75, f0_density, f1_density, sample_size, replicates)
beta_simulated_c075 = beta_simulation(0.75, f0_density, f1_density, sample_size, replicates)

alpha_calculated_c075 = alpha_calculation(0.75, 0.0, 0.5, 1.0, sample_size)
beta_calculated_c075 = beta_calculation(0.75, 0.0, 0.5, 1.0, sample_size)

print("Simulated: c=0.75, alpha={0:.2f}, beta={1:.2f}".format(alpha_simulated_c075, beta_simulated_c075))
print("Calculated: c=0.75, alpha={0:.2f}, beta={1:.2f}".format(alpha_calculated_c075, beta_calculated_c075))

Alla fine, quando Trevor Hastie rispose che "... risultante in una soglia per x di .4" significa che $k=0.4$ nell'equazione seguente (vedere la sezione B di questa domanda):

\bar{X} \geq K, dove K = \frac{c σ^{2}}{n (μ_{1} - μ_{0})} + \frac{(μ_{1} + μ_{0})}{2}

$\bar{x} \ge k \text{, where } k = \frac{c\sigma^2}{n\left(\mu_1-\mu_0\right)} + \frac{\left(\mu_1+\mu_0\right)}{2}$

con il risultato di

t_{c} (X) = {\begin{cases} 1 Se \bar{X} \geq K \\ 0 Se \bar{X} < K . \end{cases}, dove K = \frac{c σ^{2}}{n (μ_{1} - μ_{0})} + \frac{(μ_{1} + μ_{0})}{2}

Quindi, in Python possiamo ottenere $k=0.4$ per un taglio $c=0.75$ come sotto:

n = 10
m_0 = 0.0
m_1 = 0.5
variance = 1.0
c = 0.75

k = (c*variance)/(n*(m_1-m_0)) + (m_1+m_0)/2.0
threshold_for_x = k

print("threshold for x (when cutoff c=0.75) = {0:.1f}".format(threshold_for_x))

— Francisco Fonseca
fonte