Analisi bayesiana delle tabelle di contingenza: come descrivere la dimensione dell'effetto

Sto lavorando agli esempi di Doing Bayesian Data Analysis di Kruschke , in particolare l'ANOVA esponenziale di Poisson in cap. 22, che presenta in alternativa ai test chi-quadrato di indipendenza per le tabelle di contingenza.

Vedo come otteniamo informazioni sulle interazioni che si verificano più o meno frequentemente di quanto ci si aspetterebbe se le variabili fossero indipendenti (cioè quando l'HDI esclude lo zero).

La mia domanda è: come posso calcolare o interpretare una dimensione dell'effetto in questo framework? Ad esempio, Kruschke scrive "la combinazione di occhi blu e capelli neri si verifica meno frequentemente di quanto ci si aspetterebbe se il colore degli occhi e il colore dei capelli fossero indipendenti", ma come possiamo descrivere la forza di tale associazione? Come posso sapere quali interazioni sono più estreme di altre? Se eseguessimo un test chi-quadro di questi dati, potremmo calcolare la V di Cramér come misura della dimensione complessiva dell'effetto. Come posso esprimere la dimensione dell'effetto in questo contesto bayesiano?

Ecco l'esempio autonomo del libro (codificato R), nel caso in cui la risposta mi sia nascosta in bella vista ...

df <- structure(c(20, 94, 84, 17, 68, 7, 119, 26, 5, 16, 29, 14, 15, 
10, 54, 14), .Dim = c(4L, 4L), .Dimnames = list(c("Black", "Blond", 
"Brunette", "Red"), c("Blue", "Brown", "Green", "Hazel")))

df

         Blue Brown Green Hazel
Black      20    68     5    15
Blond      94     7    16    10
Brunette   84   119    29    54
Red        17    26    14    14

Ecco l'output del frequentista, con misure della dimensione dell'effetto (non nel libro):

vcd::assocstats(df)
                    X^2 df P(> X^2)
Likelihood Ratio 146.44  9        0
Pearson          138.29  9        0

Phi-Coefficient   : 0.483 
Contingency Coeff.: 0.435 
Cramer's V        : 0.279

Ecco l'output bayesiano, con HDI e probabilità di cella (direttamente dal libro):

# prepare to get Krushkes' R codes from his web site
Krushkes_codes <- c(
  "http://www.indiana.edu/~kruschke/DoingBayesianDataAnalysis/Programs/openGraphSaveGraph.R", 
  "http://www.indiana.edu/~kruschke/DoingBayesianDataAnalysis/Programs/PoissonExponentialJagsSTZ.R")

# download Krushkes' scripts to working directory
lapply(Krushkes_codes, function(i) download.file(i, destfile = basename(i)))

# run the code to analyse the data and generate output
lapply(Krushkes_codes, function(i) source(basename(i)))

E qui ci sono trame del modello esponenziale posteriore di Poisson applicato ai dati:

inserisci qui la descrizione dell'immagine

E grafici della distribuzione posteriore sulle probabilità cellulari stimate:

inserisci qui la descrizione dell'immagine

r bayesian effect-size contingency-tables

— Ben
fonte

Risposte:

Secondo l'indice, Kruschke menziona la dimensione dell'effetto solo due volte, ed entrambe le volte si trovano nel contesto di una variabile prevista della metrica. Ma c'è un po 'a pag. 601:

Se il ricercatore è interessato a violazioni dell'indipendenza, allora l'interesse è sulle dimensioni di . Il modello è particolarmente conveniente per questo scopo, poiché è possibile investigare contrasti arbitrari di interazione per determinare dove sta sorgendo la non-spesa. $\beta_{rc}$

Quindi, ho che è il parametro da interpretare. Sia uguale alla somma dei prodotti di tutti i coefficienti e i corrispondenti elementi x, esclusi e . Poiché e . Quando = 1, allora cresce o si riduce di un fattore di , no? $\beta_{1,2}$ $S$ $\beta_{1,2}$ $x_{1,2}$ $y_i {\raise.17ex\hbox{$\scriptstyle\sim$}} Pois(\lambda_i)$ $\lambda_i = e^{\beta_{1,2} x_{1,2} + S} = e^{\beta_{1,2} x_{1,2}} e^S$ $x_{1,2}$ $\lambda_i$ $e^{\beta_{1,2}}$

— Sean Easter
fonte

Un modo per studiare la dimensione dell'effetto nel modello ANOVA è quello di osservare le deviazioni standard di "super popolazione" e "popolazione finita". Hai una tabella a due vie, quindi si tratta di 3 componenti di varianza (2 effetti principali e 1 interazione). Questo si basa sull'analisi mcmc. Si calcola la deviazione standard per ciascun effetto per ciascun campione mcmc.

s_{k} = \sqrt{\frac{1}{d_{k} - 1} \sum_{j = 1}^{d_{k}} (β_{k, j} - {\bar{β}}_{k})^{2}}

$s_k=\sqrt{\frac{1}{d_k-1}\sum_{j=1}^{d_k}(\beta_{k, j}-\overline {\beta}_k)^2}$

Dove indicizza la "riga" della tabella ANOVA. I semplici grafici a scatole dei campioni mcmc di vs sono abbastanza istruttivi sulle dimensioni degli effetti. $k$ $s_k$ $k$

Andrew Gelman ha sostenuto questo approccio. Vedi il suo documento del 2005 "Analisi della varianza: perché è più importante che mai"

— probabilityislogic
fonte

Quel documento è disponibile qui .

— Sean Easter,

Entrambe queste risposte sembrano molto promettenti, grazie. Qualcuno di voi è abbastanza familiare da Rmostrare come potrebbe essere programmato?

— Ben

@seaneaster - grazie per aver aggiunto il link. @ben, questi calcoli sono semplici in R. Comunque non sono sicuro in quale forma si trovino i tuoi campioni. Dovresti essere in grado di usare in sd ()combinazione con una delle funzioni "applica". Per quanto riguarda i box box, questi sono semplici da ottenere quelli di base boxplot ().

— probabilityislogic

Grazie, puoi dimostrare usando i dati e il codice di esempio nella mia domanda?

— Ben

In breve, no perché non capisco il codice che hai pubblicato - non riesco a vedere come sono organizzati i dati. E come ho detto, questa non è un'analisi difficile da fare da soli. Questo approccio sta calcolando una misura semplice (deviazione standard). Inoltre, la codifica R non fa parte della tua domanda: hai chiesto come riassumere l'analisi della tabella di contingenza.

— probabilityislogic