Bias nella selezione della giuria?


14

Un amico rappresenta un cliente in appello, dopo un processo penale in cui sembra che la selezione della giuria fosse distorta dal punto di vista razziale.

Il pool di giurie era composto da 30 persone, in 4 gruppi razziali. L'accusa ha utilizzato sfide perentorie per eliminare 10 di queste persone dal pool. Il numero di persone e il numero di sfide effettive in ciascun gruppo razziale erano, rispettivamente:

A: 10, 1
B: 10, 4
C:  6, 4
D:  4, 1
total: 30 in pool, 10 challenges

L'imputato apparteneva al gruppo razziale C e le vittime dei gruppi razziali A e D, quindi la preoccupazione a priori è se il gruppo C è troppo sfidato e i gruppi A e D sono sfidati. Legalmente (IIUC; IANAL), la difesa non ha bisogno di dimostrare un pregiudizio razziale, ma semplicemente di mostrare che i dati sembrano indicare un pregiudizio, che quindi grava sull'accusa per spiegare ogni sfida non razzialmente.

La seguente analisi è corretta nel suo approccio? (Penso che i calcoli vadano bene.):

Esistono nCr (30,10) = 30.045.015 insiemi distinti di 10 membri del pool. Di questi insiemi distinti, conto che 433.377 insiemi includono entrambi (non più di 2 membri del gruppo A e D combinati) e (non meno di 4 membri del gruppo C).

Pertanto, la possibilità di raggiungere il livello osservato di apparente propensione a favorire i gruppi A e D rispetto al gruppo C (dove favorire significa non includere nella serie di 10 sfide) sarebbe il rapporto di questi, 433/30045 = 1,44%.

Pertanto l'ipotesi nulla (nessuna tale propensione) viene respinta al livello di significatività del 5%.

Se questa analisi è metodologicamente corretta, quale sarebbe il modo più sintetico per descriverla a un tribunale, incluso un riferimento accademico / professionale (cioè non Wikipedia)? Mentre l'argomento sembra semplice, come si può dimostrare in modo più chiaro e conciso alla corte che è corretto, non shenanigans?


Aggiornamento: questa domanda è stata presa in considerazione come argomento terziario in un breve appello. Data la complessità tecnica (dal punto di vista dell'avvocato) della discussione qui e l'apparente mancanza di precedenti legali, l'avvocato ha scelto di non sollevarlo, quindi a questo punto la domanda è principalmente teorica / educativa.

Per rispondere a un dettaglio: credo che il numero di sfide, 10, sia stato fissato in anticipo.

Dopo aver studiato le risposte e i commenti ponderati e stimolanti (grazie, tutto!), Sembra che ci siano 4 problemi separati qui. Per me, almeno, sarebbe di grande aiuto considerarli separatamente (o ascoltare argomenti sul perché non sono separabili).

1) La considerazione delle razze di imputato e vittime, nelle sfide della giuria, è di interesse giuridico a priori ? L'obiettivo dell'argomentazione di appello sarebbe semplicemente quello di sollevare una ragionevole preoccupazione, il che potrebbe portare a un ordine giudiziario secondo cui l'accusa indica la ragione di ogni singola contestazione. Questa non mi sembra una questione statistica, ma piuttosto una questione sociale / legale, che è a discrezione dell'avvocato sollevare o meno.

2) Supponendo (1), è plausibile la mia scelta di un'ipotesi alternativa (qualitativamente: parzialità contro i giurati che condividono la razza dell'imputato, a favore di coloro che condividono le razze delle vittime) o è inammissibilmente post hoc ? Dal mio punto di vista laico, questa è la domanda più imbarazzante - sì, certo che non la solleveremmo se non la osservassi! Il problema, a quanto ho capito, è il pregiudizio per la selezione: i test personali dovrebbero considerare non solo questo pool di giurie, ma l'universo di tutti questi pool di giurie, compresi tutti quelli in cui la difesa non ha osservato una discrepanza e quindi non è stata tentata di sollevare il problema . Come si può affrontare questo? (Ad esempio, in che modo il test di Andy affronta questo?) Sembra, anche se potrei sbagliarmi, che la maggior parte degli intervistati non sia turbata da potenziali post-hocTest a 1 coda per pregiudizi esclusivamente contro il gruppo del convenuto. In che modo sarebbe metodologicamente diverso testare simultaneamente la distorsione per i gruppi di vittime, assumendo (1)?

3) Se si stabilisce la mia scelta di un'ipotesi alternativa qualitativa come indicato in (2), allora qual è una statistica appropriata per testarla? È qui che sono più perplesso dalle risposte, perché il rapporto che propongo sembra essere un analogo leggermente più conservativo del test di Andy per l'ipotesi alternativa "bias contro C" più semplice (più conservativa perché il mio test conta anche tutti i casi più avanti nella coda, non solo il conteggio esatto osservato.)

Entrambi i test sono semplici test di conteggio, con lo stesso denominatore (stesso universo di campioni) e con numeratori che corrispondono esattamente alla frequenza di quei campioni che corrispondono alle rispettive ipotesi alternative. Quindi @whuber, perché non è identico al mio test di conteggio come di Andy che "può essere basato su ipotesi nulle [stesse] e alternative [come descritte] e giustificate usando il lemma di Neyman-Pearson"?

4) Se si stipulano (2) e (3), ci sono riferimenti nella giurisprudenza che convincerebbero una corte d'appello scettica? Dalle prove fino ad oggi, probabilmente no. Inoltre, in questa fase di appello non c'è alcuna possibilità per nessun "testimone esperto", quindi i riferimenti sono tutto.


Domanda aggiornata (aggiunta a) dopo aver studiato risposte e commenti.
JD marzo

Grazie per un eccellente riassunto! Per rispondere al punto (3), la mia preoccupazione è che il test (se lo capisco correttamente) adotti un'ipotesi alternativa motivata dai dati stessi. Sembra quindi che sia stato costruito a posteriori per far apparire i risultati il ​​più forte possibile. Un test che si basa sulla più ampia possibile prevedibile, pertinente classe di alternative a priori e condotto con una regione di rifiuto di Neyman-Pearson, ha una base logica più forte ed è meno soggetto alle critiche che è stato comunque proposto dopo aver visto i dati.
whuber

Grazie, @whuber è una critica plausibile e utile - molto di ciò che stavo chiedendo dall'inizio. Ma ciò non provocherebbe il fallimento del mio (2), anche prima di (3)? Se è così, allora il mio (3) sembrerebbe ancora senza risposta - cioè sarebbe una buona statistica se uno stipulato (2)?
JD marzo

Risposte:


7

Ecco come potrei affrontare la risposta alla tua domanda utilizzando strumenti statistici standard.

Di seguito sono riportati i risultati di un'analisi probit sulla probabilità di essere respinto data l'appartenenza al gruppo del giurato.

Innanzitutto, ecco come appaiono i dati. Ho 30 osservazioni di gruppo e un indicatore binario rifiutato:

. tab group rejected 

           |       rejected
     group |         0          1 |     Total
-----------+----------------------+----------
         A |         9          1 |        10 
         B |         6          4 |        10 
         C |         2          4 |         6 
         D |         3          1 |         4 
-----------+----------------------+----------
     Total |        20         10 |        30 

Ecco i singoli effetti marginali e il test congiunto:

. qui probit rejected ib2.group

. margins rb2.group

Contrasts of adjusted predictions
Model VCE    : OIM

Expression   : Pr(rejected), predict()

------------------------------------------------
             |         df        chi2     P>chi2
-------------+----------------------------------
       group |
   (A vs B)  |          1        2.73     0.0986
   (C vs B)  |          1        1.17     0.2804
   (D vs B)  |          1        0.32     0.5731
      Joint  |          3        8.12     0.0436
------------------------------------------------

--------------------------------------------------------------
             |            Delta-method
             |   Contrast   Std. Err.     [95% Conf. Interval]
-------------+------------------------------------------------
       group |
   (A vs B)  |        -.3    .181659     -.6560451    .0560451
   (C vs B)  |   .2666667   .2470567     -.2175557     .750889
   (D vs B)  |       -.15   .2662236     -.6717886    .3717886
--------------------------------------------------------------

Qui stiamo testando le singole ipotesi secondo cui le differenze nella probabilità di essere rifiutate per i gruppi A, C e D rispetto al gruppo B sono zero. Se tutti avessero la probabilità di essere respinti come il gruppo B, questi sarebbero zero. L'ultima parte dell'output ci dice che i giurati del gruppo A e D hanno meno probabilità di essere respinti, mentre i giurati del gruppo C hanno maggiori probabilità di essere respinti. Queste differenze non sono statisticamente significative individualmente, anche se i segni concordano con la tua congettura di pregiudizio.

Tuttavia, possiamo respingere l'ipotesi congiunta che le tre differenze sono tutte zero a .p=0.0436


Addendum:

Se unisco i gruppi A e D in uno poiché condividono le razze delle vittime, i risultati probit diventano più forti e hanno una bella simmetria:

Contrasts of adjusted predictions
Model VCE    : OIM

Expression   : Pr(rejected), predict()

------------------------------------------------
             |         df        chi2     P>chi2
-------------+----------------------------------
      group2 |
 (A+D vs B)  |          1        2.02     0.1553
   (C vs B)  |          1        1.17     0.2804
      Joint  |          2        6.79     0.0336
------------------------------------------------

--------------------------------------------------------------
             |            Delta-method
             |   Contrast   Std. Err.     [95% Conf. Interval]
-------------+------------------------------------------------
      group2 |
 (A+D vs B)  |  -.2571429   .1809595      -.611817    .0975313
   (C vs B)  |   .2666667   .2470568     -.2175557     .750889
--------------------------------------------------------------

Ciò consente anche a Fisher di fornire risultati congruenti (anche se non ancora al 5%):

 RECODE of |       rejected
     group |         0          1 |     Total
-----------+----------------------+----------
       A+D |        12          2 |        14 
         B |         6          4 |        10 
         C |         2          4 |         6 
-----------+----------------------+----------
     Total |        20         10 |        30 

          Pearson chi2(2) =   5.4857   Pr = 0.064
           Fisher's exact =                 0.060

Grazie, molto apprezzato! Potresti aiutarmi a capire le questioni metodologiche qui? In particolare, (1) i test comparativi non indirizzati (IIUC) nonostante le particolarità della preoccupazione a priori , e (2) i motivi per utilizzare un test che fa ipotesi di distribuzione piuttosto che solo argomenti combinatori?
JD marzo

Non sono sicuro di aver capito (1). Per (2), ottengo risultati molto simili con un modello logit, che fa ipotesi distributive diverse, quindi c'è una certa solidità. Non ci sono abbastanza dati per fare qualcosa di meno parametrico, anche se potrebbe essere la mia ignoranza in questo campo.
Dimitriy V. Masterov,

1
Ri (1). Quello che voglio dire è: sembra che il tuo test sia a 2 code, mentre la preoccupazione a priori consentirebbe 1 coda?
JD marzo

1
Un aspetto di questa analisi che mi mette a disagio è che il suo apparente significato (a livello del 5%, comunque) è dovuto non solo alle sfide che si verificano nel gruppo C, ma anche alla relativa scarsità di sfide nel gruppo A. Quest'ultimo sembrerebbe essere irrilevanti: sarebbe stato sospettato a priori ? Il ruolo favorito del gruppo C è evidente (nell'abbinare il gruppo del Convenuto), ma un ruolo privilegiato per qualsiasi altro gruppo - o anche di (in ipotesi) ovvie ineguaglianze tra gli altri gruppi - sembrerebbe non avere alcuna attinenza con l'affermazione del Convenuto discriminazione nei loro confronti basata sul loro gruppo .
whuber

A proposito, sembra che tu abbia effettuato un'analisi del gruppo B anziché del gruppo C.
whuber

3

Penserei che l'introduzione di un metodo statistico ad hoc non sarà un problema con il tribunale. È meglio usare metodi che sono "pratica standard". Altrimenti, probabilmente riuscirai a dimostrare le tue qualifiche per sviluppare nuovi metodi.

Per essere più espliciti, non credo che il tuo metodo sarebbe conforme allo standard Daubert. Dubito anche che il tuo metodo abbia un riferimento accademico in sé e per sé. Probabilmente dovresti seguire la strada dell'assunzione di un testimone statistico esperto per introdurlo. Sarebbe facilmente contrastato, penso.

La domanda di base qui è probabile: "La sfida della giuria era indipendente dal raggruppamento razziale?"

χ2

> M <- as.table(cbind(c(9, 6, 2, 3), c(1, 4, 4, 1)))
> dimnames(M) <- list(Group=c("A", "B", "C", "D"), Challenged=c("No", "Yes"))
> M
     Challenged
Group No Yes
    A  9   1
    B  6   4
    C  2   4
    D  3   1

> chisq.test(M)

        Pearson's Chi-squared test

data:  M
X-squared = 5.775, df = 3, p-value = 0.1231

Warning message:
In chisq.test(M) : Chi-squared approximation may be incorrect

L'uso del test esatto di Fisher fornisce risultati simili:

> fisher.test(M)

        Fisher's Exact Test for Count Data

data:  M
p-value = 0.1167
alternative hypothesis: two.sided

2×2

La mia interpretazione è che non ci sono molte prove per argomentare il pregiudizio razziale.


1
χ2

Grazie, @jvbraun, il tuo punto sui metodi ad hoc per essere no-go sembra persuasivo; anche se contare e dividere non mi sembrano particolarmente eccentrici, chiaramente altri non lo trovano convincente!
JD marzo

Questo è in realtà uno dei casi in cui i margini sono fissi, quindi il test esatto di Fisher dovrebbe essere più appetibile per molti. Nella tua discussione su Daubert hai un po 'indietro, una volta che chiami un esperto, allora sono soggetti a un movimento di Daubert. (Ironia della sorte, alcuni hanno sostenuto che i laici che presentano statistiche non sono soggetti a tali valutazioni dettate dalla regola 702.) Tutte le argomentazioni dell'IMO presentate qui sono ben articolate e difficilmente sarebbero giudicate irricevibili. Dubito che una qualsiasi di queste tecniche statistiche abbia giurisprudenza in queste particolari circostanze.
Andy W,

χ2

χ22/24/6

3

Ho fatto una domanda simile in precedenza (per riferimento qui è il caso particolare che discuto). La difesa deve semplicemente mostrare un caso prima facia di discriminazione nelle sfide di Batson (presupponendo il diritto penale americano) - quindi i test di ipotesi sono probabilmente un onere più grande del necessario.

Così per:

  • n=30
  • p=6
  • k=4
  • d=10

La precedente risposta di Whuber dà la probabilità che questo particolare risultato sia dettato dalla distribuzione ipergeometrica :

(pk)(npdk)(nd)

Che Wolfram-Alpha dice è uguale in questo caso:

(64)(306104)(3010)=7611310.07

Sfortunatamente non ho un riferimento oltre ai link che ho fornito - immagino che puoi trovare un riferimento adatto per la distribuzione ipergeometrica dalla pagina di Wikipedia.

Ciò ignora la questione se i gruppi razziali A e D siano "sotto-sfidati". Sono scettico sul fatto che tu possa fare un argomento legale per questo - sarebbe una strana svolta sulla clausola di uguale protezione, questo particolare gruppo è troppo protetto! , che non credo volerebbe. (Non sono un avvocato, quindi prendilo con un granello di sale.)

(3010)χ2


Ho aggiornato alcuni dei miei pensieri in un post sul blog . Il mio post è specifico per Batson Challenges, quindi non è chiaro se cerchi un'altra situazione (i tuoi aggiornamenti per 1 e 2 non hanno senso nel contesto di Batson Challenges.)

Sono stato in grado di trovare un articolo correlato (disponibile per intero al link):

Gastwirth, JL (2005). Commento del caso: test statistici per l'analisi dei dati sulle sfide perentorie: chiarire lo standard di prova necessario per stabilire un caso di discriminazione prima facie in Johnson v. California. Legge, probabilità e rischio , 4 (3), 179-185.

Ciò ha dato lo stesso suggerimento per l'utilizzo della distribuzione ipergeometrica. Nel mio post sul blog mostro come se comprimessi le categorie in due gruppi è equivalente al test Exact di Fisher.

kk=5k=6nnd

Se qualcuno viene a conoscenza della giurisprudenza che effettivamente utilizza questo (o qualcosa oltre alle frazioni), sarei interessato.


1
Grazie Andy. (1) Il mio amico avvocato ritiene che sia perfettamente accettabile / utile affermare che C era troppo sfidato e A sfidato. (2) Dici "che statistica test". Trovo che sia confuso: quale statistica di test stai usando quando calcoli 0,07 usando ipergeometrico? Ciò che fa è calcolare la probabilità come rapporto tra casi sospetti e casi totali. Allo stesso modo, questo è esattamente ciò che fa la mia analisi, tranne definire casi sospetti più strettamente di te.
JD marzo

@JonathanMarch - Non utilizzo una statistica di prova. Questa è la probabilità che 4 su 6 classe C siano scelti (date le altre condizioni) in modo casuale secondo la distribuzione ipergeometrica. Capisco la motivazione per i test direzionali, ma questo non è il solito caso t-test. In tal caso hai una distribuzione nulla continua, quindi per darti un valore p necessario definire l'alternativa come area. Non è implicito farlo con una distribuzione PMF come qui.
Andy W,

1
k=5k=60.07

1
86/11317.6%
whuber

1
Jonathan, a tuo vantaggio, ti farò passare un brutto momento (proprio come farebbe un esperto dell'opposizione). Credo che il tuo approccio non sia valido perché usi una statistica ad hoc senza giustificazione teorica; sembra costruito esclusivamente per produrre un piccolo valore p. La statistica di Andy può essere basata su ipotesi nulle e alternative stipulate e giustificata usando il lemma di Neyman-Pearson. La tua statistica sembra basarsi su un esame post hoc dei risultati e non sembra corrispondere a nessuna ipotesi alternativa che sarebbe stata affermata prima (cioè, indipendentemente) del voir dire .
whuber

0

Non dimentichiamo il problema dei test multipli. Immagina 100 avvocati difensori ognuno alla ricerca di motivi per presentare ricorso. Tutti i rifiuti del giurato erano stati eseguiti lanciando monete o lanciando dadi per ogni potenziale giurato. Pertanto, nessuno dei rifiuti era di parte razziale.

Ognuno dei 100 avvocati ora fa qualsiasi test statistico su cui tutti voi ragazzi siete d'accordo. Circa cinque su quei 100 respingeranno l'ipotesi nulla di "imparziale" e avranno motivi di appello.


IIUC, sarebbero alla ricerca di motivi per il giudice di ordinare un esame delle ragioni di ogni singolo rifiuto. Sarebbe effettivamente un problema se un tale esame si verificasse in 5 di quei 100 casi?
JD,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.