Strategie per insegnare la distribuzione campionaria


30

La versione tl; dr Quali strategie di successo utilizzate per insegnare la distribuzione del campionamento (ad esempio una media campionaria) a livello introduttivo universitario?

Lo sfondo

A settembre terrò un corso di statistica introduttiva per gli studenti del secondo anno di scienze sociali (principalmente scienze politiche e sociologia) usando The Basic Practice of Statistics di David Moore. Sarà la quinta volta che insegno questo corso e un problema che ho costantemente avuto è che gli studenti hanno davvero lottato con l'idea della distribuzione del campionamento . È coperto come sfondo per l'inferenza e segue un'introduzione di base alla probabilità con la quale non sembrano avere problemi dopo alcuni singhiozzi iniziali (e per base intendo base- dopo tutto, molti di questi studenti sono stati auto-selezionati in uno specifico corso di corso perché stavano cercando di evitare qualsiasi cosa con anche un vago accenno di "matematica"). Immagino che probabilmente il 60% lascia il corso senza una comprensione minima, circa il 25% comprende il principio ma non le connessioni con altri concetti e il restante 15% comprende completamente.

Il problema principale

Il problema che gli studenti sembrano avere è con l'applicazione. È difficile spiegare qual è il problema preciso oltre a dire che semplicemente non lo capiscono. Da un sondaggio condotto lo scorso semestre e dalle risposte agli esami, penso che parte della difficoltà sia la confusione tra due frasi sonore correlate e simili (distribuzione campionaria e distribuzione campionaria), quindi non ho usato la frase "distribuzione campionaria" più, ma sicuramente questo è qualcosa che, sebbene inizialmente confuso, viene facilmente colto con un piccolo sforzo e comunque non può spiegare la confusione generale del concetto di distribuzione campionaria.

(Mi rendo conto che potremmo essere io e il mio insegnamento ad essere in discussione qui! Comunque penso che ignorare quella scomoda possibilità sia ragionevole da fare dato che alcuni studenti sembrano ottenerlo e nel complesso tutti sembrano fare abbastanza bene ...)

Quello che ho provato

Ho dovuto discutere con l'amministratore universitario nel nostro dipartimento per introdurre sessioni obbligatorie nel laboratorio di informatica pensando che le dimostrazioni ripetute potrebbero essere utili (prima di iniziare a insegnare questo corso non era coinvolto l'informatica). Anche se penso che ciò aiuti la comprensione generale del materiale del corso in generale, non penso che sia stato d'aiuto in questo specifico argomento.

Un'idea che ho avuto è semplicemente di non insegnare affatto o di non dargli molto peso, una posizione sostenuta da alcuni (ad esempio Andrew Gelman ). Non lo trovo particolarmente soddisfacente dal momento che ha il soffio di insegnare al minimo comune denominatore e, cosa più importante, nega gli studenti forti e motivati ​​che vogliono saperne di più sull'applicazione statistica da capire davvero come funzionano i concetti importanti (non solo la distribuzione campionaria! ). D'altra parte, lo studente mediano sembra cogliere i valori p, ad esempio, quindi forse non è necessario che capiscano comunque la distribuzione del campionamento.

La domanda

Quali strategie utilizzate per insegnare la distribuzione del campionamento? So che ci sono materiali e discussioni disponibili (ad esempio qui e qui e questo documento che apre un file PDF ) ma mi chiedo solo se posso ottenere alcuni esempi concreti di ciò che funziona per le persone (o immagino che anche ciò che non funziona quindi saprò di non provarlo!). Il mio piano ora, mentre pianifico il mio corso per settembre, è di seguire i consigli di Gelman e "delimitare" la distribuzione del campionamento. Lo insegnerò, ma assicurerò agli studenti che si tratta di una sorta di argomento solo per la FYI e che non verrà visualizzato in un esame (tranne forse come una domanda bonus ?!). Tuttavia, sono davvero interessato a sentire altri approcci che le persone hanno usato.


Puoi anche farlo con distribuzioni di popolazione non normali per mostrare il teorema del limite centrale
user41270

scusate questo avrebbe dovuto essere un commento sulla mia risposta qui sotto.
user41270

Risposte:


23

Secondo me, le distribuzioni campionarie sono l'idea chiave delle statistiche 101. Potresti anche saltare il corso così come saltare quel problema. Tuttavia, ho molta familiarità con il fatto che gli studenti non lo capiscono, apparentemente non importa quello che fai. Ho una serie di strategie. Questi possono richiedere molto tempo, ma raccomando di saltare / abbreviare altri argomenti, in modo da assicurarsi che ottengano l'idea della distribuzione del campionamento. Ecco alcuni consigli:

  • Dillo chiaramente: prima menziono esplicitamente che ci sono 3 diverse distribuzioni di cui ci occupiamo: la distribuzione della popolazione, la distribuzione del campione e la distribuzione del campionamento. Lo dico ripetutamente durante la lezione, e poi ripetutamente durante il corso. Ogni volta che dico questi termini sottolineo il finale distintivo: Sam- pio , samp- ling . (Sì, gli studenti si ammalano di questo; ottengono anche il concetto.)
  • Usa immagini (figure): ho una serie di figure standard che utilizzo ogni volta che ne parlo. Ha le tre distribuzioni illustrate distintamente e tipicamente etichettate. (Le etichette che seguono questa figura si trovano sulla diapositiva di PowerPoint e includono brevi descrizioni, quindi non vengono visualizzate qui, ma ovviamente è: popolazione in alto, quindi campioni, quindi distribuzione campionaria.)
    inserisci qui la descrizione dell'immagine
  • Offri agli studenti attività: la prima volta che introduci questo concetto, porta un rotolo di nickles (alcuni quarti possono scomparire) o un mazzo di dadi a 6 facce. Chiedi agli studenti di formare piccoli gruppi e generare un insieme di 10 valori e calcolarli in media. Quindi puoi creare un istogramma sulla lavagna o con Excel.
  • Usa animazioni (simulazioni): scrivo del codice (comicamente inefficiente) in R per generare dati e visualizzarli in azione. Questa parte è particolarmente utile quando si passa alla spiegazione del Teorema del limite centrale. (Nota le Sys.sleep()dichiarazioni, queste pause mi danno un momento per spiegare cosa sta succedendo in ogni fase.)
N = 10
number_of_samples = 1000


iterations  = c(3, 7, number_of_samples)  
breakpoints = seq(10, 91, 3)  
meanVect    = vector()  
x           = seq(10, 90)  
height      = 30/dnorm(50, mean=50, sd=10)  
y           = height*dnorm(x, mean=50, sd=10)  

windows(height=7, width=5)  
par(mfrow=c(3,1), omi=c(0.5,0,0,0), mai=c(0.1, 0.1, 0.2, 0.1))  

for(i in 1:iterations[3]) {  
  plot(x,y, type="l", col="blue", axes=F, xlab="", ylab="")  
  segments(x0=20, y0=0, x1=20, y1=y[11], col="lightgray")  
  segments(x0=30, y0=0, x1=30, y1=y[21], col="gray")  
  segments(x0=40, y0=0, x1=40, y1=y[31], col="darkgray")  
  segments(x0=50, y0=0, x1=50, y1=y[41])  
  segments(x0=60, y0=0, x1=60, y1=y[51], col="darkgray")  
  segments(x0=70, y0=0, x1=70, y1=y[61], col="gray")  
  segments(x0=80, y0=0, x1=80, y1=y[71], col="lightgray")  
  abline(h=0)  

  if(i==1) {  
    Sys.sleep(2)  
  }  
  sample = rnorm(N, mean=50, sd=10)  
  points(x=sample, y=rep(1,N), col="green", pch="*")  

  if(i<=iterations[1]) {  
    Sys.sleep(2)  
  }  
  xhist1 = hist(sample, breaks=breakpoints, plot=F)  
  hist(sample, breaks=breakpoints, axes=F, col="green", xlim=c(10,90),  
       ylim=c(0,N), main="", xlab="", ylab="")  
  if(i==iterations[3]) {  
    abline(v=50)  
  }  

  if(i<=iterations[2]) {  
    Sys.sleep(2)  
  }  
  sampleMean = mean(sample)  
  segments(x0=sampleMean, y0=0, x1=sampleMean,   
           y1=max(xhist1$counts)+1, col="red", lwd=3)  

  if(i<=iterations[1]) {  
    Sys.sleep(2)  
  }  
  meanVect = c(meanVect, sampleMean)  
  hist(meanVect, breaks=x, axes=F, col="red", main="",   
       xlab="", ylab="", ylim=c(0,((N/3)+(0.2*i))))  
  if(i<=iterations[2]) {  
    Sys.sleep(2)  
  }  
}  

Sys.sleep(2)  
xhist2 = hist(meanVect, breaks=x, plot=F)  
xMean  = round(mean(meanVect), digits=3)  
xSD    = round(sd(meanVect), digits=3)  
histHeight = (max(xhist2$counts)/dnorm(xMean, mean=xMean, sd=xSD))  
lines(x=x, y=(histHeight*dnorm(x, mean=xMean, sd=xSD)),   
      col="yellow", lwd=2)  
abline(v=50)  

txt1 = paste("population mean = 50     sampling distribution mean = ",  
             xMean, sep="")  
txt2 = paste("SD = 10     10/sqrt(", N,") = 3.162     SE = ", xSD,  
            sep="")  
mtext(txt1, side=1, outer=T)  
mtext(txt2, side=1, line=1.5, outer=T)  
  • Reinventare questi concetti nel corso del semestre: riaffaccio l'idea della distribuzione campionaria ogni volta che parliamo dell'argomento successivo (anche se in genere solo molto brevemente). Il posto più importante per questo è quando insegni all'ANOVA, in quanto il caso di ipotesi nulla c'è davvero la situazione in cui hai campionato più volte dalla stessa distribuzione della popolazione, e il tuo gruppo significa che in realtà è una distribuzione empirica di campionamento. (Per un esempio di questo, vedi la mia risposta qui: come funziona l'errore standard? ).

1
Questa è una buona risposta (+1). In particolare, penso che le attività e le simulazioni siano molto utili per insegnare questa materia. In un corso introduttivo ho insegnato alcune volte che abbiamo usato un'applet web che ha permesso agli studenti di visualizzare come la statistica viene calcolata dal campione e come l'istogramma della distribuzione del campionamento inizia a prendere forma quando lo ripeti molte volte. Penso che l'attività abbia aiutato molto più di ogni altra cosa che abbia mai detto agli studenti quando si è trattato di comprendere le distribuzioni di campionamento :)
Macro

+1 Grazie Gung, è un'ottima risposta! Grazie per "me l'invio del codez" troppo (nb utenti. Mac sostituire windows(...)con quartz(...)). Il tuo punto di rafforzare il concetto per tutto il semestre è particolarmente utile. Penso che seguire queste linee guida sarà davvero utile.
smillig

(+1) per il mantra delle "3 distribuzioni" e per il quadro relazionale. Nessuno può capire un concetto senza prima capire che è, in effetti, un concetto distinto .
Alecos Papadopoulos,

Ho trovato molto utile la pagina " stat book online " della Rice University sulla distribuzione campionaria. La versione originale, vecchia di molti anni, presentava un'applet Java, ma sono lieto che lo abbiano recentemente rifatto in Javascript. Il modo in cui funziona è sostanzialmente identico al tuo diagramma.
Silverfish,

8

Ho avuto un po 'di fortuna nel ricordare agli studenti che la distribuzione del campionamento è la distribuzione della statistica del test basata su un campione casuale . Ho gli studenti che pensano che ciò che accadrebbe nel processo di campionamento stesso fosse di parte - concentrandosi su casi estremi. Ad esempio, che aspetto avrebbe la "distribuzione di campionamento" se il nostro processo di campionamento scegliesse sempre lo stesso sottoinsieme (speciale). Quindi prenderei in considerazione l'aspetto della "distribuzione di campionamento" se il nostro processo di campionamento selezionasse solo due sottoinsiemi (speciali) specifici (ciascuno con probabilità 1/2). Questi sono piuttosto semplici da elaborare con la media campionaria (specialmente per particolari scelte di "speciali" per la popolazione sottostante).

Penso che per alcuni (chiaramente non tutti) studenti questo possa aiutarli con l'idea che la distribuzione del campionamento possa essere molto diversa dalla distribuzione della popolazione. Ho anche usato l'esempio del teorema del limite centrale che Michael Chernick ha menzionato con un certo successo, specialmente con distribuzioni che non sono chiaramente normali (le simulazioni sembrano davvero aiutare).


Graham Cookson ha un piacevole esercizio in classe pubblicato come risposta in "Qual è la spiegazione del tuo profano preferito per un difficile concetto statistico?" - una wiki della comunità.
shoda,

+1, parlando di quale sarebbe la distribuzione campionaria di campioni non casuali è una buona idea.
gung - Ripristina Monica

+1 Ottima idea sulla selezione del sottoinsieme! Penso che questo sia il link a cui ti riferisci a @shoda: stats.stackexchange.com/a/554/9249
smillig

7

Ricomincio con l'insegnamento della probabilità. Non entro in molte definizioni e regole formali (ma non abbastanza tempo), ma mostra la probabilità mediante simulazione. Il problema di Monty Hall è un ottimo esempio da usare, mostro attraverso la simulazione (e poi il follow-up con la logica) che la strategia di passaggio offre una maggiore probabilità di vincita. Sottolineo che con la simulazione siamo stati in grado di giocare molte volte (senza rischio o ricompensa) per valutare le strategie e che ci consente di scegliere la strategia migliore (se mai ci troviamo in quella situazione). Scegliere la strategia migliore non garantisce una vittoria, ma ci dà una migliore possibilità e aiuta a scegliere tra le strategie. Sottolineo quindi che ciò si applicherà al resto del corso è che ci aiuterà a scegliere le strategie in cui esiste una componente casuale,

Quindi, quando presento la distribuzione del campionamento, ricomincio dalla simulazione e dico che vogliamo sviluppare strategie. Proprio come con il problema di Monty Hall, nella vita reale saremo in grado di prelevare solo 1 campione, ma possiamo simulare un mucchio di campioni per aiutarci a sviluppare una strategia. Mostrerò quindi simulazioni di molti campioni della stessa popolazione (popolazione nota in questo caso) e mostrerò le relazioni che apprendiamo dalle simulazioni (istogramma dei mezzi di campionamento), ovvero campioni significa raggruppati attorno alla media reale (la media dei mezzi è media) , deviazione standard più piccola della distribuzione campionaria per campioni più grandi, più normale per campioni più grandi. Per tutto il tempo che parlo di ripetere le idee di simulazione per scegliere le strategie, proprio la stessa idea del problema di Monty Hall ora applicato ai mezzi di campionamento anziché agli spettacoli di gioco. Mostro quindi le regole ufficiali e dico che oltre alle simulazioni possono essere dimostrate matematicamente, ma non infetterò le prove sull'intera classe. Offro che se vogliono davvero vedere le prove matematiche possono arrivare a un'ora di ufficio e mostrerò loro la matematica (nessuno delle classi introduttive mi ha ancora preso su questo).

Quindi, quando arriviamo all'inferenza, dico che saremo in grado di prendere solo 1 campione nel mondo reale, proprio come avremmo potuto giocare il gioco solo 1 volta (al massimo), ma possiamo usare le strategie che abbiamo imparato simulando molti campioni per sviluppare una strategia (z-test, t-test o formula CI) che ci darà le proprietà scelte (possibilità di essere corrette). Proprio come nel gioco, non sappiamo prima di iniziare se la nostra conclusione finale sarà corretta (e di solito non lo sappiamo più dopo), ma dalle simulazioni e dalla distribuzione campionaria sappiamo quali sono le probabilità a lungo termine quella strategia.

Il 100% degli studenti ha una comprensione perfetta? no, ma penso che molti di loro abbiano l'idea generale che possiamo usare la simulazione e le regole matematiche (che sono contenti di non dover guardare, fidati solo del libro / istruttore) per scegliere una strategia / formula che abbia il proprietà desiderate.


+1 Grazie per aver condiviso questo consiglio. Penso che tu l'abbia risolto con il problema che è il collegamento tra ciò che possiamo insegnare su ciò che è la distribuzione del campionamento rispetto a come ciò può essere estrapolato all'inferenza da un singolo campione. Come hai suggerito tu (e altri qui), continuare a reiterare il concetto più volte nel corso del corso è importante, ma non è spesso fatto (almeno non da parte mia, probabilmente perché trovo già abbastanza difficile adattarmi a tutto ciò che voglio, figuriamoci tornando a concetti già trattati!).
smillig

3

Questo è un problema molto importante e ben ponderato da parte tua. Penso che il concetto di distribuzione campionaria sia di base per comprendere l'inferenza e che sicuramente dovrebbe essere insegnato.

Ho insegnato molti corsi di statistica introduttiva in particolare sulla biostatistica. Insegno il concetto di distribuzione campionaria e ho approcci che ritengo siano buoni, ma in realtà non ho un buon feedback per determinare quanto successo ho avuto con loro. Comunque qui è quello che faccio.

Per prima cosa provo a dare una definizione semplice. La distribuzione del campionamento è la distribuzione che avrebbe la statistica del test se il processo del campione venisse ripetuto più volte. Dipende dalla distribuzione della popolazione da cui si presume che i dati siano generati.

Anche se penso che questa sia una definizione quanto più semplice che posso dare, mi rendo conto che non è molto semplice e la comprensione del concetto non verrà immediatamente nella maggior parte dei casi. Quindi seguitelo con un esempio di base che rafforza ciò che viene detto con la definizione.

22

Quindi vorrei seguire questo con un'applicazione importante, il teorema del limite centrale. In parole povere il teorema del limite centrale afferma che per molte distribuzioni che non sono normali la distribuzione campionaria per la media campionaria sarà vicina a una distribuzione normale quando la dimensione del campione n è grande. Per illustrare questo prendere distribuzioni come l'uniforme (una distribuzione bimodale sarebbe anche una buona idea) e mostrare come appare la distribuzione campionaria per la media per dimensioni del campione di 3, 4, 5, 10 e 100. Lo studente può vedere come la forma della distribuzione cambia da qualcosa che non sembra affatto normale per i piccoli n a qualcosa che assomiglia molto a una distribuzione normale per grandi n.

Per convincere lo studente che queste distribuzioni campionarie hanno davvero queste forme, gli studenti conducono simulazioni che generano molti campioni di varie dimensioni e calcolano i mezzi di campionamento. Quindi fai in modo che generino istogrammi per queste stime della media. Suggerirei anche di applicare una dimostrazione fisica che mostra come funziona usando una tavola di quinconce. Mentre fai questo, fai notare come il dispositivo genera campioni della somma delle prove indipendenti di Bernoulli in cui la probabilità di andare a sinistra o a destra ad ogni livello è 1/2. Le pile risultanti nella parte inferiore rappresentano un istogramma per questa distribuzione di campionamento (il binomio) e la sua forma può apparire approssimativamente normale dopo che un gran numero di sfere atterra nella parte inferiore del quinconce,


Grazie per i preziosi suggerimenti. Mi piace molto l'idea di una vera dimostrazione fisica e proverò sicuramente a implementare qualcosa del genere (supponendo che io possa distrarli da Facebook per un tempo abbastanza lungo ...), anche se il collegamento con la somma delle prove indipendenti di Bernoulli è probabilmente un po 'al di sopra della loro teste! Grazie.
smillig

1
Ma vedere la normale forma di distribuzione dell'esperimento è davvero sorprendente. Ho visto una di queste dimostrazioni per la prima volta al Science Museum di Chicago da bambino (circa 10 anni). Allora non sapevo nulla delle statistiche ma non ho mai dimenticato la curva.
Michael R. Chernick,

1

Penso che sarebbe bello mettere una "popolazione" di numeri in una borsa (che vanno ad esempio da 1 a 10). Puoi creare le tue tessere o utilizzare monete, carte da gioco, ecc.

Fai in modo che gli studenti siedano in gruppo (5 o più) e ognuno sceglie un numero dalla borsa. Ogni gruppo quindi calcola il valore medio per il loro gruppo. Spiega loro che in precedenza hai elaborato la media della popolazione, tracciala su un istogramma e fai venire un membro di ciascun gruppo e traccia la loro media campionaria su uno storico intorno a questo. Fagli fare alcune volte questa esercitazione per "costruire l'istogramma".

Sarai quindi in grado di mostrare graficamente la variazione delle medie campionarie intorno alla media della popolazione. Calcola la variazione delle medie del campione rispetto alla media della popolazione. Penso che gli studenti ricordino distintamente di aver fatto un esercizio così pratico e di conseguenza il concetto di variazione del campionamento tornerà più facilmente a loro. Potrebbe sembrare un po 'infantile, ma a volte gli studenti semplicemente come un cambiamento per fare qualcosa di attivo .... non ci sono molte opportunità di farlo nelle statistiche.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.