Quali sono buoni esempi da mostrare agli studenti universitari?


9

Insegnerò statistica come assistente di insegnamento per la seconda metà di questo semestre a studenti universitari orientati al CS. La maggior parte degli studenti della classe non ha alcun incentivo per apprendere la materia e l'ha presa solo per esigenze importanti. Voglio rendere la materia interessante e utile, non solo una lezione che imparano a far passare un B +.

Come studente di dottorato in matematica pura sapevo poco sul lato reale applicato. Voglio chiedere alcune applicazioni nella vita reale delle statistiche universitarie. Esempi che sto cercando sono quelli (nello spirito) come:

1) Mostrare il teorema del limite centrale è utile per alcuni dati campione di grandi dimensioni.

2) Fornisci un contro-esempio che il teorema del limite centrale non è applicabile (diciamo quelli che seguono la distribuzione di Cauchy).

3) Mostrare come funziona il test di ipotesi in famosi esempi di vita reale usando Z-test, t-test o qualcosa del genere.

4) Mostrare come ipotesi iniziale errata o errata potrebbe dare risultati errati.

5) Mostrare come il valore di p e l'intervallo di confidenza funzionavano in casi di vita reale (ben noti) e dove non funzionano così bene.

6) Allo stesso modo errori di tipo I, tipo II, potenza statistica, livello di rifiuto , ecc.α

Il mio problema è che mentre ho molti esempi sul lato della probabilità (lancio di monete, lancio di dadi, rovina del giocatore d'azzardo, martingala, camminata casuale, paradosso di tre prigionieri, problema di sala monty, metodi di probabilità nella progettazione di algoritmi, ecc.), Non so come molti esempi canonici sul lato statistico. Ciò che intendo sono esempi seri e interessanti che hanno un certo valore pedagogico, e non è un trucco estremamente artificiale che sembra molto distaccato dalla vita reale. Non voglio dare agli studenti la falsa impressione che Z-test e t-test siano tutto. Ma a causa del mio background matematico puro non conosco abbastanza esempi per rendere la classe interessante e utile per loro. Quindi sto cercando aiuto.

Il livello del mio studente si basa sul calcolo I e sul calcolo II. Non possono nemmeno mostrare che la varianza della norma standard è 1 per definizione in quanto non sanno come valutare il kernel gaussiano. Quindi qualsiasi cosa leggermente teorica o computazionale pratica (come la distribuzione ipergeometrica, la legge dell'arcosina nella camminata casuale 1D) non funzionerà. Voglio mostrare alcuni esempi che possono capire non solo "come", ma anche "perché". Altrimenti non sono sicuro se dimostrerò ciò che ho detto con l'intimidazione.


2
n=100n=1000n=1010

3
Il teorema di Berry-Esseen (che mi aspetto che tu non insegni a quel livello) potrebbe essere usato con campioni finiti. Informalmente ovviamente, i mezzi di campionamento di particolari distribuzioni diventano sempre più normali all'aumentare delle dimensioni dei campioni, ma non possiamo davvero dire "questo è il teorema del limite centrale", dal momento che il CLT in realtà non dice nulla al riguardo. Inoltre, per mostrare che le cose si avvicinano costantemente a una distribuzione normale, è necessaria una sequenza di dimensioni del campione. Nella raccolta di dati nel mondo reale questo è comune solo nei dati raccolti nel tempo (quindi se stai assumendo IID, potresti avere qualche difficoltà).
Glen_b

2
Ci sono dati reali (da un esperimento - anche se in qualche modo artificiale) impostati - 40000 lanci di monete - collegati da qui
Glen_b -Reststate Monica

1
Puoi mostrare loro qualcosa su come comportarsi con il campione in determinate situazioni con l'aumentare della dimensione del campione - è abbastanza utile; non è semplicemente preciso attribuirlo al CLT. I dati sul lancio della moneta possono essere utili per questo (così come i dati che si generano in modo simile). Tuttavia, potresti voler leggere le informazioni sul link prima di ottenere i dati, perché c'è una caratteristica importante dei dati (che è anche la motivazione per raccoglierli in primo luogo).
Glen_b

1
Esempi di quasi tutto ciò che elenchi sono forniti in testi introduttivi come Freedman, Pisani e Purves . (Ho collegato alla terza edizione, che puoi facilmente trovare usata per meno di $ 10 USA. Qualsiasi edizione andrà bene; l'ultima edizione può avere esempi più aggiornati.)
whuber

Risposte:


1

Un buon modo può essere quello di installare R ( http://www.r-project.org/ ) e usare i suoi esempi per insegnare. È possibile accedere alla guida in R con i comandi "? T.test" ecc. Alla fine di ogni file della guida sono riportati degli esempi. Per t.test, ad esempio:

> t.test(extra ~ group, data = sleep)

        Welch Two Sample t-test

data:  extra by group
t = -1.8608, df = 17.776, p-value = 0.07939
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -3.3654832  0.2054832
sample estimates:
mean in group 1 mean in group 2 
           0.75            2.33 

>  plot(extra ~ group, data = sleep)

inserisci qui la descrizione dell'immagine


1

Suggerisco un'applicazione del teorema del limite centrale per la predeterminazione della dimensione del campione e per trovare una risposta a domande come "ho inviato abbastanza questionari" ecc.

http://web.as.uky.edu/statistics/users/pbreheny/580-F10/notes/9.pdf fornisce un ottimo esempio del mondo reale di come applicare il teorema del limite centrale. Una strategia didattica potrebbe essere:

A) teoria

* chiarire la differenza tra una distribuzione di campionamento e la distribuzione di una stima, ad esempio mediante la distribuzione "piatta" del lancio di un dado rispetto alla distribuzione della media di N dadi (usare R o lasciare che gli studenti giochino con il disegno Excel singolo -valore distribuzioni vs. distribuzione di mezzi)

* mostra il calcolo basato su formula dei percentili per la distribuzione della media (poiché sei in profondità in matematica, potresti voler derivare la formula) - questo punto corrisponde alle diapositive 10-17 nella presentazione collegata sopra

e quindi (come nella diapositiva 20 della presentazione collegata sopra):

B) applicazione

* mostra come il teorema del limite centrale aiuta a determinare le dimensioni del campione per una precisione desiderata nelle stime della media

Questa applicazione B) è ciò che nella mia esperienza i non statistici si aspettano da uno statistico: rispondere a domande del tipo "ho abbastanza dati?"


1

Dato che stai insegnando agli studenti CS, una buona applicazione del Teorema del limite centrale potrebbe essere quella di stimare la media da un set di dati di grandi dimensioni (cioè> 100 milioni di record). Potrebbe essere istruttivo dimostrare che non è necessario calcolare la media per l'intero set di dati, ma invece per campionare dal set di dati e utilizzare la media di esempio per stimare la media dall'intero set di dati / database. È possibile fare un ulteriore passo avanti se si desidera e simulare un set di dati con valori drasticamente diversi per diversi sottogruppi. Potresti quindi fare in modo che gli studenti esplorino il campionamento stratificato per ottenere stime più accurate.

Ancora una volta, poiché ci sono studenti CS, potresti voler fare un bootstrap per ottenere anche intervalli di confidenza o per stimare le varianze di statistiche più complesse. Questa è una bella intersezione tra statistica e computer poiché, a mio avviso, potrebbe portare a un maggiore interesse per la materia.


1

Ho iniziato digitando un commento ma è diventato troppo lungo ...

σ

Quindi, secondo me, gli piacerà se presenti l'inferenza dal punto di vista dell '"apprendimento", e se presenti test dal punto di vista della "teoria delle decisioni" o della "classificazione" - in breve, si suppone come gli algoritmi. Grok algoritmi!

Inoltre, prova a trovare set di dati relativi a CS; ad esempio, la durata delle connessioni e il numero di richieste per unità di tempo a un server html possono aiutare a illustrare molti concetti.

Ameranno imparare le tecniche di simulazione. I generatori Lehmer sono facili da implementare. Mostra loro come simulare altre distribuzioni invertendo il cdf. Se ti piace, mostra loro l'algoritmo Ziggurat di Marsaglia. Oh, e il generatore MWC256 di Marsaglia è un piccolo gioiello. I test Diehard di Marsaglia (test per l'equità dei generatori uniformi) possono aiutare a illustrare molti concetti di probabilità e statistica. Puoi anche scegliere di presentare la teoria della probabilità basata su "flussi (indipendenti) di doppi casuali, oup, intendo reali" - questo è un po 'sfacciato, ma può essere grandioso.

t

Se padroneggi abbastanza il tuo argomento, non esitare a essere originale. Le lezioni "classiche" vanno bene quando insegni qualcosa con cui non hai familiarità. Buona fortuna, e se rilasci alcuni appunti della lezione, fammi sapere!


1

Dici che sono studenti di informatica. Quali sono i loro interessi, questa è principalmente informatica teorica o gli studenti sono principalmente motivati ​​a prepararsi per un lavoro? Potresti anche dirci qual è la descrizione del corso!

Tuttavia, qualunque sia la tua risposta a queste domande, potresti iniziare con alcune statistiche pratiche che si verificano in contesti informatici, come (ad esempio) il web design. Questo sito di volta in volta ha domande su questo, come i tassi di conversione nel tempo o /stats/96853/comparing-sales-person-conversion-rates o AB Test di altri fattori oltre al tasso di conversione .

Ci sono molte domande come queste, apparentemente da persone coinvolte nel web design. La situazione è che hai qualche pagina web (per esempio, vendi qualcosa). Il "tasso di conversione", a quanto ho capito, è la percentuale di visitatori che passano a un'attività preferita (come l'acquisto o qualche altro obiettivo che hai per i tuoi visitatori). Quindi tu, come web designer, chiedi se il layout della pagina influenza questo comportamento. Quindi programmate due (o più) versioni della pagina Web, scegliete in modo casuale quale versione presentare ad un nuovo cliente, quindi potete confrontare i tassi di conversione e infine scegliere di implementare la versione con il tasso di conversione più elevato.

Questo è un problema di progettazione di un esperimento di confronto e sono necessari metodi statistici per confrontare le percentuali o forse direttamente la tabella di contingenza dei progetti rispetto a convertire / non convertire. Quell'esempio potrebbe mostrare loro che le statistiche potrebbero effettivamente essere utili per loro in alcuni lavori di sviluppo web! E, dal punto di vista statistico, si apre a molte domande interessanti sulla validità delle ipotesi ...

Per connetterti a ciò che dici sul teorema del limite centrale, puoi chiedere quante osservazioni hai bisogno prima di poter trattare le percentuali come normalmente distribuite e farle studiare usando la simulazione ...

Puoi cercare in questo sito altre domande sulle statistiche poste dai tipi di programmatore ...


-2

Suggerisco che, prima di ogni buon esempio, sia meglio concentrarsi su definizioni chiare. Nella mia esperienza, probabilità di laurea e statistiche è un corso pieno di parole che nessuno degli studenti capisce. Come esperimento, chiedi agli studenti che hanno appena finito un corso di probabilità che cos'è una "variabile casuale". Potrebbero darti degli esempi, ma dubito che molti ti daranno una chiara definizione. Cos'è esattamente la "probabilità"? Che cos'è una "distribuzione"? La terminologia nelle statistiche è ancora più confusa. La maggior parte dei libri di laurea che ho visto fanno un pessimo lavoro nel spiegare questo. Esempi e calcoli sono belli, ma senza definizioni chiare non è così utile come si potrebbe pensare. Parlando della mia esperienza, questo era esattamente il motivo per cui odiavo la teoria della probabilità come studente universitario. Anche se i miei interessi sono stati allontanati dalla probabilità quanto più si può avere, ora apprezzo l'argomento, perché alla fine mi sono insegnato cosa significa veramente tutta la terminologia. Mi scuso che non sia esattamente quello che hai chiesto, ma dato che stai insegnando in una classe del genere, ho pensato che sarebbe stato un consiglio utile.


1
Non sono sicuro di essere d'accordo - almeno non nella maggior parte / in tutti i casi. Per alcuni, la comprensione concettuale può, come suggerisci, precedere l'applicazione a esempi particolari, ma per altri studenti, la comprensione concettuale (specialmente per argomenti complicati) può avvenire solo attraverso l'uso di un esempio particolarmente illuminante.
jsakaluk,

Quando ero studente, generalmente non avevo difficoltà a leggere la matematica per i laureati e a risolvere i problemi lì. Sapevo cosa stavo facendo e cosa dovevo fare. La teoria della probabilità, o statistica, è "più facile" delle materie che stavo imparando. Ma non avevo idea di cosa stavo facendo o perché dovessi farlo. I libri di testo stessi sono stati del tutto inutili per me. Dopo averli letti, non ho capito bene il vocabolario. Certo, posso fare i calcoli ma alla fine della giornata, l'ho visto come un argomento vuoto. Se avessi questa confusione, al fortiorti, lo fanno anche gli studenti non inclini alla matematica.
Nicolas Bourbaki,

5
Mi chiedo se questo potrebbe essere un consiglio più utile per insegnare probabilmente a studenti molto brillanti con una laurea in matematica pura che per insegnare le statistiche applicate ai maggiori CS.
Silverfish,

@Silverfish Non sono sicuro che il mio consiglio sia applicabile solo agli studenti di matematica. Si può sviluppare il linguaggio della teoria della misura e mostrare come la probabilità è espressa in essa, senza entrare nella teoria. Questo non è davvero diverso dal calcolo di base. La maggior parte dei libri almeno definisce i loro termini, ma non entrano nella loro teoria. Se gli studenti capissero che la statistica è il problema inverso della probabilità e che, per esempio, "ci preoccupiamo" della media perché si avvicina al valore atteso di una variabile casuale, allora potrebbero apprezzarla molto di più.
Nicolas Bourbaki,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.