Qual è la spiegazione del tuo profano preferito per un difficile concetto statistico?


36

Mi piace molto ascoltare spiegazioni semplici a problemi complessi. Qual è la tua analogia o aneddoto preferito che spiega un difficile concetto statistico?

La mia preferita è la spiegazione di Murray sull'integrazione delle monete usando un ubriacone e il suo cane. Murray spiega come due processi casuali (un ubriaco ubriaco e il suo cane, Oliver) possano avere radici unitarie ma essere comunque collegati (cointegrati) poiché le loro prime differenze congiunte sono stazionarie.

L'ubriaco si avvia dal bar, sta per vagare senza meta in modo casuale. Ma periodicamente intona "Oliver, dove sei?", E Oliver interrompe il suo vagare senza meta per abbaiare. La sente; lei lo sente. Pensa: "Oh, non posso lasciarla andare troppo lontano; mi rinchiuderà." Lei pensa: "Oh, non posso lasciarlo andare troppo lontano; mi sveglierà nel mezzo della notte con il suo abbaiare." Ciascuno valuta quanto è distante l'altro e si sposta per colmare parzialmente tale divario.

Risposte:


18

Un valore p è una misura di quanto siano imbarazzanti i dati per l'ipotesi nulla

Nicholas Maxwell, Data Matters: Statistiche concettuali per un mondo casuale Emeryville CA: Key College Publishing, 2004.


15
  1. Se hai scolpito la tua distribuzione (istogramma) dal legno e hai cercato di bilanciarlo sul dito, il punto di equilibrio sarebbe la media, indipendentemente dalla forma della distribuzione.

  2. Se metti un bastone nel mezzo del diagramma a dispersione e lo attacchi a ciascun punto dati con una molla, il punto di riposo del bastone sarebbe la tua linea di regressione. [1]

[1] questo sarebbe tecnicamente la regressione dei componenti principali. dovresti forzare le molle a muoversi solo "verticalmente" per essere i minimi quadrati, ma l'esempio è illustrativo in entrambi i modi.


2
La forza della molla è proporzionale alla deformazione, quindi questa non è una regressione dei minimi quadrati!
Shabbychef,

1
Bel tentativo! Dipende dalla primavera. Ad esempio, se la costante di primavera è 1 / sigma, funziona alla grande;)
Neil McGuigan

2
no, no, il punto è che in equilibrio statico, la somma delle forze sarebbe zero; assumendo costanti di molla uguali, si minimizzerebbe la somma delle deviazioni assolute, cioè la regressione , non da ultimo i quadrati. Ciò ignora il fatto che le molle dovrebbero fluttuare liberamente sull'asta, quindi si sposteranno in modo che la deformazione non sia interamente nella direzione , risultando in qualcosa di simile a un componente principale, ma con errori assoluti. L1y
shabbychef,

@shabbychef: la forza della molla proporzionale alla deformazione significa che l'energia della molla è proporzionale alla deformazione quadrata. L'energia di primavera è davvero ciò che è minimizzato all'equilibrio. La somma delle forze essendo zero non è forze o viene minimizzato. L 1 minimizza la somma dei valori assoluti. L1L1
wnoise,

12

Ho già usato la passeggiata dell'ubriacone prima per una passeggiata casuale, e l'ubriaco e il suo cane per la cointegrazione; sono molto utili (in parte perché sono divertenti).

Uno dei miei esempi comuni preferiti è il paradosso del compleanno ( voce di Wikipedia ), che illustra alcuni importanti concetti di probabilità. Puoi simularlo con una stanza piena di persone.

Per inciso, consiglio vivamente "Teaching Statistics: A Bag of Tricks" di Andrew Gelman per alcuni esempi di modi creativi per insegnare concetti statistici (vedere il sommario ). Guarda anche il suo articolo sul corso che insegna sulla statistica dell'insegnamento: "Un corso sull'insegnamento delle statistiche a livello universitario" . E su "Insegnare a Bayes a laureandi in scienze politiche, sociologia, sanità pubblica, istruzione, economia, ..." .

Per descrivere i metodi bayesiani, usare una moneta ingiusta e lanciarla più volte è un approccio piuttosto comune / efficace.



11

Mi piace dimostrare la variazione del campionamento ed essenzialmente il Teorema del limite centrale attraverso un esercizio "in classe". Tutti nella classe di 100 studenti scrivono la loro età su un pezzo di carta. Tutti i pezzi di carta sono dello stesso formato e piegati nello stesso modo dopo aver calcolato la media. Questa è la popolazione e calcolo l'età media. Quindi ogni studente seleziona casualmente 10 pezzi di carta, annota le età e li riporta nella borsa. (S) calcola la media e passa la borsa allo studente successivo. Alla fine abbiamo 100 campioni di 10 studenti ciascuno stimando la media della popolazione che possiamo descrivere attraverso un istogramma e alcune statistiche descrittive.

Ripetiamo quindi la dimostrazione questa volta utilizzando una serie di 100 "opinioni" che replicano alcune domande Sì / No dei recenti sondaggi, ad esempio se domani si chiamassero le elezioni (del generale britannico), prenderesti in considerazione la possibilità di votare per il Partito nazionale britannico. Gli studenti li campionano 10 di queste opinioni.

Alla fine abbiamo dimostrato la variazione del campionamento, il Teorema del limite centrale, ecc. Con dati sia continui che binari.


10

Sicuramente il problema di Monty Hall. http://en.wikipedia.org/wiki/Monty_Hall_problem


1
+1 quel problema mi ha distorto il cervello quando l'ho letto per la prima volta e ci ho pensato- e la soluzione è piuttosto semplice ma insegna molto sulla probabilità.
Sharpie,

1
Trovo che il problema di Monty Hall sia tutt'altro che una semplice spiegazione della probabilità da parte di un laico. Lo capisco, ma ho ancora difficoltà a avvolgerci la testa, figuriamoci a capirlo abbastanza bene da spiegarlo a una persona non statista e fargli imparare qualcosa da esso ... Comunque, non specifichi se il problema è il tuo concetto difficile o la spiegazione del tuo profano . -1 fino a quando non lo fai.
niente101

2
Il modo più semplice per spiegare il problema di Monty Hall è immaginare lo stesso problema ma con 1000 porte - 999 di loro hanno una capra dietro di loro e solo 1 di loro ha un'auto dietro. Supponiamo che tu scelga una porta e che l'host del game show apra altre 998 porte e ti chieda se vuoi cambiare la tua decisione in quella che non ha aperto. Sapendo che non avrebbe potuto aprire la porta con la macchina dietro di esso, si dovrebbe avere per passare a l'altra porta (o essere ridicolmente sicuri che lei ha fatto bene nella vostra scelta iniziale).
Berk U.

10

1) Una buona dimostrazione di come definire "casuale" per determinare la probabilità di determinati eventi:

Qual è la possibilità che una linea casuale tracciata attraverso un cerchio sia più lunga del raggio?

La domanda dipende totalmente da come si disegna la linea. Le possibilità che puoi descrivere in modo reale per un cerchio disegnato sul terreno potrebbero includere:

Disegna due punti casuali all'interno del cerchio e traccia una linea attraverso quelli. (Vedi dove cadono due mosche / pietre ...)

Scegli un punto fisso sulla circonferenza, quindi uno casuale altrove nel cerchio e unisciti a quelli. (In effetti questo sta ponendo un bastone attraverso il cerchio ad un angolo variabile attraverso un dato punto e uno casuale, ad esempio dove cade una pietra.)

Disegna un diametro. Scegli casualmente un punto lungo di esso e traccia un perpendicolare attraverso quello. (Fai rotolare un bastone lungo una linea retta in modo che poggi sul cerchio.)

È relativamente facile mostrare a qualcuno che può fare un po 'di geometria (ma non necessariamente statistiche) la risposta alla domanda può variare abbastanza ampiamente (da circa 2/3 a circa 0,866 circa).

(1210)

3) Spiegare perché la diagnosi medica può sembrare davvero imperfetta. Un test per il foo della malattia che è accurato al 99,9% nell'identificare coloro che ce l'hanno ma l'1% diagnostica in modo falso-positivo coloro che non lo hanno davvero può sembrare che si sbagli molto spesso quando la prevalenza della malattia è molto bassa ( ad es. 1 su 1000) ma molti pazienti vengono testati per questo.

Questo è quello che è meglio spiegato con numeri reali - immagina che 1 milione di persone siano testate, quindi 1000 hanno la malattia, 999 sono identificate correttamente, ma lo 0,1% di 999.000 è 999 a cui viene detto che ce l'hanno ma non lo fanno. Quindi la metà di coloro a cui viene detto che ce l'hanno effettivamente no, nonostante l'alto livello di precisione (99,9%) e il basso livello di falsi positivi (0,1%). Un secondo test (idealmente diverso) separerà quindi questi gruppi.

[Per inciso, ho scelto i numeri perché sono facili da lavorare, ovviamente non devono aggiungere fino al 100% poiché l'accuratezza / i tassi di falsi positivi sono fattori indipendenti nel test.]


2
Penso che il tuo primo esempio si riferisca al paradosso di Bertrand. Molto bella illustrazione dei diversi modi di definire uno spazio probabilistico!
chl

9

Il libro Flaw of Averages di Sam Savage è pieno di buone spiegazioni profane di concetti statistici. In particolare, ha una buona spiegazione della disuguaglianza di Jensen. Se il grafico del tuo ritorno su un investimento è convesso, cioè "ti sorride", allora la casualità è a tuo favore: il tuo rendimento medio è maggiore del tuo rendimento in media.



6

Behar et al hanno una raccolta di 25 analogie per l'insegnamento delle statistiche. Ecco due esempi:

2.9 Tutti i modelli sono teorici: Non ci sono sfere perfette nell'universo Sembra che la forma geometrica più comune nell'universo sia la sfera. Ma quante sfere matematicamente perfette ci sono nell'universo? La risposta è nessuna Né la Terra, né il Sole, né una palla da biliardo sono una sfera perfetta. Quindi, se non ci sono sfere vere, a che servono le formule per accertare l'area o il volume di una sfera? Lo stesso vale per i modelli statistici in generale e, in particolare, con una distribuzione normale. Sebbene uno degli esempi più comuni sia la distribuzione dell'altezza, se avessimo a disposizione l'altezza di ogni adulto sul pianeta, il profilo dell'istogramma non corrisponderebbe a una curva a campana gaussiana, nemmeno se i dati fossero stratificati per genere, razza o qualsiasi altra caratteristica.

2.25 I residui non devono contenere informazioni: un cestino I residui sono ciò che rimane dopo aver rimosso tutte le informazioni dai dati. Dal momento che non devono contenere informazioni, le consideriamo come "spazzatura". È necessario assicurarsi che non vengano gettate spazzature che hanno valore (informazioni) e che possono essere sfruttate per spiegare meglio il comportamento della variabile dipendente.

Altri esempi includono

  • "Effetto della dimensione del campione sul confronto dei trattamenti: magnificazione del binocolo"
  • "La dimensione del campione contro la dimensione della popolazione: un cucchiaio per assaggiare la zuppa"

Riferimenti

  • Behar, R., Grima, P., e Marco-Almagro, L. (2012). Venticinque analogie per spiegare concetti statistici. The American Statistician, (appena accettato).

3

Domanda divertente.

Qualcuno ha scoperto che lavoro in biostatistica e mi hanno chiesto (in sostanza) "Le statistiche non sono solo un modo di mentire?"

(Il che riporta la citazione di Mark Twain su Lies, Damn Lies e Statistics.)

Ho cercato di spiegare che le statistiche ci permettono di dire con una precisione del 100 percento che, dati i presupposti e dati dati, che la probabilità di tali e così era esattamente così e così.

Non è stata colpita.


1
"Ci permette di dire, con la precisione del 100%, esattamente quanto è grande la nostra mancanza di precisione"
naught101

Se non una vera confutazione, la risposta di @ Jeromy suggerisce perché la nozione di "precisione al 100%" debba essere scartata.
rolando2,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.