Regressione all'errore medio rispetto al giocatore d'azzardo


29

Da un lato, ho la regressione alla media e dall'altro ho l' errore del giocatore .

L'errore del giocatore d'azzardo è definito da Miller e Sanjurjo (2019) come "la convinzione errata che sequenze casuali abbiano una tendenza sistematica all'inversione, cioè che le serie di risultati simili hanno più probabilità di finire che continuare." Ad esempio, una moneta che è caduta in testa a diversi si riterrà che i tempi consecutivi avranno probabilità sproporzionate di cadere nel prossimo processo.

Ho avuto una buona prestazione nell'ultima partita e, secondo la regressione alla media, probabilmente avrò una prestazione peggiore nella prossima partita.

Ma secondo l'errore del giocatore d'azzardo: considera le seguenti due probabilità, assumendo una moneta giusta

  1. probabilità di 20 teste, quindi 1 coda = 0.520×0.5=0.521
  2. probabilità di 20 teste, quindi 1 testa = 0.520×0.5=0.521

Poi...

Considera un semplice esempio: una classe di studenti esegue un test vero / falso di 100 elementi su una materia. Supponiamo che tutti gli studenti scelgano casualmente su tutte le domande. Quindi, il punteggio di ogni studente sarebbe la realizzazione di una di una serie di variabili casuali indipendenti e identicamente distribuite, con una media attesa di 50.

Naturalmente, alcuni studenti segneranno punteggi sostanzialmente superiori a 50 e alcuni sostanzialmente inferiori a 50 solo per caso. Se uno prende solo il 10% degli studenti con il punteggio più alto e fornisce loro un secondo test su cui scelgono di nuovo casualmente su tutti gli elementi, il punteggio medio dovrebbe nuovamente essere vicino a 50.

Pertanto, la media di questi studenti "regredirebbe" fino alla media di tutti gli studenti che hanno sostenuto il test originale. Indipendentemente da ciò che uno studente ottiene nel test originale, la migliore previsione del punteggio ottenuto nel secondo test è 50.

In particolare Se si prende solo il 10% dei punteggi migliori degli studenti e si dà loro un secondo test su cui scegliere di nuovo in modo casuale su tutti gli elementi, il punteggio medio dovrebbe nuovamente essere vicino a 50.

Secondo l'errore del giocatore non dovrebbe essere prevista la stessa probabilità per il punteggio e non necessariamente più probabilmente vicino a 50?

Miller, JB e Sanjurjo, A. (2019). Come l'esperienza conferma l'errore del giocatore d'azzardo quando la dimensione del campione viene trascurata.


5
Non vedo come la Fallacia del giocatore sia connessa con le due probabilità che calcoli. Potresti spiegare più precisamente cosa capisci di essere questo errore?
whuber

Il tuo gioco ha la sequenza di teste più lunga?
AdamO

1
Mi piacerebbe davvero una spiegazione a questo. Le risposte finora non sembrano averlo chiarito ancora per me. La regressione alla media sembra rendere dipendenti gli eventi indipendenti. Forse la regressione alla media non può mai essere usata per una sola osservazione, si applica solo quando c'è una media.
icc97,

Risposte:


28

Penso che la confusione possa essere risolta considerando che il concetto di "regressione alla media" non ha nulla a che fare con il passato. È semplicemente l'osservazione tautologica che ad ogni iterazione di un esperimento ci aspettiamo un risultato medio. Quindi, se in precedenza abbiamo avuto un risultato superiore alla media, ci aspettiamo un risultato peggiore o se abbiamo avuto un risultato inferiore alla media, ci aspettiamo un risultato migliore. Il punto chiave è che l' aspettativa stessa non dipende da alcuna storia precedente, come accade nell'errore del giocatore.


Esattamente. Nel contesto di questo Q, se i capi possono essere interpretati come "buoni risultati", negli esempi del PO è probabile che un risultato peggiore seguirà dopo una serie di buoni risultati e un risultato migliore seguirà probabilmente dopo una serie di cattivi risultati .
ameba dice di reintegrare Monica il

5
Sembra che ti stia contraddicendo. Tu dichiari the expectation itself does not depend on any previous historye if we previously had an above average outcome then we expect a worse result. Usi la parola aspetta in entrambi i posti e parli della storia passata / precedente in entrambi i posti.
Erik

6
Non c'è contraddizione. Non ci aspettiamo un risultato peggiore perché i risultati dipendono l'uno dall'altro, ci aspettiamo un risultato peggiore perché ne abbiamo visto uno superiore alle nostre aspettative. L'aspettativa in sé è costante e non cambia a causa del risultato precedente.
dsaxton,

@Erik Forse una riformulazione potrebbe aiutare, ma il punto da notare è come differenziare i due aspetti. Uno, ci aspettiamo un risultato medio, o piuttosto crediamo molto probabilmente. Quando si confronta con un risultato effettivo, tale aspettativa può essere relativamente buona o cattiva a seconda di quanto il risultato sia stato buono o cattivo rispetto alle nostre aspettative. Non otteniamo informazioni sul futuro! Stiamo solo confrontando i nostri risultati effettivi con una media (questo commento è ora ridondante, ma lo sto lasciando)
wedstrom,

9
Non voto, perché la tua risposta soffre dell'ambiguità che ha portato alla domanda in primo luogo. Vale a dire, qual è un risultato "peggiore" dopo un risultato superiore alla media? L'OP lo sta interpretando come "peggio della media" (un'interpretazione che sembra intuitivamente giusta a causa dell'errore giusto del mondo) mentre la regressione alla media significa che sarà "peggio della storia". Senza chiarire quella fonte di confusione, la tua risposta (corretta) è comprensibile solo a coloro che già conoscono la risposta giusta. Se lo modifichi in qualche forma, otterrai il mio voto.
Rumtscho,

17

Se dovessi trovarti in una posizione del genere, come una persona razionale (e assumendo una moneta giusta), la tua scommessa migliore sarebbe solo indovinare. Se dovessi trovarti in una posizione di giocatore d'azzardo superstizioso, la soluzione migliore sarebbe quella di guardare gli eventi precedenti e provare a giustificare il tuo ragionamento sul passato, ad esempio "Wow, le teste sono calde , è tempo di anticipare!" o "Non vedremo in alcun modo altre teste - la probabilità di quel tipo di serie è incredibilmente bassa!".

L'errore del giocatore non si sta rendendo conto che ogni particolare stringa di 20 monete ci lancia follemente improbabili - per esempio, è molto improbabile capovolgere 10 teste e poi 10 code, molto improbabile capovolgere teste e code alternate, molto improbabile che si divida in 4, ecc. È anche molto improbabile capovolgere HHTHHTTTHT .. perché per qualsiasi stringa c'è un solo modo per far sì che ciò avvenga da molti risultati diversi . Pertanto, confondere uno di questi come "probabili" o "improbabili" è un errore, poiché sono tutti equiprobabili.

La regressione alla media è la convinzione fondata giustamente che a lungo termine, le tue osservazioni dovrebbero convergere verso un valore atteso finito. Ad esempio, la mia scommessa sul fatto che 10 lanci di monete da 20 sono buoni perché ci sono molti modi per raggiungerlo. Una scommessa su 15 di 20 è sostanzialmente meno probabile poiché ci sono molte meno stringhe che raggiungono quel conteggio finale. Vale la pena notare che se ti siedi e lanci monete (giuste) abbastanza a lungo, alla fine finirai con qualcosa di circa 50/50 - ma non finirai con qualcosa che non ha "strisce" o altri improbabili eventi in esso. Questo è il nocciolo della differenza tra questi due concetti.

TL; DR : la regressione alla media dice che nel tempo finirai con una distribuzione che rispecchia l'atteso in qualsiasi esperimento. L'errore del giocatore (erroneamente) dice che ogni singolo lancio di una moneta ha memoria dei risultati precedenti, che dovrebbe avere un impatto sul prossimo risultato indipendente.


1
Quindi l'errore del giocatore è un concetto sbagliato? Non riuscivo a capire il senso. Ci dispiace
Luis P.

6
L'errore del giocatore d'azzardo è ... beh ... un errore. È sbagliato, è un cattivo ragionamento. La regressione alla media è pura statistica, però :)
Derek Janni

1
Regression to the mean is the rightly-founded belief that in the long run, your observations should converge to a finite expected value- Questo è l '"errore del giocatore" - che dopo una serie di teste, le code sono ora più probabili, perché con una moneta giusta
converrebbe

2
@Izkata Non proprio. La regressione verso la media afferma che con una grande quantità di prove, le strisce su entrambi i lati dovrebbero essere più o meno uniformi, e più prove fai più vicino alla vera media che ottieni. Se hai girato abbastanza per ottenere una striscia di 100 teste, probabilmente hai anche strisce di code per bilanciarlo da qualche parte nella tua distribuzione, poiché le strisce di teste e code sono ugualmente probabili. È importante sottolineare che la regressione alla media non fa ipotesi su alcun dato specifico, ma solo su valori aggregati all'aumentare della dimensione del campione.
Ethan,

1
L'errore di @Izkata Gambler fa affermazioni su ciò che accadrà con qualsiasi risultato particolare, La regressione alla media fa una dichiarazione generale su ciò che ci aspetteremmo da molti risultati.
Derek Janni,

5

Cerco sempre di ricordare che la regressione verso la media non è un meccanismo compensativo per l'osservazione dei valori anomali.

Non esiste alcuna relazione causa-effetto tra avere una corsa di gioco eccezionale, e poi andare 50-50 dopo. È solo un modo utile per ricordare che, quando si esegue il campionamento da una distribuzione, è molto probabile che vengano visualizzati valori vicini alla media (pensare a ciò che la disuguaglianza di Chebyshev ha da dire qui).


2
Yay Chebyshev! Ottimo punto!
Derek Janni,

4

Ecco un semplice esempio: hai deciso di lanciare un totale di 200 monete. Finora ne hai lanciati 100 e sei stato estremamente fortunato: il 100% è arrivato alla testa (incredibile, lo so, ma semplifichiamo le cose).

Condizionato su 100 teste nei 100 primi lanci, ti aspetti di avere 150 teste in totale alla fine del gioco. Un esempio estremo dell'errore del giocatore sarebbe pensare che ti aspetti ancora solo 100 punti totali (cioè il valore atteso prima di iniziare il gioco), anche dopo aver ottenuto 100 nei primi 100 lanci. Il giocatore d'azzardo pensa fallacemente che i prossimi 100 tiri debbano essere code. Un esempio di regressione alla media (in questo contesto) è che il tuo tasso di testa del 100% dovrebbe scendere a 150/200 = 75% (cioè verso la media del 50%) quando finisci il gioco.


1
@whuber questo non è il classico esempio di altezza di padri e figli, ma direi che soddisfa la definizione di wikipedia: "la regressione verso (o verso) la media è il fenomeno che se una variabile [es. la testa si dirige nel lancio della moneta] è estremo nella sua prima misurazione, tenderà ad essere più vicino alla media nella sua seconda misurazione "
Adrian

3
Fai attenzione a Wikipedia: il suo linguaggio introduttivo ha lo scopo di dare un'idea euristica, ma raramente è una definizione. La tua citazione infatti non è né una definizione (perché non indica cosa significa "estremo") né è corretta nella maggior parte delle interpretazioni. Ad esempio, per ogni variabile casuale continua v'è esattamente un probabilità che il secondo dei due prove indipendenti è ulteriormente dalla media rispetto al primo. 1/2
whuber

1
Penso che fornire una descrizione chiara dell'errore del giocatore e della regressione alla media possa essere più importante che offrire esempi. Quando vengono forniti solo gli esempi, non è chiaro come debbano essere capiti o come si colleghino a queste due materie.
whuber

1
Come qualcuno che pensa in modo simile al PO, il tuo secondo paragrafo è l' unico esempio in tutte le risposte che spiega chiaramente qual è la differenza. Ora ha più senso.
Izkata,

1
@whuber Questo è esattamente ciò che la maggior parte delle altre risposte sta facendo, e non mi hanno chiarito affatto.
Izkata,

2

Potrei sbagliarmi, ma ho sempre pensato che la differenza fosse nell'assunzione di indipendenza.

Nell'errore del giocatore d'azzardo il problema è l'incomprensione dell'indipendenza. Sicuramente su un numero N elevato di lanci di monete sarai circa una divisione di 50-50, ma se per caso non lo sei, il pensiero che i tuoi prossimi lanci a T ti aiuteranno a pareggiare le probabilità è sbagliato perché lì ogni lancio di monete è indipendente da il precedente.

La regressione verso la media è, dove la vedo usata, qualche idea che le estrazioni dipendono dalle estrazioni precedenti o da una media / valori calcolati in precedenza. Ad esempio, utilizzare la percentuale di tiro NBA. Se il giocatore A ha realizzato in media il 40% dei suoi tiri durante la sua carriera e inizia un nuovo anno sparando il 70% nelle sue prime 5 partite, è ragionevole pensare che regredirà alla media della sua carriera. Ci sono fattori dipendenti che possono e influenzeranno il suo gioco: serie caldo / freddo, gioco di squadra, sicurezza e il semplice fatto che se dovesse mantenere il 70% delle riprese per l'anno, annichilerebbe assolutamente più dischi che sono semplicemente imprese fisiche impossibili (sotto le attuali capacità prestazionali dei giocatori di pallacanestro professionisti). Man mano che giochi più giochi, la percentuale di tiro probabilmente si avvicinerà alla media della tua carriera.


La tua spiegazione della regressione alla media suona più come uno stimatore del restringimento. Potresti fornire una definizione specifica di cosa intendi realmente per "regressione"?
whuber

Stavo seguendo l'idea di "Il fenomeno si verifica perché i punteggi degli studenti sono determinati in parte dall'abilità sottostante e in parte dal caso" da Wikipedia. La mia comprensione è che mentre c'è un livello di probabilità, i risultati sono guidati da alcune abilità sottostanti.
Marsenau,

2
Grazie per il chiarimento. Non è chiaro come questa idea si applichi all'idea che man mano che la propria carriera avanza, la media si avvicina alla media della carriera. Sembra una tautologia o una versione di una legge di grandi numeri. In effetti, suona terribilmente come la stessa Fallacia del giocatore!
whuber

1
Oppure la tua carriera media aumenterà per incontrare le tue nuove abilità. :) Penso che sia un errore confondere l'acqua con un'abilità migliorabile.
Erik

1
"incomprensione dell'indipendenza" - questo sembra essere il punto critico. La regressione alla media sembra rendere dipendenti gli eventi indipendenti.
icc97,

2

La chiave è che non abbiamo informazioni che ci aiuteranno con il prossimo evento (fallacia del giocatore), perché il prossimo evento non dipende dall'evento precedente. Possiamo fare un'ipotesi ragionevole su come andrà una serie di prove. Questa ipotesi ragionevole è la media, ovvero il nostro risultato medio previsto. Quindi, quando osserviamo una deviazione nella tendenza media verso la media, nel tempo / prove, assistiamo a una regressione della media.

Come puoi vedere la regressione alla media è una serie osservata di azioni , non è un predittore. Man mano che vengono condotte più prove, le cose si avvicinano più da vicino a una distribuzione normale / gaussiana. Ciò significa che non sto facendo ipotesi o ipotesi su quale sarà il prossimo risultato. Utilizzando la legge dei grandi numeri, posso teorizzare che, anche se le cose potrebbero andare in un modo al momento, nel tempo le cose si bilanceranno. Quando si bilanciano, il set di risultati è regredito alla media. È importante notare qui che non stiamo dicendo che le prove future dipenderanno dai risultati passati. Sto semplicemente osservando un cambiamento nel saldo dei dati.

L' errore del giocatore, come ho capito, è più immediato nei suoi obiettivi e si concentra sulla previsione di eventi futuri. Questo segue ciò che desidera un giocatore d'azzardo. In genere i giochi d'azzardo sono inclinati contro il giocatore a lungo termine, quindi un giocatore vuole sapere quale sarà la prossima prova perché vuole capitalizzare su questa conoscenza. Questo porta il giocatore ad assumere erroneamente che il processo successivo dipenda dal processo precedente. Questo può portare a scelte neutre come:

Le ultime cinque volte la ruota della roulette è atterrata sul nero, quindi la prossima volta scommetto molto sul rosso.

Oppure la scelta può essere self-service:

Ho ottenuto il full delle ultime 5 mani, quindi scommetterò alla grande perché sono in una striscia vincente e non posso perdere.


Come puoi vedere, ci sono alcune differenze chiave:

  1. La regressione alla media non presuppone che le prove indipendenti dipendono dall'errore del giocatore.

  2. La regressione alla media viene applicata su una grande quantità di dati / prove, in cui l'errore del giocatore riguarda la prova successiva.

  3. La regressione alla media descrive ciò che è già avvenuto. L'errore del giocatore tenta di predire il futuro in base a una media attesa e ai risultati passati.


1
In realtà non penso che la regressione alla media abbia qualcosa a che fare con la legge dei grandi numeri o che significhi ciò che dici che fa nella prima frase.
ameba dice di reintegrare Monica il

@amoeba quindi se pensiamo di lanciare una moneta 100 volte e 20 lanci nel processo, abbiamo 20 teste. Alla fine del processo abbiamo 55 teste. Sto cercando di dire che questo sarebbe un esempio di "regressione alla media". È iniziato da una parte, ma col tempo si è normalizzato. La legge dei bit di grandi numeri era un altro modo di esprimere l'idea che le cose si aggireranno in media su prove sufficienti, il che equivale a dire che uno squilibrio iniziale si bilancerà nel tempo o regredirà verso la media.
Erik

1
Immagino che sto iniziando a capire l'essenza di quei temi con le tue chiavi, Erik. Bellissimo! :) xxx
Luis P.

2

Gli studenti con voti più alti ottengono risultati peggiori negli imbroglioni di ripetizione del test?

La domanda ha ricevuto una modifica sostanziale dall'ultima delle sei risposte.

100

O dovrebbero semplicemente stare alla larga dalla ruota della roulette?

50%50%10050

60%2.8%30006085

8560%50%10060%2.8%2852.8%8560%

50%1005050

Monete fortunate e lanci fortunati

100055%sol100045%B1000F) e distribuirli casualmente. Ciò è analogo all'assunzione di capacità / conoscenze sempre più elevate nell'ambito del test, prendendo esempio, ma è più facile ragionare correttamente su oggetti inanimati.

(551000+451000+501000)/3000=5060%18,3%0.2%2.8%60%7.1%60%21

2160%50%10086%=18,3%/(18,3%+0.2%+2.8%) probabilità che coloro che segnano almeno il 60% abbiano una buona moneta,1%=0.2%/(18,3%+0.2%+2.8%)13%86%55+1%45+13%50=54.251006050 .

Quindi, anche quando alcune monete sono migliori di altre, la casualità nelle lancette delle monete significa che la selezione delle migliori prestazioni da un test mostrerà comunque una regressione alla media in un nuovo test. In questo modello modificato, la mano calda non è più un errore assoluto: segnare meglio al primo turno significa una maggiore probabilità di avere una buona moneta! Tuttavia, l'errore del giocatore d'azzardo è ancora un errore - coloro che hanno avuto fortuna non possono essere compensati con sfortuna al test.


Ho appena avuto un'idea. Simulerò quel modello e vedrò come funziona.
Luis P.

1

Stanno dicendo la stessa cosa. Eri per lo più confuso perché nessun singolo esperimento nell'esempio del lancio della moneta ha un risultato estremo (H / T 50/50). Modificalo in "lanciando dieci monete giuste allo stesso tempo in ogni esperimento", e i giocatori d'azzardo vogliono farli tutti nel modo giusto. Quindi una misurazione estrema sarebbe che ti capita di vedere tutti loro sono teste.

Fallacia del giocatore: considera ogni risultato del gioco (risultato del lancio della moneta) come IID . Se conosci già la distribuzione di quelle condivisioni IID, la previsione successiva dovrebbe venire direttamente dalla distribuzione nota e non ha nulla a che fare con risultati storici (o futuri) (ovvero altri IID).

Regressione alla media: considera ogni risultato del test come IID (poiché si presume che lo studente indovini in modo casuale e non abbia una vera abilità). Se conosci già la distribuzione di quelle condivisioni IID, la previsione successiva proviene direttamente dalla distribuzione nota e non ha nulla a che fare con risultati storici (o futuri) (ovvero altri IID) ( esattamente come prima fino a qui ). Ma, dal CLT , se hai osservato l' estremo valori in una misurazione (ad esempio, per caso, stavi campionando solo il 10% di studenti migliori dal primo test), dovresti sapere che il risultato della tua prossima osservazione / misurazione verrà comunque generato dal noto distribuzione (e quindi più probabile che sia più vicina alla media che stare all'estremo).

Quindi, fondamentalmente, entrambi affermano che la misurazione successiva verrà dalla distribuzione anziché dai risultati passati.


Questa non è una citazione corretta del teorema del limite centrale. È semplicemente una dichiarazione di cosa sia un evento indipendente.
AdamO,

0

Sia X e Y due variabili casuali iid uniformi su [0,1]. Supponiamo di osservarli uno dopo l'altro.

Fallacy del giocatore d'azzardo: P (Y | X)! = P (Y) Questo è, ovviamente, senza senso perché X e Y sono indipendenti.

Regressione alla media: P (Y <X | X = 1)! = P (Y <X) Questo è vero: LHS è 1, LHS <1


0

Grazie delle tue risposte, penso di poter capire la differenza tra la regressione e la fallacia del giocatore d'azzardo. Ancora di più, ho creato un database per aiutarmi a illustrare nel caso "reale".

Ho costruito questa situazione: ho raccolto 1000 studenti e li ho messi a fare un test per rispondere in modo casuale alle domande.

Il punteggio del test va da 01 a 05. Poiché rispondono casualmente alle domande, ogni punteggio ha una probabilità del 20% di essere raggiunto. Quindi, per la prima prova, il numero di studenti con un punteggio 05 dovrebbe essere vicino a 200

1000*0,20

200

Ho avuto 196 studenti con il punteggio 05 che è molto vicino ai 200 studenti previsti.

Quindi ho messo quei 196 studenti a ripetere il test sono previsti 39 studenti con punteggio 05.

196*0,20

39

Bene, secondo il risultato ho ottenuto 42 studenti, il che è entro le aspettative.

Per coloro che hanno ottenuto il punteggio 05 li ho messi per ripetere il test e così via ...

Pertanto, i numeri previsti erano:

RESTEST previsto 03

42*0,20

8

(3.3) Risultati (8)

RESTEST previsto 04

8*0,20

1,2

(4.3) Risultati (2)

RESTEST previsto 05

2*0,20

0,1

(4.3) Risultati (0)

0,204

0,205=0,00032

0,00032*3500=1.2

Pertanto, la probabilità che uno studente ottenga il punteggio 05 in tutti e 05 i test non ha nulla a che fare con il suo ultimo punteggio, voglio dire, non devo calcolare la probabilità su ciascun test singolarmente. Devo cercare quei 05 test come un evento e calcolare la probabilità per quell'evento.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.