Misurare la regressione alla media nel colpire le corse a casa

11

Chiunque segua il baseball probabilmente ha sentito parlare delle prestazioni fuori dal nulla del tipo MVP del Jose Bautista di Toronto. Nei quattro anni precedenti, ha segnato circa 15 corse in casa per stagione. L'anno scorso ha raggiunto 54, un numero superato da soli 12 giocatori nella storia del baseball.

Nel 2010 è stato pagato 2,4 milioni e chiede al team 10,5 milioni per il 2011. Stanno offrendo 7,6 milioni. Se può ripeterlo nel 2011, varrà facilmente entrambi gli importi. Ma quali sono le probabilità che si ripeta? Quanto possiamo aspettarci che regredisca alla media? Quanto della sua performance possiamo aspettarci che sia stata dovuta al caso? Cosa possiamo aspettarci che i suoi totali 2010 corretti per la regressione rispetto alla media siano? Come lo risolvo?

Ho giocato con il database di baseball di Lahman e ho tirato fuori una query che restituiva i totali di casa per tutti i giocatori delle precedenti cinque stagioni che avevano avuto almeno 50 at-bat per stagione.

La tabella è simile a questa (notare Jose Bautista nella riga 10)

     first     last hr_2006 hr_2007 hr_2008 hr_2009 hr_2010
1    Bobby    Abreu      15      16      20      15      20
2   Garret Anderson      17      16      15      13       2
3  Bronson   Arroyo       2       1       1       0       1
4  Garrett   Atkins      29      25      21       9       1
5     Brad   Ausmus       2       3       3       1       0
6     Jeff    Baker       5       4      12       4       4
7      Rod  Barajas      11       4      11      19      17
8     Josh     Bard       9       5       1       6       3
9    Jason Bartlett       2       5       1      14       4
10    Jose Bautista      16      15      15      13      54

e il risultato completo (232 righe) è disponibile qui .

Non so davvero da dove cominciare. Qualcuno può indicarmi la giusta direzione? Qualche teoria pertinente e comandi R sarebbero particolarmente utili.

Grazie gentilmente

Tommy

Nota: l'esempio è un po 'inventato. Le corse in casa sicuramente non sono il miglior indicatore del valore di un giocatore, e i totali delle gare in casa non considerano il numero variabile di possibilità per stagione che un battitore abbia la possibilità di colpire le corse in casa (apparizioni di piatti). Né riflette che alcuni giocatori giochino in stadi più favorevoli e che le gare di casa medie della lega cambino di anno in anno. Ecc. Ecc. Se riesco a cogliere la teoria alla base della contabilizzazione della regressione alla media, posso usarla su misure più adatte rispetto alle risorse umane.

r regression modeling

— TMOD
fonte

2

Il baseball è la fonte di esempi preferita di molti statistici statunitensi, quindi una ricerca su Google (/ Scholar) farà apparire diversi articoli pertinenti, ad esempio Morrison e Schmittlein (1981) jstor.org/stable/2630890 . Lascerò a qualcuno che ha più familiarità con il baseball e la R per rispondere alla tua domanda.

— onestop il

1

Suggerirei anche di dare un'occhiata al lavoro di JC Bradbury e al suo blog, Sabernomics, sabernomics.com/sabernomics . Il suo libro sulla misurazione del valore dei giocatori sarà probabilmente approfondito su quali caratteristiche sono predittive della produttività futura.

— Andy W,

2

Il problema, come affermato, è un po 'come un problema anomalo , ma non nel modo normale in cui si pensa ai valori anomali. Per incorporare lo straordinario risultato (vale a dire il valore anomalo) avresti bisogno di una "distribuzione campionaria" con una coda pesante (il risultato di Jose ben oltre 3 deviazioni standard dalla sua media rispetto ai dati passati), quindi questo potrebbe aiutarti ad adattare meglio i tuoi dati, e spiegarlo in previsione.

— Probislogic,

Se prendi in considerazione una piccola scorciatoia grezza oltre a tutti i commenti più sofisticati che appaiono qui, c'è Dixon's Test for Outliers che puoi eseguire su un campione di appena 4. Vedi cee.vt.edu/ewr/environmental/teach/smprimer / outlier /…

— rolando2

3

Penso che ci sia sicuramente un restringimento bayesiano o una correzione preventiva che potrebbe aiutare la previsione, ma potresti voler considerare anche un'altra virata ...

Cerca i giocatori nella storia, non solo negli ultimi anni, che hanno avuto stagioni di breakout dopo una coppia nelle major (aumenti drammatici forse 2x) e guarda come hanno fatto l'anno successivo. È possibile che la probabilità di mantenere le prestazioni sia il giusto predittore.

Esistono diversi modi per esaminare questo problema, ma come diceva mpiktas, avrai bisogno di più dati. Se vuoi solo trattare i dati recenti, dovrai guardare le statistiche generali della lega, i lanciatori a cui è confrontato, è un problema complesso.

E poi c'è solo da considerare i dati di Bautista. Sì, è stato il suo anno migliore, ma è stata anche la prima volta dal 2007 con oltre 350 AB (569). Potresti voler considerare la conversione dell'aumento percentuale delle prestazioni.

— John
fonte

3

È possibile adattare un modello solo a questi dati e ottenere previsioni che tengono conto della regressione alla media utilizzando modelli misti (multilivello). Le previsioni da tali modelli spiegano la regressione alla media. Anche senza sapere quasi nulla del baseball, non trovo risultati che sono diventato terribilmente credibile, dal momento che, come dici tu, la modella ha davvero bisogno di tener conto di altri fattori, come le apparizioni delle placche.

Penso che un modello a effetti misti Poisson sarebbe più adatto di un modello misto lineare poiché il numero di corse domestiche è un conteggio. Osservando i dati forniti , un istogramma hrmostra che è fortemente distorto, suggerendo quindi che un modello misto lineare non funzionerà bene e include un numero abbastanza elevato di zero, con o senza prima la trasformazione del log.

Ecco un po 'di codice usando la lmerfunzione dal pacchetto lme4 . Avendo creato una variabile ID per identificare ogni giocatore e rimodellato i dati in un formato "lungo" come mpiktas ha indicato nella sua risposta, (l'ho fatto in Stata perché non sono bravo nella gestione dei dati in R, ma potresti farlo in un pacchetto foglio di calcolo):

Year.c <- Year - 2008   # centering y eases computation and interpretation
(M1 <- lmer(HR ~ Year.c + (Year.c|ID), data=baseball.long, family=poisson(log), nAGQ=5))

Questo si adatta a un modello con un log-link che dà una dipendenza esponenziale del tasso di hit annuale, che può variare tra i giocatori. Sono possibili altre funzioni di collegamento, sebbene il collegamento di identità abbia dato un errore a causa di valori adattati negativi. Un collegamento sqrt ha funzionato bene, e ha un BIC e AIC inferiori rispetto al modello con il collegamento al registro, quindi potrebbe essere una soluzione migliore. Le previsioni per il tasso di successo nel 2011 sono sensibili alla funzione di collegamento scelta, in particolare per i giocatori come Bautista il cui tasso di successo è cambiato molto di recente.

Temo di non essere riuscito a ottenere effettivamente tali previsioni da lme4però. Ho più familiarità con Stata, il che rende molto facile ottenere previsioni per osservazioni con valori mancanti per il risultato, anche se xtmelogit non sembra offrire alcuna scelta di funzione di collegamento diversa da log, che ha dato una previsione di 50 per Bautista a casa corre nel 2011. Come ho già detto, non lo trovo terribilmente credibile. Le sarei grato che qualcuno potesse mostrare come generare previsioni per il 2011 dai lmermodelli sopra riportati.

Un modello autoregressivo come AR (1) per gli errori a livello di giocatore potrebbe anche essere interessante, ma non so come combinare una tale struttura con un modello misto di Poisson.

— una fermata
fonte

usando la funzione melt dal pacchetto reshape, la conversione in formato lungo è una riga in R, melt (data, id = 1: 2).

— mpiktas,

Un'interessante estensione / alternativa a questo è quella di adattare un modello gerarchico con una distribuzione campionaria Possion con un parametro di frequenza campionata (1 rate all'anno), ma una distribuzione di campionamento di Cauchy per il parametro rate (invece della miscela normale o normale). La distribuzione di Cauchy consentirà che si verifichi l' evento estremo (campionando un parametro di grande frequenza). Un caso intermedio (tra normale e Cauchy) è la distribuzione t. (Cauchy è più facile da campionare in quanto può utilizzare il metodo CDF inverso).

— Probislogic

2

Hai bisogno di ulteriori dati sui giocatori e le loro caratteristiche nel periodo di tempo in cui hai i dati sulle corse a casa. Per il primo passo aggiungi alcune caratteristiche variabili nel tempo come l'età o l'esperienza dei giocatori. Quindi è possibile utilizzare HLM o modelli di dati del pannello. Dovrai preparare i dati nel modulo:

    First Last  Year HR Experience Age
1.  Bobby Abreu 2005 15     6      26

Il modello più semplice sarebbe quindi (la funzione lme proviene dal pacchetto nlme )

lme(HR~Experience,random=~Experience|Year,data=your_data)

Questo modello si baserà fortemente sul presupposto che il numero di partenza di ciascun giocatore si basi solo sull'esperienza che consente una certa variabilità. Probabilmente non sarà molto preciso, ma almeno avrai un'idea di quanto improbabile siano i numeri di Jose Bautista rispetto al giocatore medio. Questo modello può essere ulteriormente migliorato aggiungendo le caratteristiche di altri giocatori.

— mpiktas
fonte

Non direi che @TMOD ha bisogno di più dati, solo che le previsioni saranno probabilmente più accurate se @TMOD avesse più dati. Ci sono abbastanza informazioni nella domanda per generare una previsione.

— Probislogic,

@probabilityislogic, sì, ci sono abbastanza informazioni per generare la previsione, ma il modello avrà solo l'intercettazione.

— mpiktas,

non necessariamente, si potrebbe adattare un modello AR (1) o AR (2) a questi dati

— Probislogic

@probabilityislogic, ah sì, hai ragione.

— mpiktas,

2

Potresti voler dare un'occhiata al Blog del libro.

Tom Tango e gli altri autori di "The Book: Playing the Percentages in Baseball" sono probabilmente le migliori fonti di sabermetria. In particolare, amano la regressione alla media. Hanno escogitato un sistema di previsione progettato per essere il sistema accettabile più elementare (Marcel) e si basa quasi esclusivamente sulla regressione della media.

Dall'alto della mia testa, suppongo che un metodo sarebbe quello di utilizzare una tale previsione per stimare il vero talento, e quindi trovare una distribuzione appropriata intorno a quel talento medio. Una volta che hai questo, ogni aspetto della placca sarà come una prova di Bernoulli, quindi la distribuzione binomiale potrebbe prenderti il resto.

— Michael McGowan
fonte

1

Cordiali saluti, dal 2011 al 2014, ha colpito 43, 27, 28 e 35.

È abbastanza vicino alla sua media di 162 partite di 32 (che ovviamente include quei valori), e circa 1 SD sotto i 54 del 2010.

Sembra una regressione alla media in azione: un gruppo estremo costruito capitalizzando su soggetti rumorosi (1 in questo caso) che si discosta dal loro gruppo per caso.

http://www.baseball-reference.com/players/b/bautijo02.shtml

— Tim
fonte