Chiunque segua il baseball probabilmente ha sentito parlare delle prestazioni fuori dal nulla del tipo MVP del Jose Bautista di Toronto. Nei quattro anni precedenti, ha segnato circa 15 corse in casa per stagione. L'anno scorso ha raggiunto 54, un numero superato da soli 12 giocatori nella storia del baseball.
Nel 2010 è stato pagato 2,4 milioni e chiede al team 10,5 milioni per il 2011. Stanno offrendo 7,6 milioni. Se può ripeterlo nel 2011, varrà facilmente entrambi gli importi. Ma quali sono le probabilità che si ripeta? Quanto possiamo aspettarci che regredisca alla media? Quanto della sua performance possiamo aspettarci che sia stata dovuta al caso? Cosa possiamo aspettarci che i suoi totali 2010 corretti per la regressione rispetto alla media siano? Come lo risolvo?
Ho giocato con il database di baseball di Lahman e ho tirato fuori una query che restituiva i totali di casa per tutti i giocatori delle precedenti cinque stagioni che avevano avuto almeno 50 at-bat per stagione.
La tabella è simile a questa (notare Jose Bautista nella riga 10)
first last hr_2006 hr_2007 hr_2008 hr_2009 hr_2010
1 Bobby Abreu 15 16 20 15 20
2 Garret Anderson 17 16 15 13 2
3 Bronson Arroyo 2 1 1 0 1
4 Garrett Atkins 29 25 21 9 1
5 Brad Ausmus 2 3 3 1 0
6 Jeff Baker 5 4 12 4 4
7 Rod Barajas 11 4 11 19 17
8 Josh Bard 9 5 1 6 3
9 Jason Bartlett 2 5 1 14 4
10 Jose Bautista 16 15 15 13 54
e il risultato completo (232 righe) è disponibile qui .
Non so davvero da dove cominciare. Qualcuno può indicarmi la giusta direzione? Qualche teoria pertinente e comandi R sarebbero particolarmente utili.
Grazie gentilmente
Tommy
Nota: l'esempio è un po 'inventato. Le corse in casa sicuramente non sono il miglior indicatore del valore di un giocatore, e i totali delle gare in casa non considerano il numero variabile di possibilità per stagione che un battitore abbia la possibilità di colpire le corse in casa (apparizioni di piatti). Né riflette che alcuni giocatori giochino in stadi più favorevoli e che le gare di casa medie della lega cambino di anno in anno. Ecc. Ecc. Se riesco a cogliere la teoria alla base della contabilizzazione della regressione alla media, posso usarla su misure più adatte rispetto alle risorse umane.