Di seguito sono riportati un paio di modelli molto semplici . Sono entrambi carenti in almeno un modo, ma forse forniranno qualcosa su cui costruire. Il secondo modello in realtà non affronta (abbastanza) lo scenario del PO (vedere le osservazioni seguenti), ma lo lascio nel caso in cui aiuti in qualche modo.
Modello 1 : una variante del modello Bradley-Terry
Supponiamo di essere principalmente interessati a prevedere se una squadra ne batterà un'altra in base ai giocatori di ciascuna squadra. Possiamo semplicemente registrare se la squadra 1 con i giocatori batte la squadra 2 con i giocatori ( k , ℓ ) per ogni partita, ignorando il punteggio finale. Certamente, questo sta gettando via alcune informazioni, ma in molti casi ciò fornisce ancora molte informazioni.(i,j)(k,ℓ)
Il modello è quindi
l o g i t ( P (Team 1 batte Team 2))= αio+ αj- αK- αℓ.
Cioè, abbiamo un parametro di "affinità" per ogni giocatore che influenza quanto quel giocatore migliora le possibilità di vincita della sua squadra. Definisci la "forza" del giocatore con . Quindi, questo modello afferma che
P (la squadra 1 batte la squadra 2 ) = s i s jSio= eαio
P (Lasquadra 1 batte la squadra 2)= sioSjSioSj+ sKSℓ.
C'è una bella simmetria qui in quanto non importa come la risposta è codificata purché sia coerente con i predittori. Cioè, abbiamo anche
l o g i t ( P (Team 2 batte Team 1))= αK+ αℓ- αio- αj.
Questo può essere in forma facilmente come una regressione logistica con predittori che sono indicatori (uno per ogni giocatore) che assume valore se il giocatore che è sul Team 1 per il gioco in questione, - 1 se lei è in Team 2 e 0 se non lo fa partecipare a quel gioco.+ 1io−10
Da questo abbiamo anche una classifica naturale per i giocatori. Più grande è il (o s ), maggiore è il giocatore migliora la possibilità della sua squadra di vincere. Quindi, possiamo semplicemente classificare i giocatori in base ai loro coefficienti stimati. (Si noti che i parametri di affinità sono identificabili solo fino a un offset comune. Pertanto, è tipico fissare α 1 = 0 per rendere identificabile il modello.)αsα1=0
Modello 2 : punteggio indipendente
NB : Dopo aver riletto la domanda del PO, è evidente che i modelli seguenti non sono adeguati per la sua configurazione. In particolare, l'OP è interessato a una partita che termina dopo che un numero fisso di punti è stato segnato da una squadra o dall'altra. I modelli seguenti sono più appropriati per i giochi che hanno una durata fissa nel tempo. Le modifiche possono essere apportate per adattarsi meglio al quadro del PO, ma richiederebbe una risposta separata per lo sviluppo.
Ora vogliamo tenere traccia dei punteggi. Supponiamo che sia una ragionevole approssimazione che ogni squadra punti punti indipendentemente l'una dall'altra con il numero di punti segnati in qualsiasi intervallo indipendentemente da qualsiasi intervallo disgiunto. Quindi il numero di punti ottenuti da ciascuna squadra può essere modellato come una variabile casuale di Poisson.
ij
log(μ)=γi+γj
Si noti che questo modello ignora i matchup effettivi tra le squadre, concentrandosi esclusivamente sul punteggio.
σi=eγi(i,j)(k,ℓ)
P(Team 1 beats Team 2 in sudden death)=σiσjσiσj+σkσℓ.
ρiδi(i,j)(k,ℓ)
log(μ1)=ρi+ρj−δk−δℓ
log(μ2)=ρk+ρℓ−δi−δj
Il punteggio è ancora indipendente in questo modello, ma ora c'è un'interazione tra i giocatori di ogni squadra che influenza il punteggio. I giocatori possono anche essere classificati in base alle loro stime del coefficiente di affinità.
Il modello 2 (e le sue varianti) consente anche la previsione di un punteggio finale.
Estensioni : un modo utile per estendere entrambi i modelli è quello di incorporare un ordine in cui gli indicatori positivi corrispondono alla squadra "di casa" e gli indicatori negativi alla squadra "fuori". L'aggiunta di un termine di intercettazione ai modelli può quindi essere interpretata come un "vantaggio del campo domestico". Altre estensioni potrebbero includere l'incorporazione della possibilità di legami nel Modello 1 (in realtà è già una possibilità nel Modello 2).
Nota a margine : almeno uno dei sondaggi computerizzati (di Peter Wolfe ) utilizzati per la serie Bowl del campionato americano di football americano utilizza il modello (standard) Bradley-Terry per produrre le sue classifiche.