Se utilizzare un offset in una regressione di Poisson quando si prevedono obiettivi di carriera totali segnati dai giocatori di hockey


10

Ho una domanda riguardante chi deve o non usare un offset. Assumi un modello molto semplice, in cui vuoi descrivere il numero (complessivo) di goal nell'hockey. Quindi hai goal, numero di partite giocate e una variabile fittizia "attaccante" che è uguale a 1 se il giocatore è un attaccante e 0 altrimenti. Quindi quale dei seguenti modelli è stato specificato correttamente?

  1. goal = partite + attaccante, oppure

  2. obiettivi = offset (giochi) + attaccante

Ancora una volta, gli obiettivi sono obiettivi generali e il numero di giochi sono giochi generali per un singolo giocatore. Ad esempio, potrebbe esserci un giocatore che ha 50 goal in 100 partite e un altro giocatore che ha 20 goal in 50 partite e così via.

Cosa dovrei fare quando vorrei stimare il numero di goal? È davvero necessario utilizzare un offset qui?

Riferimenti:


Qual è la tua variabile dipendente? È il numero totale di gol in una carriera fino ad oggi per un giocatore specifico? Inoltre, c'è un motivo per cui non vuoi prevedere obiettivi medi per partita?
Jeromy Anglim,

Sì, è il numero totale di goal! No, non ho i dati per ogni gioco. Ho solo i dati complessivi.
MarkDollar,

La variabile dipendente è (numero di) obiettivi. (Vedi le equazioni sopra)
MarkDollar,

Ho modificato un po 'il titolo in modo che non sia un duplicato della domanda precedente. Sentiti libero di modificare se ho frainteso.
Jeromy Anglim,

Risposte:


16

Un modello di offset è la modellazione degli obiettivi per partita, come si può vedere qui:

log(goals/games) = a+bx

è equivalente a

log(goals) -log(games) = a+bx

è equivalente a

log(goals)= a+bx +log(games)   <-this is an offset model, assumes coef on the last term =1

Vedi la diapositiva 35 qui: http://www.ed.uiuc.edu/courses/EdPsy490AT/lectures/4glm3-ha-online.pdf

Se ritieni che un + bx sia correlato al rapporto di registro degli obiettivi rispetto ai giochi (il tasso), usa un offset. Se pensi che ci sia un effetto di gioco più complicato, forse accumulando esperienza, non farlo. Per ulteriori discussioni, vedere questo: http://ezinearticles.com/?The-Exposure-and-Offset-Variables-in-Poisson-Regression-Models&id=2155811


1

Alcuni semplici punti che non affrontano direttamente la tua domanda sugli offset:

  • Vorrei vedere se il numero di partite è correlato ai goal medi segnati. In molti sport di goal d'élite a cui riesco a pensare (ad es. Calcio, football australiano, ecc.) Prevedo che la longevità di una carriera è legata al successo di una carriera. E almeno per i giocatori con ruoli da goal, il successo è legato al numero di goal segnati. Se questo è vero, allora il numero di giochi catturerebbe due effetti. Uno si collegherebbe al semplice fatto che più partite giocate significano più opportunità di segnare gol; e l'altro avrebbe catturato effetti relativi alle abilità. È possibile esaminare la relazione tra il numero di partite e gli obiettivi medi segnati (ad es. Obiettivi / numero di partite) per esplorare questo. Penso che questo abbia implicazioni sostanziali per qualsiasi modello che fai.
  • Il mio istinto è quello di convertire la variabile dipendente in obiettivi medi per partita. Mi rendo conto che avresti una misurazione più precisa dell'abilità di un giocatore per coloro che hanno giocato a più giochi, quindi forse sarebbe un problema. A seconda della precisione che desideri nel tuo modello e della distribuzione risultante del player, potresti essere in grado di fare affidamento sulle tecniche standard di modellazione lineare. Ma forse questo è un po 'troppo applicato per i tuoi scopi e forse hai dei motivi per voler modellare i goal totali segnati.

Ciao Jeromy! Quello che descrivi è assolutamente corretto. Ma non c'è modo di creare un modello che misura obiettivi / giochi. Quindi sono costretto al modello sopra (obiettivi come dipendenti e giochi come variabile indipendente). So che i giochi sono correlati con cose come l'abilità e che devo esplorare questo problema (omesso problema di variabili ed endogenità). Ma al momento mi chiedo quale dei due modelli sopra dovrebbe essere usato!
MarkDollar,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.