EDIT: Da quando ho pubblicato questo post, ho seguito un post aggiuntivo qui .
Sintesi del testo seguente: sto lavorando a un modello e ho provato la regressione lineare, le trasformazioni di Box Cox e GAM ma non ho fatto molti progressi
Utilizzando R
, sto attualmente lavorando su un modello per prevedere il successo dei giocatori di baseball della lega minore a livello di lega maggiore (MLB). La variabile dipendente, carriera offensiva vince al di sopra della sostituzione (oWAR), è un proxy per il successo a livello di MLB e viene misurata come la somma dei contributi offensivi per ogni gioco in cui il giocatore è coinvolto nel corso della sua carriera (dettagli qui - http : //www.fangraphs.com/library/misc/war/). Le variabili indipendenti sono variabili offensive della lega minore con punteggio z per le statistiche che si ritiene siano importanti predittori di successo a livello di lega maggiore, compresa l'età (i giocatori con maggiore successo in età più giovane tendono ad essere migliori prospettive), tasso di sciopero [SOPct ], walk rate [BBrate] e produzione adattata (una misura globale della produzione offensiva). Inoltre, poiché ci sono più livelli dei campionati minori, ho incluso variabili fittizie per il livello di gioco minore della lega (doppio A, alto A, basso A, principiante e stagione corta con triplo A [il livello più alto prima dei campionati maggiori] come variabile di riferimento]). Nota: ho ridimensionato WAR per essere una variabile che va da 0 a 1.
Il diagramma a dispersione variabile è il seguente:
Per riferimento, la variabile dipendente, oWAR, ha il seguente diagramma:
Ho iniziato con una regressione lineare oWAR = B1zAge + B2zSOPct + B3zBBPct + B4zAdjProd + B5DoubleA + B6HighA + B7LowA + B8Rookie + B9ShortSeason
e ho ottenuto i seguenti grafici di diagnostica:
Ci sono chiari problemi con una mancanza di imparzialità dei residui e una mancanza di variazione casuale. Inoltre, i residui non sono normali. I risultati della regressione sono mostrati di seguito:
Seguendo i consigli di una discussione precedente , ho provato una trasformazione Box-Cox senza successo. Successivamente, ho provato una GAM con un collegamento al registro e ho ricevuto questi grafici:
Originale
Nuovo diagramma diagnostico
Sembra che le spline abbiano contribuito ad adattare i dati, ma i grafici diagnostici mostrano ancora un adattamento inadeguato. EDIT: Pensavo di guardare i valori residui vs adattati inizialmente ma non ero corretto. La trama mostrata originariamente è contrassegnata come Originale (sopra) e la trama che ho caricato successivamente è contrassegnata come Nuovo diagramma diagnostico (anche sopra)
La del modello è aumentata
ma i risultati prodotti dal comando gam.check(myregression, k.rep = 1000)
non sono così promettenti.
Qualcuno può suggerire un prossimo passo per questo modello? Sono felice di fornire qualsiasi altra informazione che ritieni possa essere utile per comprendere i progressi che ho fatto finora. Grazie per tutto l'aiuto che potete fornire.