Sto eseguendo modelli di regressione LOESS in R e desidero confrontare le uscite di 12 modelli diversi con dimensioni del campione variabili. Posso descrivere i modelli attuali in modo più dettagliato se aiuta a rispondere alla domanda.
Ecco le dimensioni del campione:
Fastballs vs RHH 2008-09: 2002
Fastballs vs LHH 2008-09: 2209
Fastballs vs RHH 2010: 527
Fastballs vs LHH 2010: 449
Changeups vs RHH 2008-09: 365
Changeups vs LHH 2008-09: 824
Changeups vs RHH 2010: 201
Changeups vs LHH 2010: 330
Curveballs vs RHH 2008-09: 488
Curveballs vs LHH 2008-09: 483
Curveballs vs RHH 2010: 213
Curveballs vs LHH 2010: 162
Il modello di regressione LOESS è un adattamento superficiale, in cui la posizione X e la posizione Y di ciascun campo da baseball viene utilizzata per prevedere la probabilità di colpo oscillante, oscillante. Tuttavia, vorrei fare un confronto tra tutti e 12 questi modelli, ma l'impostazione dello stesso intervallo (ovvero intervallo = 0,5) produrrà risultati diversi poiché esiste una gamma così ampia di dimensioni del campione.
La mia domanda di base è come determinare la durata del modello? Uno span più elevato uniforma di più l'adattamento, mentre uno span inferiore cattura più trend ma introduce rumore statistico se i dati sono troppo pochi. Uso un intervallo maggiore per campioni di dimensioni inferiori e un intervallo inferiore per campioni di dimensioni maggiori.
Cosa dovrei fare? Qual è una buona regola empirica quando si imposta l'intervallo per i modelli di regressione LOESS in R? Grazie in anticipo!