Un regresso / classificatore lineare può assolutamente essere sovrautilizzato se usato senza cura adeguata.
Ecco un piccolo esempio. Creiamo due vettori, il primo è semplicemente gettoni casuali:5000
set.seed(154)
N <- 5000
y <- rbinom(N, 1, .5)
Il secondo vettore è osservazioni, ciascuna assegnata casualmente a una delle 500 classi casuali:5000500
N.classes <- 500
rand.class <- factor(sample(1:N.classes, N, replace=TRUE))
Non ci dovrebbero essere relazioni tra i nostri lanci y
e le nostre classi casuali rand.class
, sono stati determinati in modo completamente indipendente.
Tuttavia, se proviamo a prevedere il capovolgimento casuale con la classe casuale usando la regressione logistica (un classificatore lineare), sicuramente pensa che ci sia una relazione
M <- glm(y ~ rand.class, family="binomial")
hist(coef(M), breaks=50)
Il vero valore di ognuno di questi coefficienti è zero. Ma come puoi vedere, abbiamo abbastanza diffusione. Questo classificatore lineare è sicuramente troppo adatto.
- 1515y == 1
y == 0
15
"overfitting" non sembra essere definito formalmente. Perché?
L'overfitting può essere meglio compreso nel contesto di una classe di modelli che presenta alcuni parametri di complessità. In questo caso, si potrebbe dire che un modello sia troppo adatto quando si riduce leggermente la complessità, si ottiene una migliore performance fuori dal campione.
Sarebbe molto difficile definire con precisione il concetto in modo indipendente dal modello. Un singolo modello è semplicemente adatto, hai bisogno di qualcosa con cui confrontarlo perché sia sopra o sotto. Nel mio esempio sopra questo confronto era con la verità, ma di solito non si conosce la verità, quindi il modello!
Una certa misura di distanza tra allenamento e prestazioni del set di test non consentirebbe una tale formalizzazione?
C'è un tale concetto, si chiama ottimismo. È definito da:
ω = Etest- Etreno
E
Tuttavia, non si ottiene l'essenza del sovradimensionamento, perché le prestazioni su un set di prova possono essere leggermente peggiori rispetto al treno, anche se un modello di maggiore complessità riduce entrambi .