La convalida incrociata è sufficiente per evitare un eccesso di adattamento?


17

Se ho un dato ed eseguo una classificazione (diciamo foresta casuale su questi dati) con convalida incrociata (diciamo 5 volte), potrei concludere che non c'è adattamento eccessivo nel mio metodo?

Risposte:


20

Affatto. Tuttavia, la convalida incrociata ti aiuta a valutare in che misura il tuo metodo si adatta.

Ad esempio, se i dati di allenamento al quadrato R di una regressione sono 0,50 e il quadrato R crossvalidato è 0,48, difficilmente si ha alcun eccesso di adattamento e ci si sente bene. D'altra parte, se il R-quadrato crossvalidato è solo 0,3 qui, allora una parte considerevole delle prestazioni del tuo modello deriva da un eccesso di adattamento e non da relazioni vere. In tal caso, è possibile accettare prestazioni inferiori o provare diverse strategie di modellazione con meno overfitting.


8
Penso che questa risposta sia corretta nello spirito, ma non sono d'accordo con la caratterizzazione di un eccesso di adattamento nel secondo paragrafo. Non credo che si verifichi un eccesso di adattamento quando si verifica un errore del treno - errore di test> qualche limite, invece, si definirebbe un adattamento eccessivo come una situazione in cui l'aumento della complessità del modello tende leggermente ad aumentare l'errore di tenuta. La necessità di confrontare i tuoi errori di treno e di prova comporterà spesso modelli molto poco adatti .
Matthew Drury,

7

La convalida incrociata è una buona tecnica, ma non perfetta, per ridurre al minimo l'eccessivo adattamento.

La convalida incrociata non funzionerà bene con i dati esterni se i dati in tuo possesso non sono rappresentativi dei dati che proverai a prevedere!

Ecco due situazioni concrete in cui la convalida incrociata presenta difetti:

  • Stai usando il passato per predire il futuro: spesso è un grande presupposto supporre che le osservazioni passate verranno dalla stessa popolazione con la stessa distribuzione delle osservazioni future. La convalida incrociata su un set di dati estratto dal passato non protegge da questo.
  • C'è un pregiudizio nei dati che raccogli: i dati che osservi sono sistematicamente diversi dai dati che non osservi. Ad esempio, conosciamo il pregiudizio dei rispondenti in coloro che hanno scelto di partecipare a un sondaggio.

3
Avere il set di dati che non rappresenta una scarsa rappresentazione della popolazione reale è generalmente considerato un problema separato di eccesso di adattamento. Naturalmente, è corretto che la convalida incrociata non li risolva.
Cliff AB,

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.