Come scegliere la formazione, la convalida incrociata e le dimensioni dei set di test per dati di piccole dimensioni di campioni?


10

Supponiamo che io abbia una piccola dimensione del campione, ad esempio N = 100, e due classi. Come dovrei scegliere la formazione, la validazione incrociata e le dimensioni dei set di test per l'apprendimento automatico?

Vorrei scegliere intuitivamente

  • La formazione imposta la dimensione come 50
  • Convalida incrociata impostare la dimensione 25 e
  • Dimensione del test come 25.

Ma probabilmente questo ha più o meno senso. Come dovrei davvero decidere questi valori? Posso provare diverse opzioni (anche se immagino che non sia così preferibile ... maggiore possibilità di apprendimento eccessivo)?

E se avessi più di due lezioni?


2
100 è troppo piccolo per me. Opterei per una strategia unica per la convalida incrociata e la valutazione dei test.
Memming

Non ho visto alcuna documentazione su questo (dimensioni minime del campione per la convalida). Non so perché. Sembra un problema importante.
charles,

Risposte:


15

+1 puramente per la consulenza sull'ottimizzazione dei parametri e la complessità del modello. ma tutti questi consigli sono fantastici.
charles,

1

Dato che la dimensione del campione è piccola, una buona pratica sarebbe quella di tralasciare la sezione di convalida incrociata e utilizzare un rapporto 60 - 40 o 70 - 30.

Come si può vedere nella sezione 2.8 di Introduzione alla clementina e al data mining e anche nella libreria MSDN - Data mining - Set di training e test è comune un rapporto 70-30. Secondo le lezioni di Machine Learning di Andrew Ng, si raccomanda un rapporto 60 - 20 - 20.

Spero di essere stato utile. I migliori saluti.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.