L'approccio migliore è quello di raccogliere quanti più dati possibile comodamente. Quindi iniziare con il progetto e creare un modello di dati.
Ora puoi valutare il tuo modello per vedere se ha un bias elevato o una varianza elevata.
Alta varianza : in questa situazione vedrai che l'errore di convalida incrociata è maggiore dell'errore di allenamento dopo la convergenza. Se si traccia lo stesso rispetto alla dimensione dei dati di allenamento, c'è un divario significativo.
Distorsione elevata : in questa situazione, l'errore di convalida incrociata è leggermente superiore all'errore di allenamento, che di per sé è elevato quando viene tracciato rispetto alla dimensione dei dati di allenamento. Intendo, è possibile inserire sottoinsiemi di dati di allenamento che si hanno e continuare ad aumentare la dimensione del sottoinsieme ed errori di trama.
Se vedi che il tuo modello ha una varianza elevata (sovraprezzo), l'aggiunta di più dati di solito aiuta in contrasto con il modello di polarizzazione elevata (sottoadattamento) in cui l'aggiunta di nuovi dati di allenamento non aiuta.
Inoltre per classe devi cercare di ottenere lo stesso numero di immagini, altrimenti i set di dati possono essere distorti (più di un tipo).
Inoltre, ti suggerisco di utilizzare TensorFlow , leggi di più sul classificatore di immagini INCEPTION di GOOGLE . È già un classificatore qualificato sul database di immagini di Google e puoi usarlo per le tue immagini, in questo modo i requisiti per il numero di immagini diminuiscono drasticamente.