Sto eseguendo la preelaborazione dei dati e dopo costruirò un convoglio sui miei dati.
La mia domanda è: supponiamo di avere un set di dati totale con 100 immagini, stavo calcolando la media per ciascuna delle 100 immagini e quindi sottratto da ciascuna delle immagini, quindi diviso in treno e set di convalida e faccio lo stesso passaggi per l'elaborazione su un determinato set di test, ma sembra che questo non sia un modo corretto di farlo secondo questo link: http://cs231n.github.io/neural-networks-2/#datapre
" Trabocchetto comune . Un punto importante da chiarire sulla preelaborazione è che qualsiasi statistica di preelaborazione (ad es. La media dei dati) deve essere calcolata solo sui dati di addestramento e quindi applicata ai dati di validazione / test. Ad esempio, calcolare la media e sottrarla da ogni immagine attraverso l'intero set di dati e quindi la divisione dei dati in suddivisioni treno / val / test sarebbe un errore, ma la media deve essere calcolata solo sui dati di allenamento e quindi sottratta equamente da tutte le suddivisioni (treno / val / test). "
Sto indovinando che l'autore sta dicendo che, non calcolare la media e sottrarla all'interno di ogni immagine ma calcolare la media del set di immagini totale (cioè (image1 + ... + image100) / 100) e sottrarre la media per ciascuna immagine.
Non capisco bene qualcuno può spiegare? e forse anche spiegare perché ciò che stavo facendo è sbagliato (se è davvero sbagliato).