Come eseguire la suddivisione dei dati e convalidare il treno?


14

Sto facendo la classificazione delle immagini usando l'apprendimento automatico.

Supponiamo che io abbia alcuni dati di allenamento (immagini) e li dividerò in set di addestramento e validazione. E voglio anche aumentare i dati (produrre nuove immagini da quelle originali) con rotazioni casuali e iniezione di rumore. Augmentaion viene eseguito offline.

Qual è il modo corretto di aumentare i dati?

  1. Dividi innanzitutto i dati in set di formazione e convalida, quindi esegui l'aumento dei dati su entrambi i set di formazione e convalida.

  2. Dividi innanzitutto i dati in set di addestramento e convalida, quindi aumenta i dati solo sul set di addestramento.

  3. Innanzitutto esegui l'aumento dei dati sui dati, quindi suddividili in formazione e set di convalida.


1
"Aumento dei dati" ha più di un significato; sarebbe utile modificare la tua domanda per chiarire qual è la tua, o semplicemente per fare un esempio.
Scortchi - Ripristina Monica

Se si prevede di eseguire il TTA, l'aumento deve essere applicato al set di convalida come al set di test.
Abby Yorker,

Risposte:


18

Dividi innanzitutto i dati in set di addestramento e convalida, quindi esegui l'aumento dei dati sul set di addestramento.

Usi il tuo set di validazione per provare a stimare come funziona il tuo metodo sui dati del mondo reale, quindi dovrebbe contenere solo dati del mondo reale. L'aggiunta di dati aumentati non migliorerà l'accuratezza della convalida. Nella migliore delle ipotesi dirà qualcosa sul modo in cui il tuo metodo risponde all'aumento dei dati e nel peggiore dei casi rovina i risultati della convalida e l'interpretazione.


Sono abbastanza curioso di qualcosa nella tua risposta. Se il mio criterio per interrompere la formazione di una CNN sta riducendo la perdita di convalida, credi che l'aumento dei dati sui dati di convalida sia una buona scelta?
Mad

1
No, continuo a pensare che ciò "rovinerebbe i risultati della convalida e l'interpretazione", poiché l'accuratezza della convalida non è più un buon proxy per l'accuratezza sui nuovi dati invisibili se si aumentano i dati di convalida.
burk

quindi non è necessario applicare l'aumento dei dati sulla convalida e sui test dei dati?
Aadnan Farooq,

@AadnanFarooqA No. Normalmente, quando si utilizza il modello per le previsioni, è necessario eseguire le stesse operazioni sui dati di test e di convalida che si intende fare sui dati invisibili.
Burk,

1
@AadnanFarooqA Normalmente, dopo la divisione, è necessario applicare solo l'aumento sui dati di allenamento.
Burk,

4

non fare mai 3, poiché otterrai perdite. ad esempio supponiamo che l'aumento sia uno spostamento di 1 pixel a sinistra. se la suddivisione non è in grado di aumentare, è possibile ottenere campioni di dati molto simili sia in treno che in convalida.


0

L'aumento dei dati significa l'aggiunta di dati / informazioni esterne ai dati esistenti che vengono analizzati.

Pertanto, poiché tutti i dati aumentati verrebbero utilizzati per l'apprendimento automatico, il seguente processo sarebbe più adatto:

Aumenta i dati -> Suddivisione dei dati


Grazie per la risposta. Va bene che un campione e il campione aumentato, che è abbastanza simile a quello originale, sono distribuiti in set diversi?
yangjie,

Intendi i dati esistenti come set di training e i dati aumentati come set di validazione? Quindi, NO
Dawny33,

La suddivisione è casuale, quindi intendo se eseguo l'aumento dei dati e quindi li divido, è probabile che alcuni dati esistenti (non tutti) vengano suddivisi nel set di addestramento, mentre i dati aumentati vanno al set di convalida.
yangjie,

Per aumento, intendi aggiungere? I dati aumentati sono i dati che supportano i dati attuali in tutti i punti. Quindi, se la suddivisione è casuale, la suddivisione comporterebbe la stessa quantità di dati augmente in entrambi i set, come quella dei dati esistenti
Dawny33

C'è qualche riferimento di carta per questo?
Aadnan Farooq,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.