In molte applicazioni di apprendimento automatico, i cosiddetti metodi di aumento dei dati hanno permesso di costruire modelli migliori. Ad esempio, supponi un set di addestramento di immagini di cani e gatti. Ruotando, specchiando, regolando il contrasto, ecc. È possibile generare immagini aggiuntive da quelle originali.
Nel caso delle immagini, l'aumento dei dati è relativamente semplice. Tuttavia, supponiamo (ad esempio) che uno abbia un set di addestramento di campioni e poche centinaia di variabili continue che rappresentano cose diverse. L'aumento dei dati non sembra più così intuitivo. Cosa si potrebbe fare in tal caso?