Diciamo che ho un sacco di righe per un problema di classificazione:
Dove sono le caratteristiche / i predittori e è la classe a cui appartiene la combinazione di caratteristiche della riga.
Molte combinazioni di funzioni e le loro classi sono ripetute nel set di dati, che sto usando per adattarsi a un classificatore. Mi chiedo solo se sia accettabile rimuovere i duplicati (sostanzialmente eseguo un file group by X1 ... XN Y
in SQL)? Grazie.
PS:
Questo è per un set di dati solo presenza binaria in cui i priori di classe sono piuttosto distorti