Rimuovere i duplicati dal set di addestramento per la classificazione

9

Diciamo che ho un sacco di righe per un problema di classificazione:

X_{1}, . . . X_{N}, Y

$X_1, ... X_N, Y$

Dove sono le caratteristiche / i predittori e è la classe a cui appartiene la combinazione di caratteristiche della riga. $X_1, ..., X_N$ $Y$

Molte combinazioni di funzioni e le loro classi sono ripetute nel set di dati, che sto usando per adattarsi a un classificatore. Mi chiedo solo se sia accettabile rimuovere i duplicati (sostanzialmente eseguo un file group by X1 ... XN Yin SQL)? Grazie.

PS:

Questo è per un set di dati solo presenza binaria in cui i priori di classe sono piuttosto distorti

— cs0815
fonte

13

No, non è accettabile Le ripetizioni sono ciò che fornisce il peso delle prove.

Se rimuovi i tuoi duplicati, un trifoglio a quattro foglie è significativo quanto un normale trifoglio a tre foglie, poiché ciascuno si verificherà una volta, mentre nella vita reale c'è un quadrifoglio per ogni 10.000 trifogli regolari.

Anche se i tuoi priori sono "piuttosto distorti", come dici tu, lo scopo del set di addestramento è quello di accumulare esperienze di vita reale, che non otterrai se perdi le informazioni sulla frequenza.

— Carlos Accioly
fonte

1

Sono d'accordo con la risposta precedente ma ecco le mie prenotazioni. Si consiglia di rimuovere i duplicati mentre si separano i campioni per l'addestramento e i test per classificatori specifici come gli alberi decisionali. Ad esempio, il 20% dei tuoi dati apparteneva a una particolare classe e di quelli infiltrati nei test, quindi algoritmi come gli alberi decisionali creeranno gateway per quella classe con i campioni duplicati. Ciò potrebbe fornire risultati fuorvianti sul set di test perché essenzialmente esiste un gateway molto specifico per l'output corretto. $\frac{1}{4}^{th}$

Quando si distribuisce quel classificatore su dati completamente nuovi, si potrebbero ottenere risultati sorprendentemente scadenti se non ci sono campioni simili ai suddetti campioni del 20%.

Argomento : si potrebbe sostenere che questa situazione indica un set di dati difettoso, ma penso che ciò sia vero per le applicazioni della vita reale.

La rimozione di duplicati per reti neurali, modelli bayesiani ecc. Non è accettabile.

— Rakshit Kothari
fonte

Un'altra soluzione possibile potrebbe essere quella di ponderare i duplicati in base alla loro frequenza di occorrenza.

— Rakshit Kothari,