Rimuovere i duplicati dal set di addestramento per la classificazione


9

Diciamo che ho un sacco di righe per un problema di classificazione:

X1,...XN,Y

Dove sono le caratteristiche / i predittori e è la classe a cui appartiene la combinazione di caratteristiche della riga.X1,...,XNY

Molte combinazioni di funzioni e le loro classi sono ripetute nel set di dati, che sto usando per adattarsi a un classificatore. Mi chiedo solo se sia accettabile rimuovere i duplicati (sostanzialmente eseguo un file group by X1 ... XN Yin SQL)? Grazie.

PS:

Questo è per un set di dati solo presenza binaria in cui i priori di classe sono piuttosto distorti

Risposte:


13

No, non è accettabile Le ripetizioni sono ciò che fornisce il peso delle prove.

Se rimuovi i tuoi duplicati, un trifoglio a quattro foglie è significativo quanto un normale trifoglio a tre foglie, poiché ciascuno si verificherà una volta, mentre nella vita reale c'è un quadrifoglio per ogni 10.000 trifogli regolari.

Anche se i tuoi priori sono "piuttosto distorti", come dici tu, lo scopo del set di addestramento è quello di accumulare esperienze di vita reale, che non otterrai se perdi le informazioni sulla frequenza.


1

Sono d'accordo con la risposta precedente ma ecco le mie prenotazioni. Si consiglia di rimuovere i duplicati mentre si separano i campioni per l'addestramento e i test per classificatori specifici come gli alberi decisionali. Ad esempio, il 20% dei tuoi dati apparteneva a una particolare classe e di quelli infiltrati nei test, quindi algoritmi come gli alberi decisionali creeranno gateway per quella classe con i campioni duplicati. Ciò potrebbe fornire risultati fuorvianti sul set di test perché essenzialmente esiste un gateway molto specifico per l'output corretto.14th

Quando si distribuisce quel classificatore su dati completamente nuovi, si potrebbero ottenere risultati sorprendentemente scadenti se non ci sono campioni simili ai suddetti campioni del 20%.

Argomento : si potrebbe sostenere che questa situazione indica un set di dati difettoso, ma penso che ciò sia vero per le applicazioni della vita reale.

La rimozione di duplicati per reti neurali, modelli bayesiani ecc. Non è accettabile.


Un'altra soluzione possibile potrebbe essere quella di ponderare i duplicati in base alla loro frequenza di occorrenza.
Rakshit Kothari,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.