Ho 2 set di dati, uno con istanze positive di ciò che vorrei rilevare e uno con istanze senza etichetta. Quali metodi posso usare?
Ad esempio, supponiamo di voler comprendere il rilevamento di e-mail di spam sulla base di alcune caratteristiche e-mail strutturate. Abbiamo un set di dati di 10000 e-mail di spam e un set di dati di 100000 e-mail per i quali non sappiamo se sono spam o meno.
Come possiamo affrontare questo problema (senza etichettare manualmente nessuno dei dati senza etichetta)?
Cosa possiamo fare se disponiamo di ulteriori informazioni sulla percentuale di spam nei dati senza etichetta (ovvero se stimiamo che tra il 20-40% delle 100000 e-mail senza etichetta sono spam)?