Per semplicità, supponiamo di lavorare sul classico esempio di e-mail spam / non spam.
Ho un set di 20000 e-mail. Di questi, so che 2000 sono spam ma non ho alcun esempio di e-mail non spam. Vorrei prevedere se i restanti 18000 sono spam o meno. Idealmente, il risultato che sto cercando è una probabilità (o un valore p) che l'e-mail sia spam.
Quale algoritmo (i) posso usare per fare una previsione ragionevole in questa situazione?
Al momento, sto pensando a un metodo basato sulla distanza che mi direbbe quanto sia simile la mia e-mail a una e-mail di spam nota. Quali opzioni ho?
Più in generale, posso usare un metodo di apprendimento supervisionato o devo necessariamente avere casi negativi nella mia formazione per farlo? Sono limitato ad approcci di apprendimento senza supervisione? E i metodi semi supervisionati?