In una semplice classificazione, abbiamo due classi: classe 0 e classe 1. In alcuni dati ho solo valori per la classe 1, quindi nessuno per la classe 0. Ora sto pensando di creare un modello per modellare i dati per la classe 1. Quindi, quando arrivano nuovi dati, questo modello viene applicato ai nuovi dati e trova una probabilità che dice quanto sia probabile che i nuovi dati si adattino a questo modello. Quindi confrontandomi con una soglia, posso filtrare dati inappropriati.
Le mie domande sono:
- È un buon modo di lavorare con tali problemi?
- Un classificatore RandomForest può essere utilizzato per questo caso? Devo aggiungere dati artificiali per la classe 0 che spero che il classificatore consideri rumore?
- Qualche altra idea può aiutare per questo problema?