Sto lavorando a un progetto di Machine Learning con dati che sono già (fortemente) distorti dalla selezione dei dati.
Supponiamo che tu abbia una serie di regole codificate. Come si crea un modello di apprendimento automatico per sostituirlo, quando tutti i dati che può utilizzare sono dati già filtrati da tali regole?
Per chiarire le cose, immagino che l'esempio migliore sarebbe la valutazione del rischio di credito : l'attività è quella di filtrare tutti i clienti che potrebbero non riuscire a effettuare un pagamento.
- Ora, gli unici dati (etichettati) che hai provengono da clienti che sono stati accettati dal set di regole, perché solo dopo aver accettato vedrai se qualcuno paga o meno (ovviamente). Non sai quanto sia buono l'insieme di regole e quanto influenzeranno la distribuzione pagata a non pagata. Inoltre, si hanno dati non etichettati dai client che sono stati rifiutati, sempre a causa del set di regole. Quindi non sai cosa sarebbe successo con quei clienti se fossero stati accettati.
Ad esempio una delle regole potrebbe essere: "Se l'età del cliente <18 anni, allora non accetta"
Il classificatore non ha modo di imparare come gestire i client che sono stati filtrati da queste regole. In che modo il classificatore dovrebbe imparare il modello qui?
Ignorando questo problema, il modello verrebbe esposto a dati che non ha mai incontrato prima. Fondamentalmente, voglio stimare il valore di f (x) quando x è al di fuori di [a, b] qui.