Sto lavorando allo sviluppo di un modello predittivo del rischio assicurativo. Questi modelli sono di "eventi rari" come la previsione del no-show delle compagnie aeree, il rilevamento di guasti hardware, ecc. Mentre preparavo il mio set di dati, ho cercato di applicare la classificazione, ma non sono riuscito a ottenere classificatori utili a causa dell'alta percentuale di casi negativi .
Non ho molta esperienza in statistica e modellazione di dati oltre a un corso di statistica delle scuole superiori, quindi sono un po 'confuso.
Come primo pensiero, ho pensato di usare un modello di processo di Poisson disomogeneo. L'ho classificato in base ai dati dell'evento (data, lat, lon) per ottenere una buona stima della possibilità di un rischio in un determinato momento in un determinato giorno in un determinato luogo.
Mi piacerebbe sapere quali sono le metodologie / algoritmi per prevedere eventi rari?
Cosa mi consigliate come approccio per affrontare questo problema?