Come possiamo prevedere eventi rari?

Sto lavorando allo sviluppo di un modello predittivo del rischio assicurativo. Questi modelli sono di "eventi rari" come la previsione del no-show delle compagnie aeree, il rilevamento di guasti hardware, ecc. Mentre preparavo il mio set di dati, ho cercato di applicare la classificazione, ma non sono riuscito a ottenere classificatori utili a causa dell'alta percentuale di casi negativi .

Non ho molta esperienza in statistica e modellazione di dati oltre a un corso di statistica delle scuole superiori, quindi sono un po 'confuso.

Come primo pensiero, ho pensato di usare un modello di processo di Poisson disomogeneo. L'ho classificato in base ai dati dell'evento (data, lat, lon) per ottenere una buona stima della possibilità di un rischio in un determinato momento in un determinato giorno in un determinato luogo.

Mi piacerebbe sapere quali sono le metodologie / algoritmi per prevedere eventi rari?
Cosa mi consigliate come approccio per affrontare questo problema?

— user3378649
fonte

L'approccio standard è " teoria del valore estremo ", c'è un libro eccellente sull'argomento di Stuart Coles (anche se il prezzo attuale sembra piuttosto, err ... estremo).

Il motivo per cui è improbabile che tu ottenga buoni risultati utilizzando i metodi di classificazione o regressione è che questi metodi dipendono in genere dalla previsione della media condizionale dei dati e gli eventi estremi sono generalmente causati dalla congiunzione di fattori "casuali" tutti allineati nella stessa direzione, quindi sono in coda alla distribuzione di risultati plausibili, che di solito sono molto lontani dalla media condizionata. Quello che puoi fare è prevedere l'intera distribuzione condizionale, piuttosto che solo la sua media, e ottenere alcune informazioni sulla probabilità di un evento estremo integrando la coda della distribuzione al di sopra di una certa soglia. Ho scoperto che ha funzionato bene in un'applicazione sul ridimensionamento statistico delle forti precipitazioni .

— Dikran Marsupial
fonte

C'è qualche implementazione di questa teoria su Python?

— user3378649

Siamo spiacenti, non programmo in Python (ancora) quindi non posso farci nulla.

— Dikran Marsupial,

y

$y$

x_{1}, \dots, x_{n}

$x_1,\dots, x_n$

y > Y_{0}

$y>Y_0$

P (y > Y_{0} | x_{1}, \dots, x_{n})

$P(y>Y_0|x_1,\dots,x_n)$

E (y | x_{1}, \dots, x_{n})

$E(y|x_1,\dots,x_n)$

y > Y_{0}

$y>Y_0$

P (y > Y_{0} | x 1, \dots, x_{n})

$P(y>Y_0|x1,\dots,x_n)$

Sì, puoi farlo, tuttavia la funzione di costo che stai minimizzando non è focalizzata sull'ottenere le code della distribuzione corretta, quindi se è quello che ti interessa, è meglio provare a modellare gli eventi nelle code in modo più esplicito .

— Dikran Marsupial,