Ho un set di dati in cui la frequenza degli eventi è molto bassa (40.000 su ). Sto applicando la regressione logistica su questo. Ho avuto una discussione con qualcuno in cui è emerso che la regressione logistica non darebbe una buona matrice di confusione su dati a così basso tasso di eventi. Ma a causa del problema aziendale e del modo in cui è stato definito, non posso aumentare il numero di eventi da 40.000 a un numero maggiore, anche se concordo sul fatto che posso eliminare una popolazione non significativa.
Per favore dimmi le tue opinioni su questo, in particolare:
- L'accuratezza della regressione logistica dipende dalla frequenza degli eventi o esiste una frequenza minima degli eventi raccomandata?
- Esiste una tecnica speciale per i dati a basso tasso di eventi?
- L'eliminazione della mia popolazione senza eventi sarebbe utile per l'accuratezza del mio modello?
Sono nuovo nel modellismo statistico, quindi perdona la mia ignoranza e per favore affronta tutte le questioni associate a cui potrei pensare.
Grazie,