Applicazione della regressione logistica con basso tasso di eventi


15

Ho un set di dati in cui la frequenza degli eventi è molto bassa (40.000 su ). Sto applicando la regressione logistica su questo. Ho avuto una discussione con qualcuno in cui è emerso che la regressione logistica non darebbe una buona matrice di confusione su dati a così basso tasso di eventi. Ma a causa del problema aziendale e del modo in cui è stato definito, non posso aumentare il numero di eventi da 40.000 a un numero maggiore, anche se concordo sul fatto che posso eliminare una popolazione non significativa.12105

Per favore dimmi le tue opinioni su questo, in particolare:

  1. L'accuratezza della regressione logistica dipende dalla frequenza degli eventi o esiste una frequenza minima degli eventi raccomandata?
  2. Esiste una tecnica speciale per i dati a basso tasso di eventi?
  3. L'eliminazione della mia popolazione senza eventi sarebbe utile per l'accuratezza del mio modello?

Sono nuovo nel modellismo statistico, quindi perdona la mia ignoranza e per favore affronta tutte le questioni associate a cui potrei pensare.

Grazie,


3
40000 / 12e5 = 3,3%, questo non mi sembra molto basso.
GaBorgulya,

1
Grazie nel caso in cui le persone abbiano bisogno di più contesto per decidere il tasso di eventi basso e alto, questi dati sono del settore assicurativo.
Ayush Biyani,

3
Potresti essere interessato alla regressione logistica nei dati di eventi rari .
Bernd Weiss,

Risposte:


11

Ho intenzione di rispondere alle tue domande fuori servizio:

3 L'eliminazione della mia popolazione senza eventi sarebbe utile per l'accuratezza del mio modello?

Ogni osservazione fornirà alcune informazioni aggiuntive sul parametro (attraverso la funzione di verosimiglianza). Pertanto non ha senso eliminare i dati, poiché si perderebbero solo informazioni.

1 L'accuratezza della regressione logistica dipende dalla frequenza degli eventi o esiste una frequenza minima consigliata?

Tecnicamente sì: un'osservazione rara è molto più istruttiva (vale a dire, la funzione di probabilità sarà più ripida). Se il rapporto degli eventi fosse 50:50, otterresti bande di confidenza molto più strette (o intervalli credibili se sei Bayesiano) per la stessa quantità di dati . Tuttavia, non puoi scegliere la frequenza degli eventi (a meno che non stia facendo uno studio caso-controllo), quindi dovrai accontentarti di ciò che hai.

2 Esiste una tecnica speciale per i dati a basso tasso di eventi?

Il problema più grande che potrebbe sorgere è la perfetta separazione : ciò accade quando una combinazione di variabili fornisce tutti i non eventi (o tutti gli eventi): in questo caso, le stime dei parametri di massima verosimiglianza (e i loro errori standard) si avvicinano all'infinito (sebbene di solito l'algoritmo si fermerà in anticipo). Esistono due possibili soluzioni:

a) rimuovere i predittori dal modello: anche se questo farà convergere il tuo algoritmo, rimuoverai la variabile con il potere più esplicativo, quindi questo ha senso solo se il tuo modello era troppo adatto all'inizio (come ad esempio adattando troppe interazioni complicate) .

b) utilizzare una sorta di penalizzazione, come una distribuzione precedente, che ridurrà le stime a valori più ragionevoli.


+1 Aggiungerei anche che ho visto contesti in cui le persone hanno ripesato i loro dati a 50:50. Il compromesso sembra essere un miglioramento della capacità del modello di classificare (presupponendo che venga scelta una buona soglia) rispetto a una perdita di informazioni sulla prevalenza complessiva e ad alcune difficoltà aggiuntive nell'interpretazione dei coefficienti.
David J. Harris,

1
@David: ho anche sentito parlare di persone che ripesano e usano schemi pseudo-bootstrap complicati in cui ricampionano solo la classe ad alta frequenza. Per tutte queste tecniche, alla fine stai eliminando (o inventando) i dati. Direi che se questo migliora il tuo modello, probabilmente stai adattando il modello sbagliato. Vedi anche i miei commenti qui: stats.stackexchange.com/questions/10356/…
Simon Byrne,

1) Scusa se non ero chiaro: stavo parlando di cambiare l'influenza relativa degli eventi e dei non eventi, come con l'argomento "pesi" nella glmfunzione di R. Nel peggiore dei casi, è come buttare via una parte di ogni dato in sovrappeso, suppongo, ma non è proprio la stessa cosa. 2) Come ho detto, ci sono compromessi associati a questa decisione. Probabilmente ha più senso in contesti in cui la popolazione da cui viene campionato non è ben definita e il tasso di eventi vero non è significativo per cominciare. Certamente non lo consiglierei su tutta la linea.
David J. Harris,

2

Esiste un'alternativa migliore all'eliminazione dei non eventi per i dati temporali o spaziali: è possibile aggregare i dati nel tempo / spazio e modellare i conteggi come Poisson. Ad esempio, se il tuo evento è "l'eruzione vulcanica si verifica il giorno X", non molti giorni avranno un'eruzione vulcanica. Tuttavia, se raggruppi i giorni in settimane o mesi, ad esempio "numero di eruzioni vulcaniche nel mese X", avrai ridotto il numero di eventi e un numero maggiore di eventi avrà valori diversi da zero.


6
Devo dire che questo consiglio non risponde affatto alla domanda. 1) Non c'è nulla nella domanda che suggerisce che l'OP abbia a che fare con dati spaziali o temporali. 2) In che modo l'aggregazione dei dati aiuterebbe a identificare eventuali relazioni significative (utilizza meno informazioni rispetto alle unità originali!)
Andy W

2
Inoltre, come nota, affinché qualsiasi relazione osservata si verifichi a livello aggregato, deve essere presente a livello delle unità originali, sebbene una relazione a livello aggregato non rifletta necessariamente quale sia la relazione tra le due variabili a livello disaggregato livello. Vedi qmrg.org.uk/files/2008/11/38-maup-openshaw.pdf
Andy W

d'accordo con andy.
Ayush Biyani,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.