Vorrei studiare eventi rari in una popolazione finita. Dal momento che non sono sicuro di quale sia la strategia più adatta, apprezzerei i suggerimenti e i riferimenti relativi a questa questione, anche se sono ben consapevole che è stata ampiamente trattata. Non so davvero da dove cominciare.
Il mio problema è di scienze politiche e ho una popolazione limitata che comprende 515.843 documenti. Sono associati a una variabile dipendente binaria con 513.334 "0" se 2.509 "1" s. Posso coniare i miei "1" come eventi rari poiché rappresentano solo lo 0,49% della popolazione.
Ho un set di circa 10 variabili indipendenti con cui vorrei costruire un modello per spiegare la presenza di "1" s. Come molti di noi, ho letto l'articolo del 2001 di King & Zeng sulla correzione di eventi rari. Il loro approccio era quello di utilizzare un disegno caso-controllo per ridurre il numero di "0" s, quindi applicare la correzione all'intercetta.
Tuttavia, questo post afferma che l'argomento di King & Zeng non era necessario se avessi già raccolto i miei dati su tutta la popolazione, il che è il mio caso. Pertanto, devo usare il modello logit classico. Sfortunatamente per me, anche se ottengo buoni coefficienti significativi, il mio modello è completamente inutile in termini di previsione (non riesce a prevedere il 99,48% dei miei "1").
Dopo aver letto l'articolo di King & Zeng, volevo provare un disegno caso-controllo e ho selezionato solo il 10% degli "0" con tutti gli "1". Con quasi gli stessi coefficienti, il modello è stato in grado di prevedere quasi un terzo degli "1" se applicato a tutta la popolazione. Certo, ci sono molti falsi positivi.
Ho quindi tre domande che vorrei farti:
1) Se l'approccio di King & Zeng è pregiudizievole quando si ha piena conoscenza della popolazione, perché usano una situazione in cui conoscono la popolazione nel loro articolo per dimostrare il loro punto?
2) Se ho coefficienti buoni e originali in una regressione logit, ma un potere predittivo molto scarso, ciò significa che la variazione spiegata da queste variabili non ha senso?
3) Qual è l'approccio migliore per affrontare eventi rari? Ho letto del modello di reinserimento di King, dell'approccio di Firth, del logit esatto, ecc. Devo confessare che sono perso tra tutte queste soluzioni.