Il down-sampling modifica i coefficienti di regressione logistica?


34

Se ho un set di dati con una classe positiva molto rara e eseguo il down-campionamento della classe negativa, quindi eseguo una regressione logistica, devo regolare i coefficienti di regressione per riflettere il fatto che ho cambiato la prevalenza della classe positiva?

Ad esempio, supponiamo che io abbia un set di dati con 4 variabili: Y, A, B e C. Y, A e B sono binari, C è continuo. Per 11.100 osservazioni Y = 0 e per 900 Y = 1:

set.seed(42)
n <- 12000
r <- 1/12
A <- sample(0:1, n, replace=TRUE)
B <- sample(0:1, n, replace=TRUE)
C <- rnorm(n)
Y <- ifelse(10 * A + 0.5 * B + 5 * C + rnorm(n)/10 > -5, 0, 1)

Adatto una regressione logistica per prevedere Y, dati A, B e C.

dat1 <- data.frame(Y, A, B, C)
mod1 <- glm(Y~., dat1, family=binomial)

Tuttavia, per risparmiare tempo ho potuto rimuovere 10.200 osservazioni non Y, dando 900 Y = 0 e 900 Y = 1:

require('caret')
dat2 <- downSample(data.frame(A, B, C), factor(Y), list=FALSE)
mod2 <- glm(Class~., dat2, family=binomial)

I coefficienti di regressione dei 2 modelli sembrano molto simili:

> coef(summary(mod1))
              Estimate Std. Error   z value     Pr(>|z|)
(Intercept) -127.67782  20.619858 -6.191983 5.941186e-10
A           -257.20668  41.650386 -6.175373 6.600728e-10
B            -13.20966   2.231606 -5.919353 3.232109e-09
C           -127.73597  20.630541 -6.191596 5.955818e-10
> coef(summary(mod2))
              Estimate  Std. Error     z value    Pr(>|z|)
(Intercept) -167.90178   59.126511 -2.83970391 0.004515542
A           -246.59975 4059.733845 -0.06074284 0.951564016
B            -16.93093    5.861286 -2.88860377 0.003869563
C           -170.18735   59.516021 -2.85952165 0.004242805

Il che mi porta a credere che il down-sampling non abbia influenzato i coefficienti. Tuttavia, questo è un singolo esempio inventato, e preferirei saperlo con certezza.


8
A parte l'intercettazione, si stanno valutando gli stessi parametri di popolazione quando si effettua il down-campionamento ma con meno precisione, tranne l'intercettazione, che è possibile stimare quando si conosce la prevalenza della popolazione della risposta. Vedi Hosmer & Lemeshow (2000), Regressione logistica applicata , Cap 6.3 per una prova. A volte puoi introdurre la separazione, anche se non comunemente, mentre esegui il down-campionamento della risposta maggioritaria.
Scortchi - Ripristina Monica

@Scortchi Pubblica il tuo commento come risposta-- questo sembra sufficiente per la mia domanda. Grazie per il riferimento.
Zach,

@Scortchi e Zach: Secondo il modello downsampled ( mod2), Pr(>|z|)per Aè quasi 1. Non possiamo rifiutare l'ipotesi nulla che il coefficiente Asia 0, quindi abbiamo perso una covariata che viene utilizzata in mod1. Non è questa una differenza sostanziale?
Zhubarb

@Zhubarb: Come ho notato, potresti introdurre la separazione, rendendo le stime di errore standard Wald completamente inaffidabili.
Scortchi - Ripristina Monica

Vedi anche Scott 2006
StasK,

Risposte:


29

Il down-sampling equivale ai progetti di controllo dei casi nelle statistiche mediche: stai fissando il conteggio delle risposte e osservando i modelli di covariata (predittori). Forse il riferimento chiave è Prentice & Pyke (1979), "Modelli di incidenza delle malattie logistiche e studi caso-controllo", Biometrika , 66 , 3.

Hanno usato il teorema di Bayes per riscrivere ogni termine nella probabilità per la probabilità che un determinato modello di covariata sia condizionato dall'essere un caso o un controllo come due fattori; uno che rappresenta una normale regressione logistica (probabilità di essere un caso o un controllo subordinato a un modello di covariata) e l'altro che rappresenta la probabilità marginale del modello di covariata. Hanno dimostrato che la massimizzazione della probabilità complessiva soggetta al vincolo che le probabilità marginali di essere un caso o un controllo siano fissate dallo schema di campionamento fornisce le stesse stime del rapporto di probabilità massimizzando il primo fattore senza un vincolo (cioè effettuando una regressione logistica ordinaria) .

β0β^0π

β^0=β^0log(1ππn1n0)

n0n1

Ovviamente, eliminando i dati che hai avuto il problema di raccogliere, anche se la parte meno utile, stai riducendo la precisione delle tue stime. I vincoli sulle risorse computazionali sono l'unica buona ragione che conosco per fare questo, ma lo menziono perché alcune persone sembrano pensare che "un set di dati equilibrato" sia importante per qualche altro motivo che non sono mai stato in grado di accertare.


Grazie per la risposta dettagliata E sì, la ragione per cui lo sto facendo eseguendo il modello completo (senza down-sampling) è proibitiva dal punto di vista computazionale.
Zach,

Caro @Scortchi, grazie per la spiegazione, ma in un caso in cui voglio usare la regressione logistica, il set di dati bilanciato sembra necessario indipendentemente dalle risorse computazionali. Ho cercato di usare "Logit a probabilità ridotta con pregiudizio ridotto di Firth" senza alcun risultato. Quindi a quanto pare il down-campionamento è l'unica alternativa per me, giusto?
Shahin,

@Shahin Bene, (1) perché non sei soddisfatto di una regressione logistica adeguata alla massima verosimiglianza? & (2) cosa non funziona esattamente usando il metodo di Firth?
Scortchi - Ripristina Monica

@Scortchi, Il problema è che il modello è molto cattivo nel rilevamento delle successistanze. In altre parole, TPR molto basso. Modificando la soglia, il TPR aumenta, ma la precisione è pessima, il che significa che oltre il 70% delle istanze etichettate come positive sono effettivamente negativi. Ho letto che nei rari eventi, la regressione logistica non va bene, è qui che entra in gioco il metodo Firth, o almeno uno dei ruoli che può assumere. Ma i risultati del metodo di Firth sembravano essere molto simili al solito logit. Ho pensato che potrei sbagliarmi nel fare Firth's, ma apparentemente è tutto a posto
Shahin,

4
@Shahin: sembra che abbaia lì l'albero sbagliato: il down-sampling non migliorerà la discriminazione del tuo modello. La correzione o la regolarizzazione del bias potrebbe (su nuovi dati - stai valutando le sue prestazioni su un set di test?), Ma una specifica più complessa potrebbe forse aiutare, o potrebbe semplicemente essere che hai bisogno di più predittori informativi. Probabilmente dovresti porre una nuova domanda, fornendo i dettagli dei dati, il contesto dell'oggetto, il modello, la diagnostica e i tuoi obiettivi.
Scortchi - Ripristina Monica
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.