Non sono d'accordo con le altre risposte nei commenti, quindi è giusto dare le mie. Sia la risposta (conti buoni / cattivi) e le covariate.XYX
Per la regressione logistica, il modello è il seguente:
log( p ( Y= 1 | X= x )p ( Y= 0 | X= x )) =α+ ∑Ki = 1Xioβio
Pensa a come potrebbero essere raccolti i dati:
- È possibile selezionare le osservazioni in modo casuale da un'ipotetica "popolazione"
- È possibile selezionare i dati in base a e vedere quali valori di verificano.YXY
Entrambi sono a posto per il modello di cui sopra, come si sta solo modellando la distribuzione di . Questi sarebbero chiamati uno studio prospettico .Y| X
In alternativa:
- È possibile selezionare le osservazioni in base a (diciamo 100 di ciascuna) e vedere la prevalenza relativa di (ovvero si sta stratificando su ). Questo si chiama studio retrospettivo o caso-controllo .X YYXY
(Potresti anche selezionare i dati basati su e alcune variabili di : questo sarebbe uno studio stratificato di controllo caso, ed è molto più complicato con cui lavorare, quindi non entrerò qui).XYX
C'è un buon risultato dall'epidemiologia (vedi Prentice e Pyke (1979) ) che per uno studio caso-controllo, le stime di massima verosimiglianza per possono essere trovate dalla regressione logistica, che sta usando il modello prospettico per i dati retrospettivi.β
Quindi, come è rilevante per il tuo problema?
Bene, significa che se sei in grado di raccogliere più dati, potresti semplicemente guardare gli account danneggiati e comunque utilizzare la regressione logistica per stimare i (ma dovresti regolare per tenere conto dell'over- rappresentazione). Diciamo che costa $ 1 per ogni account extra, quindi questo potrebbe essere più conveniente quindi semplicemente guardando tutti gli account. αβioα
D'altra parte, se disponi già di TUTTI i dati possibili, non ha senso stratificarti: elimineresti semplicemente i dati (fornendo stime peggiori) e rimarrai con il problema di provare a stimare .α