Diversi modi per produrre un intervallo di confidenza per il rapporto di probabilità dalla regressione logistica


12

Sto studiando come costruire un intervallo di confidenza al 95% per il rapporto di probabilità dai coefficienti ottenuti nella regressione logistica. Quindi, considerando il modello di regressione logistica,

log(p1p)=α+βx

tale che per il gruppo di controllo e x = 1 per il gruppo di casi.x=0x=1

Ho già letto che il modo più semplice è costruire un IC al 95% per quindi abbiamo applicato la funzione esponenziale, ovveroβ

β^±1.96×SE(β^)exp{β^±1.96×SE(β^)}

Le mie domande sono:

  1. Qual è la ragione teorica che giustifica questa procedura? Conosco e gli stimatori della massima verosimiglianza sono invarianti. Tuttavia, non conosco la connessione tra questi elementi.odds ratio=exp{β}

  2. Il metodo delta dovrebbe produrre lo stesso intervallo di confidenza al 95% della procedura precedente? Utilizzando il metodo delta,

    exp{β^}˙N(β, exp{β}2Var(β^))

    Poi,

    exp{β^}±1.96×exp{β}2Var(β^)

    In caso contrario, qual è la procedura migliore?


1
Mi piace anche il bootstrap per CI, se ho valori di parametro o dati di allenamento di dimensioni sufficienti.
EngrStudent - Ripristina Monica il

2
C'è un modo migliore per farlo, vedi stats.stackexchange.com/questions/5304/… per i dettagli
mdewey,

Risposte:


7
  1. La giustificazione per la procedura è la normalità asintotica dell'MLE per e risulta da argomenti che coinvolgono il Teorema del limite centrale.β

  2. Il metodo Delta deriva da un'espansione lineare (cioè del primo ordine di Taylor) della funzione attorno all'MLE. Successivamente facciamo appello alla normalità asintotica e all'imparzialità della MLE.

Entrambi asintoticamente danno la stessa risposta. Ma praticamente, preferiresti quello che sembra più strettamente normale. In questo esempio, preferirei il primo perché è probabile che quest'ultimo sia meno simmetrico.


3

Un confronto dei metodi degli intervalli di confidenza su un esempio di ISL

Il libro "Introduzione all'apprendimento statistico" di Tibshirani, James, Hastie fornisce un esempio a pagina 267 degli intervalli di confidenza per il grado di regressione logistica polinomiale 4 sui dati salariali . Citando il libro:

Modelliamo l'evento binario usando la regressione logistica con un polinomio di grado 4. La probabilità posteriore adattata di stipendio superiore a $ 250.000 è indicata in blu, insieme a un intervallo di confidenza stimato del 95%.wage>250

Di seguito è riportato un breve riepilogo di due metodi per costruire tali intervalli, nonché commenti su come implementarli da zero

Intervalli di trasformazione Wald / Endpoint

  • Calcola i limiti superiore e inferiore dell'intervallo di confidenza per la combinazione lineare (utilizzando Wald CI)xTβ
  • Applicare una trasformazione monotonica agli endpoint per ottenere le probabilità.F(xTβ)

Poiché è una trasformazione monotonica di x T βPr(xTβ)=F(xTβ)xTβ

[Pr(xTβ)LPr(xTβ)Pr(xTβ)U]=[F(xTβ)LF(xTβ)F(xTβ)U]

Concretamente questo significa calcolare e quindi applicare la trasformazione logit al risultato per ottenere i limiti inferiore e superiore:βTx±zSE(βTx)

[exTβzSE(xTβ)1+exTβzSE(xTβ),exTβ+zSE(xTβ)1+exTβ+zSE(xTβ),]

Calcolo dell'errore standard

xTβΣ

Var(xTβ)=xTΣx

XV

X = [1x1,1x1,p1x2,1x2,p1xn,1xn,p]    V = [π^1(1π^1)000π^2(1π^2)000π^n(1π^n)]

xi,jjiπ^ii

Σ=(XTVX)1SE(xTβ)=Var(xTβ)

Gli intervalli di confidenza al 95% per la probabilità prevista possono quindi essere tracciati come

inserisci qui la descrizione dell'immagine


Intervalli di confidenza del metodo Delta

F

Var[F(xTβ^)]FT Σ F

Σ

F(xβ)β=F(xβ)xβxββ=xf(xβ)

fF

Var[F(xTβ^)]fT xT Σ x f

π(xTβ)

π(xTβ)=π(xTβ)(1π(xTβ))

Ora possiamo costruire un intervallo di confidenza usando la varianza calcolata sopra.

C.I.=[Pr(xβ^)zVar[π(xβ^)]Pr(xβ^)+zVar[π(xβ^)]]

In formato vettoriale per il caso multivariato

C.I.=[π(xTβ^)±z(π(xTβ^)(1π(xTβ^)))TxT  Var[β^]  x  π(xTβ^)(1π(xTβ^))]
  • xRp+1X

inserisci qui la descrizione dell'immagine


Una conclusione aperta

Uno sguardo ai grafici QQ normali sia per le probabilità che per le probabilità del registro negativo mostra che nessuno dei due è normalmente distribuito. Questo potrebbe spiegare la differenza?

inserisci qui la descrizione dell'immagine

Fonte:


1

Per la maggior parte degli scopi, il modo più semplice è probabilmente il migliore, come discusso nel contesto di una trasformazione del registro in questa pagina . Pensa alla tua variabile dipendente come analizzata nella scala logit, con test statistici eseguiti e intervalli di confidenza (CI) definiti su quella scala logit. La trasformazione posteriore in odds ratio è semplicemente quella di mettere quei risultati in una scala che un lettore potrebbe cogliere più facilmente. Questo viene fatto anche, ad esempio, nell'analisi della sopravvivenza di Cox, in cui i coefficienti di regressione (e l'IC al 95%) vengono esponenziati per ottenere i rapporti di rischio e il loro IC.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.