Aiutami a capire il rapporto di probabilità aggiustato nella regressione logistica


20

Ho avuto difficoltà a capire l'uso della regressione logistica in un documento. Il documento disponibile qui utilizza la regressione logistica per prevedere la probabilità di complicanze durante la chirurgia della cataratta.

Ciò che mi confonde è che il documento presenta un modello che assegna un rapporto di probabilità 1 alla linea di base descritto come segue:

Un paziente il cui profilo di rischio era nel gruppo di riferimento per tutti gli indicatori di rischio (ovvero aggiustato OR = 1,00 per tutti nella Tabella 1) può essere considerato avere un "profilo di rischio basale" e il modello di regressione logistica indica una "probabilità prevista basale" per PCR o VL o entrambi = 0,736%.

Quindi la probabilità di 0,00736 è presentata con un rapporto di probabilità di 1. Basato sulla trasformazione da probabilità a rapporti di probabilità: o=p1p , questo non può essere uguale a 1: 0.00741=0.0073610.00736 .

Diventa ancora più confuso. I rapporti di probabilità compositi che rappresentano più covariate con valori diversi dalla linea di base vengono utilizzati per calcolare il rischio previsto.

... l'OR composito dalla tabella 1 sarebbe 1,28 X 1,58 X 2,99 X 2,46 X 1,45 X 1,60 = 34,5 e dal grafico in Figura 1, vediamo che questo OR corrisponde a una probabilità prevista di PCR o VL o entrambi circa il 20%

L'unico modo per arrivare ai valori forniti dalla carta come esempi è moltiplicare la probabilità di base con probabilità composite come questa: .0.2025=(34.50 × 0.00736)1 + (34.50 × 0.00736)

Quindi cosa sta succedendo qui? Qual è la logica per assegnare il rapporto di probabilità 1 a una probabilità di base che non è 0,5? La formula di aggiornamento che ho escogitato sopra presenta le giuste probabilità per gli esempi nel documento, ma questa non è la moltiplicazione diretta del rapporto di probabilità che mi aspetterei. Quindi cos'è?


8
Potresti avere una semplice confusione sulla terminologia: è una quota , non una quota. Un odds ratio è la divisione di una di queste espressioni per un'altra. p/(1p)
whuber

Risposte:


35

Le probabilità sono un modo per esprimere le possibilità. Rapporti di probabilità sono proprio questo: una probabilità divisa per un'altra. Ciò significa che un rapporto di probabilità è ciò per cui moltiplichi una probabilità per produrne un'altra. Vediamo come funzionano in questa situazione comune.

Conversione tra probabilità e probabilità

Le probabilità di una risposta binaria sono il rapporto tra la probabilità che ciò accada (codificato con 1 ), scritto Pr ( Y = 1 ) , e il caso che non lo fa (codificato con 0 ), scritto Pr ( Y = 0 ) :Y1Pr(Y=1)0Pr(Y=0)

Odds(Y)=Pr(Y=1)Pr(Y=0)=Pr(Y=1)1Pr(Y=1).

L'espressione equivalente a destra mostra che è sufficiente modellare per trovare le probabilità. Al contrario, nota che possiamo risolverePr(Y=1)

Pr(Y=1)=Odds(Y)1+Odds(Y)=111+Odds(Y).

Regressione logistica

La regressione logistica modella il logaritmo delle probabilità di come una funzione lineare di variabili esplicative. Più in generale, scrivendo queste variabili come x 1 , ... , x p e includendo un possibile termine costante nella funzione lineare, possiamo nominare i coefficienti (che devono essere stimati dai dati) come β 1 , ... , β p e β 0 . Formalmente questo produce il modelloYx1,,xpβ1,,βpβ0

log(Odds(Y))=β0+β1x1++βpxp.

Le probabilità stesse possono essere recuperate annullando il logaritmo:

Odds(Y)=exp(β0+β1x1++βpxp).

Utilizzando variabili categoriche

Le variabili categoriche, come la fascia di età, il sesso, la presenza di glaucoma, ecc. , Sono incorporate mediante "codifica fittizia". Per mostrare che il modo in cui la variabile è codificata non ha importanza, fornirò un semplice esempio di un piccolo gruppo; la sua generalizzazione a più gruppi dovrebbe essere ovvia. In questo studio una variabile è "dimensione della pupilla", con tre categorie, "Grande", "Medio" e "Piccolo". (Lo studio li tratta come puramente categorici, apparentemente senza prestare attenzione al loro ordine intrinseco.) Intuitivamente, ogni categoria ha le sue probabilità, diciamo per "Grande", α M per "Medio" e α S per "Piccolo" . Ciò significa che, tutte le altre cose uguali,αLαMαS

Odds(Y)=exp(αL+β0+β1x1++βpxp)

per chiunque nella categoria "Grande",

Odds(Y)=exp(αM+β0+β1x1++βpxp)

per chiunque nella categoria "Medio" e

Odds(Y)=exp(αS+β0+β1x1++βpxp)

per quelli nella categoria "Piccola".

Creazione di coefficienti identificabili

Ho colorato i primi due coefficienti per evidenziarli, perché voglio che tu noti che consentono un semplice cambiamento: potremmo scegliere qualsiasi numero e, aggiungendolo a β 0 e sottraendolo da ciascuno di α L , α M e αγβ0αLαM ,non cambieremmo le probabilità previste. Ciò è dovuto alle ovvie equivalenze del moduloαS

αL+β0=(αLγ)+(γ+β0),

ecc. Sebbene ciò non presenti problemi per il modello - prevede ancora esattamente le stesse cose - mostra che i parametri non sono di per sé interpretabili. Ciò che rimane lo stesso quando facciamo questa manovra di addizione-sottrazione sono le differenze tra i coefficienti. Convenzionalmente, per ovviare a questa mancanza di identificabilità, persone (e per impostazione predefinita, il software) scelgono una delle categorie in ciascuna variabile come "base" o "riferimento" e stabiliscono semplicemente che il suo coefficiente sarà zero. Questo rimuove l'ambiguità.

L'articolo elenca innanzitutto le categorie di riferimento; "Grande" in questo caso. Così, viene sottratto da ciascuno di α L , α M , e α S , e aggiunto ß 0αLαL,αM,αSβ0 per compensare.

Le probabilità del log per un individuo ipotetico che rientra in tutte le categorie di base sono quindi pari a più un mucchio di termini associati a tutte le altre "covariate" - le variabili non categoriche:β0

Odds(Base category)=exp(β0+β1X1++βpXp).

Non ci sono termini associati con variabili categoriche appaiono qui. (Ho leggermente modificato la notazione a questo punto: i beta ora sono solo i coefficienti delle covariate , mentre il modello completo include gli alfaβi per le varie categorie.)αj

Confronto delle probabilità

Confrontiamo le probabilità. Supponiamo che un individuo ipotetico sia a

paziente maschio di età compresa tra 80 e 89 anni con cataratta bianca, nessuna visione di fondo e un piccolo allievo operato da un registrar specializzato, ...

Associati a questo paziente (chiamiamolo Charlie) sono previsti coefficienti per ciascuna categoria: per la sua fascia d'età, α maschio per essere maschio e così via. Ovunque il suo attributo sia la base per la sua categoria, il coefficiente è zero per convenzione , come abbiamo visto. Perché questo è un modello lineare,α80-89αmale i coefficienti si aggiungono. Pertanto, alle probabilità del registro di base indicate sopra, le probabilità del registro per questo paziente sono ottenute aggiungendo

α80-89+αmale+αno Glaucoma++αspecialist registrar.

Questa è precisamente la quantità con cui le probabilità del log di questo paziente variano dalla base. Per convertire dalle probabilità del registro, annulla il logaritmo e ricorda che ciò trasforma l'addizione in moltiplicazione. Pertanto, le probabilità di base devono essere moltiplicate per

exp(α80-89)exp(αmale)exp(αno Glaucoma)exp(αspecialist registrar).

x1,,xp were included in the model. They play no role in any of our calculations, as you will see. It is called a "ratio" because it is precisely the amount by which the base odds must be multiplied to produce the patient's predicted odds: see the first paragraph of this post.) In order in the table, they are exp(α80-89)=1.58, exp(αmale)=1.28, exp(αno Glaucoma)=1.00, and so on. According to the article, their product works out to 34.5. Therefore

Odds(Charlie)=34.5×Odds(Base).

(Notice that the base categories all have odds ratios of 1.00=exp(0), because including 1 in the product leaves it unchanged. That's how you can spot the base categories in the table.)

Restating the results as probabilities

Finally, let us convert this result to probabilities. We were told the baseline predicted probability is 0.736%=0.00736. Therefore, using the formulas relating odds and probabilities derived at the outset, we may compute

Odds(Base)=0.0073610.00736=0.00741.

Consequently Charlie's odds are

Odds(Charlie)=34.5×0.00741=0.256.

Finally, converting this back to probabilities gives

Pr(Y(Charlie)=1)=111+0.256=0.204.

3
whuber: getting in front of my computer after a very tiring previous day and finding this extraordinary response from you is simply brilliant. You have helped me a lot in a very tight situation. Many thanks. (somehow @ whuber won't show up...)
mahonya
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.