Interpretazione di semplici previsioni per gli odds ratio nella regressione logistica


29

Sono un po 'nuovo nell'usare la regressione logistica, e un po' confuso da una discrepanza tra le mie interpretazioni dei seguenti valori che pensavo fossero gli stessi:

  • valori beta esponenziali
  • probabilità prevista del risultato utilizzando i valori beta.

Ecco una versione semplificata del modello che sto usando, in cui la denutrizione e l'assicurazione sono entrambe binarie e la ricchezza è continua:

Under.Nutrition ~ insurance + wealth

Il mio modello (effettivo) restituisce un valore beta esponenziale di .8 per l'assicurazione, che interpreterei come:

"La probabilità di essere denutriti per un individuo assicurato è .8 volte la probabilità di essere denutriti per un individuo non assicurato."

Tuttavia, quando calcolo la differenza di probabilità per gli individui inserendo i valori 0 e 1 nella variabile assicurativa e il valore medio per la ricchezza, la differenza nella denutrizione è solo .04. Questo è calcolato come segue:

Probability Undernourished = exp(β0 + β1*Insurance + β2*Wealth) /
                             (1+exp(β0 + β1*Insurance + β2*wealth))

Gradirei davvero che qualcuno potesse spiegare perché questi valori sono diversi e quale potrebbe essere una migliore interpretazione (in particolare per il secondo valore).


Ulteriori modifiche di chiarimento
A quanto ho capito, la probabilità di essere sottoalimentata per una persona non assicurata (dove B1 corrisponde all'assicurazione) è:

Prob(Unins) = exp(β0 + β1*0 + β2*Wealth) /
              (1+exp(β0 + β1*0+ β2*wealth))

Mentre la probabilità di essere mal nutriti per una persona assicurata è:

Prob(Ins)= exp(β0 + β1*1 + β2*Wealth) /
           (1+exp(β0 + β1*1+ β2*wealth))

Le probabilità di essere denutriti per una persona non assicurata rispetto a una persona assicurata sono:

exp(B1)

C'è un modo per tradurre (matematicamente) tra questi valori? Sono ancora un po 'confuso da questa equazione (dove probabilmente dovrei avere un valore diverso su RHS):

Prob(Ins) - Prob(Unins) != exp(B)

In parole povere, la domanda è: perché l'assicurazione di un individuo non cambia la probabilità di essere mal nutriti tanto quanto il rapporto di probabilità indica che fa? Nei miei dati, Prob (Ins) - Prob (Unins) = .04, dove il valore beta esponenziale è .8 (quindi perché la differenza non è .2?)


2
Queste spiegazioni meravigliose e chiare si applicano ai modelli / alle regressioni log-logistici?

Risposte:


50

Mi sembra evidente che

exp(β0+β1x)exp(β0+β1x)1+exp(β0+β1x)
meno che . Quindi, sono meno chiaro su quale potrebbe essere la confusione. Quello che posso dire è che il lato sinistro (LHS) del segno (non) uguale è la probabilità di essere denutriti, mentre l'RHS è la probabilità di essere denutriti. Se esaminato da solo, exp ( β 1 ) è il rapporto di probabilità , ovvero il fattore moltiplicativo che consente di spostarsi dalle probabilità (exp(β0+β1x)=0exp(β1) ) alle probabilità ( x + 1 ). xx+1

Fammi sapere se hai bisogno di informazioni aggiuntive / diverse.

Aggiornamento:
penso che questo sia principalmente un problema di non avere familiarità con le probabilità e le probabilità e il modo in cui si relazionano tra loro. Niente di tutto ciò è molto intuitivo, devi sederti e lavorarci per un po 'e imparare a pensare in quei termini; non viene naturale a nessuno.

Il problema è che i numeri assoluti sono molto difficili da interpretare da soli. Diciamo che ti stavo raccontando di un'epoca in cui avevo una moneta e mi chiedevo se fosse giusto. Quindi l'ho girato un po 'e ho ottenuto 6 teste. Cosa significa? Il 6 è molto, un po ', giusto? È terribilmente difficile da dire. Per affrontare questo problema, vogliamo dare ai numeri un po 'di contesto. In un caso come questo ci sono due ovvie scelte su come fornire il contesto necessario: potrei dare il numero totale di lanci o potrei dare il numero di code. In entrambi i casi, hai informazioni adeguate per dare un senso a 6 teste e puoi calcolare l'altro valore se quello che ti ho detto non fosse quello che preferivi. La probabilità è il numero di teste diviso per il numero totale di eventi. La probabilità è il rapporto tra il numero di teste e il numero di

probability=odds1+odds                odds=probability1probability
exp(β)

Ciò che è importante riconoscere da tutte queste equazioni è che le probabilità, le probabilità e i rapporti di probabilità non si equivalgono in alcun modo semplice; solo perché la probabilità aumenta di 0,04 molto non implica che il rapporto di probabilità o di probabilità dovrebbe essere qualcosa di simile a .04! Inoltre, le probabilità vanno da[0,1](,+)(0,+)wealth

exp(β0+β1x)exp(β0+β1x)=exp(β0+β1x)1+exp(β0+β1x)exp(β0+β1x)1+exp(β0+β1x)
xx

(Anche se è stato scritto nel contesto di una domanda diversa, la mia risposta qui contiene molte informazioni sulla regressione logistica che possono esservi utili per comprendere più a fondo LR e le questioni correlate.)


Grazie per la risposta: ho spiegato ulteriormente la mia confusione nella modifica sopra.
mike

Apprezzo molto il tempo dedicato a scrivere una spiegazione completa - molto utile.
mike,

Prego, @mike, ecco a cosa serve il CV.
gung - Ripristina Monica

Per quanto riguarda il link sulle probabilità di Las Vegas : non sono mai stato a Las Vegas, ma guardando alcuni prezzi offerti dai siti con sede a Las Vegas, dove citano quote frazionarie (al contrario della linea di vincita) seguono il sistema britannico di "quote contro", non "probabilità a favore" statistiche. Pertanto, le "probabilità di Las Vegas" sul tuo link non corrispondono alle reali probabilità di gioco, in cui "9 a 1" è per un evento improbabile , non (come "9 a 1" significa per uno statistico) probabile! Una fonte di confusione che cerco di affrontare qui
Silverfish,

@Silverfish, non vado a Las Vegas da molto tempo. Non ricordo se in genere elencano le probabilità a favore o contro. Tuttavia, "4 a 5" si chiama probabilità di Las Vegas .
gung - Ripristina Monica


-1

Odds ratio OR = Exp (b) si traduce in Probabilità A = SQRT (OR) / (SQRT (OR) +1), dove Probabilità A è la probabilità dell'evento A e OR è il rapporto tra l'evento in corso A / evento non in corso A (o esposto / non esposto dall'assicurazione come nella domanda sopra). Mi ci è voluto un po 'di tempo per risolvere; Non sono sicuro del perché questa formula non sia ben nota.

C'è un esempio Supponiamo che ci siano 10 persone ammesse all'università; 7 di loro sono uomini. Quindi, per ogni uomo è ammessa la probabilità del 70%. Le probabilità di essere ammessi per gli uomini sono 7/3 = 2,33 e non essere ammessi 3/7 = 0,43. Il Odds ratio (OR) è 2,33 / 0,43 = 5,44, il che significa che per gli uomini la probabilità di essere ammessa 5,44 volte maggiore è per le donne. Troviamo probabilità di essere ammessi per l'uomo da OR: P = SQRT (5.44) / (SQRT (5.44) +1) = 0.7

Aggiornamento Questo vale solo se il numero di uomini o donne ammessi è uguale al numero di candidati. In altre parole, non è OR. Non è possibile trovare un guadagno (o una perdita) di probabilità in base al fattore senza conoscere ulteriori informazioni.


7232

Sì, hai assolutamente ragione, grazie. Ho scoperto che non possiamo convertire OR noti (che otteniamo, ad esempio, come output di regressione logistica) in guadagni o perdite di probabilità senza conoscere informazioni sulle probabilità precedenti. Ho inserito l'aggiornamento nella mia risposta.
Niksr,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.