Analisi dei coefficienti di regressione logistica


12

Ecco un elenco di coefficienti di regressione logistica (il primo è un'intercettazione)

-1059.61966694592
-1.23890500515482
-8.57185269220438
-7.50413155570413
 0
 1.03152408392552
 1.19874787949191
-4.88083274930613
-5.77172565873336
-1.00610998453393

Trovo strano come l'intercettazione sia così bassa e ho un coefficiente che è effettivamente uguale a 0. Non sono del tutto sicuro di come interpretarlo. Lo 0 indica che la variabile specifica non ha alcun effetto sul modello? Ma l'intercettazione che viene fatta inserendo una colonna di uno è improvvisamente davvero importante? Oppure i miei dati sono solo una schifezza e il modello non è in grado di adattarsi correttamente ad esso.


2
Qual è l'intervallo o la deviazione standard delle altre variabili? C'è una grande differenza tra la deviazione standard della variabile con stima zero rispetto alle altre? Potresti aspettarti un coefficiente pari a zero se la deviazione standard è piccola rispetto alle altre (precisione numerica). Anche intercettare sostanzialmente significa che hai variabili che hanno medie grandi (lontano da zero). Centrare le variabili darebbe un'intercettazione più interpretabile e non cambierebbe i beta per le altre variabili (a parte l'errore dell'algoritmo iterativo).
Probislogic

1
Se dovessi sottrarre 1027 da tutti i valori della sesta variabile, la tua intercettazione sarebbe abbastanza vicina a 0. Ti farebbe sentire meglio? :-)
whuber

4
Mostrare un elenco di coefficienti come questo, senza alcun contesto, probabilmente sta dicendo "Joe ha 31 anni, non è molto?" senza dire 31 cosa . 31 auto? Un sacco. 31 bambini? Un diamine di molto! 31 dollari? Non tanto.
Peter Flom - Ripristina Monica

1
Per quanto riguarda il coefficiente di zero: ho potuto vedere questo accadere come un artefatto di mettere tutti i tuoi coefficienti in XL prima di incollarli qui - qualcosa che sembra coerente con l'alto numero di cifre decimali che generalmente stiamo vedendo. Forse una di quelle celle XL è stata impostata per arrotondare a numeri interi, dando lo zero. Ho fatto accadere cose del genere.
rolando2

Grazie a tutti per il vostro contributo! Apprezzo davvero ognuno di voi! Molte delle mie domande hanno avuto risposta
shiu6rewgu,

Risposte:


16

A mio avviso, stai ricevendo alcune informazioni molto utili nei commenti. Mi chiedo se alcuni fatti di base sulla regressione logistica aiuterebbero a rendere queste cose più comprensibili, quindi, tenuto conto di ciò, lasciatemi dire un paio di cose. Nella regressione logistica, i coefficienti sono sulla scala logistica (da qui il nome ...). Se dovessi inserire i valori della tua covariata per un'osservazione, moltiplicarli per i coefficienti e sommarli, otterrai un logit .
e 2.718281828 e 2 = 7.389056 7.389056

logit=β0+β1x1+β2x2+...+βkxk
Un logit è un numero che non ha alcun senso intuitivo per nessuno, quindi è molto difficile sapere cosa fare con un numero che sembra divertente (ad esempio, molto alto o molto basso). Il modo migliore per capire queste cose è convertirle dalla loro scala originale (logit) a una che puoi capire, in particolare le probabilità. Per fare ciò, prendi il tuo logon e lo esponenti. Ciò significa che prendi il numero e ( ) e lo aumenti alla potenza del logit. Immagina che il tuo logit fosse 2: Questo ti darà le probabilità. Puoi convertire le probabilità in probabilità dividendo le probabilità per una più le probabilità: persone in genere trovano la probabilità molto più facile da gestire. e2.718281828
e2=7.389056
7.3890561+7.389056=0.880797

Per il tuo modello, immagina di avere un'osservazione in cui il valore di tutte le tue variabili è esattamente 0, quindi tutti i tuoi coefficienti cadono e rimarrai solo con il tuo valore di intercettazione. Se esponenziamo il tuo valore, otteniamo 0 come probabilità (se fosse -700, la probabilità sarebbe , ma non riesco a far sì che il mio computer mi dia un valore per -1060, è troppo piccolo dati i limiti numerici del mio software). Conversione di tali probabilità in probabilità, ( 0 / ( 1 + 0 )9.8×103050/(1+0)), ci dà di nuovo 0. Quindi, ciò che il tuo output ti sta dicendo è che il tuo evento (qualunque esso sia) semplicemente non si verifica quando tutte le tue variabili sono uguali a 0. Naturalmente, dipende da ciò di cui stiamo parlando, ma non trovo nulla di troppo straordinario Questo. Un'equazione di regressione logistica standard (per esempio, senza un termine quadrato) presume necessariamente che la relazione tra una covariata e la probabilità di successo sia o monotonicamente crescente o monotonicamente decrescente. Ciò significa che diventa sempre più grande (o sempre più piccolo), quindi, se vai abbastanza lontano in una direzione, arriverai a numeri così piccoli che il mio computer non può distinguerli da 0. Questo è solo il natura della bestia. Come accade, per il tuo modello, andare molto lontano significa dove le tue valute di covariata sono pari a 0.

Per quanto riguarda il coefficiente di 0, significa che quella variabile non ha alcun effetto, come suggerisci. Ora, è abbastanza ragionevole che una variabile non abbia un effetto, tuttavia, in pratica non si otterrà mai un coefficiente esattamente di 0. Non so perché si sia verificato in questo caso; i commenti offrono alcuni possibili suggerimenti. Posso offrirne un altro, che è che potrebbe non esserci alcuna variazione in quella variabile. Ad esempio, se avevi una variabile codificata per sesso, ma solo donne nel tuo campione. Non so se questa è la vera risposta (R, per esempio, ritorna NAin quel caso, ma il software differisce) - è solo un altro suggerimento.


2
Nota che puoi ottenere le probabilità su base dieci moltiplicando le probabilità del log naturale per . La risposta che ottieni è all'incirca . e per piccole probabilità, la probabilità è uguale alle probabilità. Quindi abbiamo circa una probabilità di quando tutte le covariate sono zero. -46010-4603067003746010460
Probislogic

10

Interpretazione dell'intercettazione

Puoi pensare alla regressione logistica come a darti una probabilità posteriore di essere un '1'. L'intercettazione rappresenta un precedente sulle categorie derivate dal set di dati: in particolare, è la stima empirica di log (p (Y = 1) / p (Y = 0), da sola quando il modello ha solo un'intercettazione, per i casi in le classi di "riferimento" quando vi sono covariate categoriche e per i casi in cui le covariate sono a 0 in generale (ma in modo meno interpretabile). Quindi il tuo numero fortemente negativo ti sta probabilmente dicendo che "1 sono rari tra i casi nel tuo campione caratterizzati da avendo tutte le covariate a 0. Ancora una volta, non ci possono essere osservazioni lì, quindi non vale la pena preoccuparsi del valore di intercettazione. Questa discussione è abbastanza chiara.

A causa di questa pratica separazione delle preoccupazioni tra i parametri, è possibile correggere lo squilibrio di categoria allenandosi su un campione meglio bilanciato e regolando solo l'intercetta . Vedi King e Zeng per una discussione approfondita.


Il link a "questa discussione" sembra essere morto. Qualche possibilità di recuperare questo link?
Alexey Grigorev,

1
@ alexey-grigorev Ho aggiornato il link UCLA
conjugateprior il

e ottenuto un voto negativo. Molto strano.
conjugateprior il
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.