Effetto marginale del modello Probit e Logit

12

Qualcuno può spiegare come calcolare l'effetto marginale del modello Probit e Logit in parole povere?

Sono nuovo nelle statistiche e sono confuso su questi due modelli.

— marchio
fonte

Si noti che i numeri che escono dai modelli Probit e Logit sembrano misurare approssimativamente la stessa cosa, ma sono spesso numericamente diversi. Quando li traduci nella vita reale, la differenza tra i due di solito diventa molto più piccola.

— Henry,

15

Penso che un modo migliore per vedere l'effetto marginale di una data variabile, diciamo , sia quello di produrre un diagramma a dispersione della probabilità prevista sull'asse verticale e di avere sull'asse orizzontale. Questo è il modo più "laico" che posso pensare di indicare quanto sia influente una determinata variabile. Niente matematica, solo foto. Se hai molti punti dati, un boxplot o scatterplot più fluido può aiutare a vedere dove si trova la maggior parte dei dati (al contrario di una nuvola di punti). $X_j$ $X_j$

Non sei sicuro di come sia "Layman" la sezione successiva, ma potresti trovarla utile.

Se guardiamo l'effetto marginale, chiamiamolo , notando che , otteniamo $m_j$ $g(p)=\sum_kX_k\beta_k$

m_{j} = \frac{\partial p}{\partial X_{j}} = \frac{β_{j}}{g^{'} [g^{- 1} (X^{T} β)]} = \frac{β_{j}}{g^{'} (p)}

$m_j=\frac{\partial p}{\partial X_j}=\frac{\beta_j}{g'\left[g^{-1}(X^T\beta)\right]}=\frac{\beta_j}{g'(p)}$

Quindi l'effetto marginale dipende dalla probabilità stimata e dal gradiente della funzione di collegamento oltre alla beta. La divisione per , deriva dalla regola della catena per la differenziazione e dal fatto che $g'(p)$ . Questo può essere mostrato differenziando entrambi i lati dell'equazione ovviamente vera. Abbiamo anche cheper definizione. Per un modello logit, abbiamo $\frac{\partial g^{-1}(z)}{\partial z}=\frac{1}{g'\left[g^{-1}(z)\right]}$ $z=g\left[g^{-1}(z)\right]$ $g^{-1}(X^T\beta)=p$ e l'effetto marginale è: $g(p)=\log(p)-\log(1-p)\implies g'(p)=\frac{1}{p}+\frac{1}{1-p}=\frac{1}{p(1-p)}$

m_{j}^{l o g io t} = β_{j} p (1 - p)

$m_j^{logit}=\beta_jp(1-p)$

Cosa significa questo? bene è zero in e in , e raggiunge il suo valore massimo di in . Quindi l'effetto marginale è maggiore quando la probabilità è vicina a e minore quando è vicino a o vicino a . Tuttavia, dipende ancora da , quindi gli effetti marginali sono complicati. In effetti, perché dipende da $p(1-p)$ $p=0$ $p=1$ $0.25$ $p=0.5$ $0.5$ $p$ $0$ $1$ $p(1-p)$ $X_j$ , otterrai un diverso effetto marginale per diverse $p$ valori. Forse una buona ragione per fare quel semplice diagramma a dispersione - non è necessario scegliere quali valori delle covariate usare. $X_k,\;k\neq j$

Per un modello probit, abbiamo doveè standard normale CDF, eè standard normale pdf. Quindi otteniamo: $g(p)=\Phi^{-1}(p)\implies g'(p)=\frac{1}{\phi\left[\Phi^{-1}(p)\right]}$ $\Phi(.)$ $\phi(.)$

m_{j}^{p r o B io t} = β_{j} φ [Φ^{- 1} (p)]

$m_j^{probit}=\beta_j\phi\left[\Phi^{-1}(p)\right]$

Si noti che questa ha la maggior parte delle proprietà che il effetto marginale discusso in precedenza, ed è altrettanto vero per qualsiasi funzione di collegamento che è simmetrica rispetto a (e sano, naturalmente, ad es $m_j^{logit}$ $0.5$ ). La dipendenza daè più complicata, ma ha ancora la forma generale di "gobba" (punto più alto a, più basso ae). La funzione di collegamento cambierà la dimensione dell'altezza massima (ad es. Probit massimo è $g(p)=tan(\frac{\pi}{2}[2p-1])$ $p$ $0.5$ $0$ $1$ , logit è) e quanto velocemente l'effetto marginale viene ridotto verso zero. $\frac{1}{\sqrt{2\pi}}\approx 0.4$ $0.25$

— probabilityislogic
fonte

Il effectspacchetto in R può facilmente produrre tali grafici della probabilità prevista sull'asse verticale rispetto a X sull'asse orizzontale. Vedi socserv.socsci.mcmaster.ca/jfox/Misc/effects/index.html

— landroni

Vedi anche: stats.stackexchange.com/questions/18814/…

— landroni

5

I modelli logit e probit sono in genere utilizzati per capire la probabilità che la variabile dipendente y sia 0 o 1 in base a un numero di variabili di input.

In inglese: supponiamo che tu stia cercando di prevedere un valore binario, ad esempio se qualcuno svilupperà o meno malattie cardiache durante la sua vita. Hai un numero di variabili di input come la pressione sanguigna, l'età, indipendentemente dal fatto che siano un fumatore, il loro indice di massa corporea, dove vivono, ecc. Tutte queste variabili possono contribuire in qualche modo alle probabilità che qualcuno sviluppi malattie cardiache.

L'effetto marginale di una singola variabile di input è se aumenti di un po 'quella variabile, in che modo ciò influisce sulla probabilità di avere malattie cardiache? Supponiamo che la pressione sanguigna aumenti di una leggera quantità, come cambia la possibilità di avere malattie cardiache? O se aumenti l'età di un anno?

Alcuni di questi effetti potrebbero anche essere non lineari: l'aumento dell'IMC di una leggera quantità può avere un effetto molto diverso per qualcuno che ha un IMC molto sano rispetto a qualcuno che non lo possiede.

— robbrit
fonte

1

Vorresti comunque che il tuo profano conosca il calcolo, poiché l'effetto marginale è la derivata di una probabilità adattata rispetto alla variabile di interesse. Poiché la probabilità adattata è la funzione di collegamento (logit, probit o qualsiasi altra cosa) applicata ai valori adattati, è necessaria la regola della catena per calcolarla. Quindi, nei modelli di indice lineare (in cui i parametri entrano come qualcosa come X'b) è uguale alla stima del parametro moltiplicata per la derivata della funzione di collegamento. Poiché la derivata è diversa a seconda dei valori dei regressori (a differenza del caso di un modello lineare), è necessario decidere dove valutare l'effetto marginale. Una scelta naturale sarebbe valori medi di tutti i regressori. Un altro approccio sarebbe quello di valutare l'effetto per ciascuna osservazione e quindi media su di esse. L'interpretazione differisce di conseguenza.

— alex
fonte