La funzione logit è sempre la migliore per la modellazione di regressione dei dati binari?


15

Ho pensato a questo problema. La normale funzione logistica per la modellazione di dati binari è: Comunque la funzione logit, che è una curva a forma di S, è sempre la migliore per modellare i dati? Forse hai motivo di credere che i tuoi dati non seguano la normale curva a forma di S ma un diverso tipo di curva con dominio(0,1).

log(p1p)=β0+β1X1+β2X2+
(0,1)

C'è qualche ricerca in questo? Forse puoi modellarlo come una funzione probit o qualcosa di simile, ma se fosse completamente qualcos'altro? Questo potrebbe portare a una migliore stima degli effetti? Ho solo pensato, e mi chiedo se ci siano ricerche in merito.


3
possibile duplicato della differenza tra i modelli logit e probit
Macro

2
@macro Non credo sia un duplicato esatto. Quella domanda riguarda solo logit e probit; questo richiede anche altre alternative.
Peter Flom - Ripristina Monica

Sto votando per lasciare questo aperto. La differenza principale che vedo è che questo Q richiede ricerche statistiche sull'argomento di diverse possibili funzioni di collegamento. È una differenza sottile, ma potrebbe essere sufficiente. @Glen, potresti voler rivedere l'altro Q, se non l'hai già visto. Nella mia risposta parlo di diversi possibili collegamenti. Se pensi che questa Q non sia davvero diversa, segnalala e le mod possono chiuderla; se riesci a pensare a un modo per rendere più chiara la distinzione tra ciò che stai chiedendo e quella Q più chiara, potresti voler modificare per farlo.
gung - Ripristina Monica

So che non è un duplicato esatto della domanda logit vs. probit, ma ho pensato che la risposta di Gung, che andava al di là di ciò che è stato posto dalla domanda collegata, affronta la maggior parte di ciò che è stato chiesto qui, motivo per cui ho chiuso come duplicato. Probabilmente ci sono altri thread strettamente correlati ma questo è il primo che mi è venuto in mente.
Macro

Grazie per i commenti Credo che la mia domanda sia diversa dalla domanda precedente. Conosco molto bene le trasformazioni probit e log-log e la discussione della domanda precedente è stata molto istruttiva per me. Tuttavia, sono interessato ad altre funzioni di collegamento (possibilmente non parametriche?) Che sono possibili, in una situazione in cui potresti o meno sapere che la curva di probabilità segue una distribuzione diversa. Penso che quando sono coinvolte interazioni tra le covariate, ciò potrebbe svolgere un ruolo importante. @La risposta di David J. Harris è utile ...
Glen

Risposte:


15

Le persone usano ogni sorta di funzioni per mantenere i loro dati tra 0 e 1. Le probabilità del log cadono naturalmente dalla matematica quando si ricava il modello (si chiama "funzione di collegamento canonico"), ma sei assolutamente libero di sperimentare altre alternative.

Come ha accennato Macro nel suo commento alla tua domanda, una scelta comune è un modello probit , che utilizza la funzione quantile di un gaussiano invece della funzione logistica. Ho anche sentito cose positive sull'uso della funzione quantile di una t di uno studentet distribuzione , anche se non l'ho mai provato.

Hanno tutti la stessa forma a S di base, ma differiscono per la velocità con cui si saturano ad ogni estremità. I modelli Probit si avvicinano molto rapidamente a 0 e 1, il che può essere pericoloso se le probabilità tendono ad essere meno estreme. modelli basati su t possono andare in entrambi i modi, a seconda di quanti gradi di libertà ha la distribuzione t . Andrew Gelman afferma (in un contesto per lo più non correlato) che t 7ttt7 è approssimativamente simile alla curva logistica. Abbassare i gradi di libertà ti dà code più grasse e una più ampia gamma di valori intermedi nella tua regressione. Quando i gradi di libertà vanno all'infinito, si ritorna al modello probit.

Spero che sia di aiuto.

A cura di aggiungere : la discussione a cui @Macro è collegata è davvero eccellente. Consiglio vivamente di leggerlo se sei interessato a maggiori dettagli.


La domanda riguarda in particolare i "dati binari", non i dati compresi tra 0 e 1. Il modello probit non ha giustificazioni teoriche nel caso dei dati binari.
Neil G,

3
@NeilG, uno dei motivi per utilizzare il modello probit è che offre un modo conveniente di modellare i dati binari multivariati (ad esempio con un modello misto) come normali con soglia. In tal caso, la matrice di correlazione delle variabili sottostanti è statisticamente non identificabile, mentre non lo è nel caso logistico. C'è un po 'più di discussione qui .
Macro

@Macro: Oh, capisco. È molto interessante, grazie.
Neil G,

@David J.Harris: Vuoi dire quintile (o forse quantile ha lo stesso significato), cioè suddividere la distribuzione in blocchi di quinti: 20%, 40%, .., 100%?
MSIS,

1
@MSIS un quintile si divide in quinti, un percentile si divide in centesimi e un quartile si divide in unità arbitrarie Vedi en.wikipedia.org/wiki/Quantile#Specialized_quantiles
David J. Harris,

11

Non vedo alcun motivo, a priori, perché la funzione di collegamento appropriata per un determinato set di dati debba essere il logit (sebbene l'universo sembri piuttosto gentile con noi in generale). Non so se questi sono esattamente ciò che stai cercando, ma qui ci sono alcuni articoli che discutono di funzioni di collegamento più esotiche:

Divulgazione: non conosco bene questo materiale. Ho provato a dilettarmi con Cauchit e Scobit un paio di anni fa, ma il mio codice ha continuato a bloccarsi (probabilmente perché non sono un grande programmatore), e non sembrava rilevante per il progetto a cui stavo lavorando, quindi l'ho lasciato cadere .

X


4

La migliore strategia è quella di modellare i dati alla luce di ciò che sta succedendo (Nessuna sorpresa!)

  • I modelli Probit provengono da studi LD50: vuoi la dose di insetticida che uccide metà dei bug. La risposta binaria è se il bug vive o muore (a una determinata dose). I bug che sono sensibili a una dose saranno sensibili anche a dosi più basse, ed è qui che entra in gioco l'idea di modellare la Normale cumulativa.
  • Se le osservazioni binarie si presentano in gruppi, è possibile utilizzare un modello beta-binomiale. Ben Bolker ha una buona introduzione nella documentazione del suo pacchetto bbmle (in R) che lo implementa in casi semplici. Questi modelli consentono un maggiore controllo sulla variazione dei dati rispetto a ciò che si ottiene in una distribuzione binomiale.
  • I dati binari multivariati - l'ordinamento che si arrotola in tabelle di contingenza multidimensionali - possono essere analizzati utilizzando un modello log-lineare. La funzione di collegamento è il registro anziché le probabilità del registro. Alcune persone si riferiscono a questo come regressione di Poisson.

Probabilmente non ci sono ricerche su questi modelli in quanto tali, sebbene ci siano state molte ricerche su uno di questi modelli e sui confronti tra loro e su diversi modi di stimarli. Quello che trovi in ​​letteratura è che c'è un sacco di attività per un po ', poiché i ricercatori considerano una serie di opzioni per una particolare classe di problemi, e quindi un metodo emerge come superiore.


+1 per beta-binomiale. Questo è un ottimo strumento da avere nella propria cassetta degli attrezzi.
David J. Harris,

3

Logit è un modello tale che gli input sono un prodotto di esperti, ognuno dei quali è una distribuzione di Bernoulli. In altre parole, se consideri tutti gli input come distribuzioni indipendenti di Bernoulli con probabilitàpio la cui prova è combinata, scoprirai che stai aggiungendo la funzione logistica applicata a ciascuno dei pioS. (Un altro modo di dire la stessa cosa è che la conversione dalla parametrizzazione delle aspettative alla parametrizzazione naturale della distribuzione di Bernoulli è la funzione logistica.)

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.