Intuizione dietro la regressione logistica


25

Di recente ho iniziato a studiare l'apprendimento automatico, ma non sono riuscito a cogliere l'intuizione alla base della regressione logistica .

Di seguito sono riportati i fatti sulla regressione logistica che capisco.

  1. Come base per l'ipotesi usiamo la funzione sigmoide . Capisco perché è una scelta corretta, tuttavia perché è l' unica scelta che non capisco. L'ipotesi rappresenta la probabilità che l'output appropriato sia , quindi il dominio della nostra funzione dovrebbe essere , questa è l'unica proprietà della funzione sigmoide che ho trovato utile e appropriata qui, tuttavia molte funzioni soddisfano questa proprietà. Inoltre, la funzione sigmoide ha una derivata in questa forma , ma non vedo l'utilità di questa forma speciale nella regressione logistica.1f ( x ) ( 1 - f ( x ) )[0,1]f(X)(1-f(X))

    Domanda : cosa rende così speciale la funzione sigmoide e perché non possiamo usare altre funzioni con dominio ?[0,1]

  2. La funzione di costo è costituita da due parametri se se . Come sopra, capisco perché è corretto, tuttavia perché è l'unica forma? Ad esempio, perché non è stato possibileessere una buona scelta per la funzione di costo?Cost(hθ(x),y)=log(hθ(x))y=1,Cost(hθ(x),y)=log(1hθ(x))y=0|hθ(x)y|

    Domanda : cosa c'è di così speciale nella suddetta forma di funzione di costo; perché non possiamo usare un altro modulo?

Gradirei se potessi condividere la tua comprensione della regressione logistica.


5
La funzione logit / logistic non è l'unica funzione che può essere utilizzata come funzione di collegamento per i modelli di regressione quando la risposta è distribuita come binomiale. A questo proposito, può aiutarti a leggere la mia risposta qui: differenza-tra-logit-e-probit-modelli .
gung - Ripristina Monica

4
La mia risposta qui: la funzione logit è sempre la migliore per la modellazione di regressione dei dati binari , può anche essere utile nel pensare a diverse possibilità.
gung - Ripristina Monica

1
@AdamO offre un'eccellente panoramica di seguito. Se desideri informazioni più dettagliate su cosa significhi che il logit è la "funzione di collegamento canonico", puoi leggere qui la risposta di Momo: differenza tra funzione-collegamento-e-collegamento-canonico-funzione-per-glm .
gung - Ripristina Monica

1
Un esempio illustrato funzionante di (1) in cui non viene utilizzato un "sigmoide" appare su stats.stackexchange.com/a/70922 . Tale risposta include una spiegazione di (2). Un altro esempio appare su stats.stackexchange.com/questions/63978/… . Una discussione più banale (ma meno tecnica) si svolge su stats.stackexchange.com/a/69873 , concentrandosi sul problema (2).
whuber

Risposte:


7

Il modello di regressione logistica è la massima verosimiglianza utilizzando il parametro naturale (rapporto log-odds) per contrastare le variazioni relative del rischio del risultato per differenza di unità nel predittore. Ciò presuppone, ovviamente, un modello di probabilità binomiale per il risultato. Ciò significa che le proprietà di coerenza e robustezza della regressione logistica si estendono direttamente dalla massima probabilità: robusta a mancante a dati casuali, coerenza root-n, esistenza e unicità delle soluzioni per la stima delle equazioni. Ciò presuppone che le soluzioni non si trovino ai limiti dello spazio dei parametri (dove i rapporti di probabilità del log sono ). Poiché la regressione logistica è la massima probabilità, la funzione di perdita è correlata alla probabilità, poiché sono problemi di ottimizzazione equivalenti.±

Con la quasilikelihood o la stima di equazioni (inferenza semiparametrica), l'esistenza, le proprietà di unicità sono ancora valide, ma il presupposto che il modello medio sia valido non è rilevante e l'inferenza e gli errori standard sono coerenti indipendentemente dalla mancata specificazione del modello. Quindi, in questo caso, non è una questione se il sigmoide sia la funzione corretta, ma uno che ci dà una tendenza in cui possiamo credere ed è parametrizzato da parametri che hanno un'interpretazione estensibile.

Il sigmoide, tuttavia, non è l'unica funzione di modellazione binaria in circolazione. La funzione probit più comunemente contrastata ha proprietà simili. Non stima i rapporti di probabilità del log, ma funzionalmente sembrano molto simili e tendono a dare approssimazioni molto simili alla stessa identica cosa . Non è nemmeno necessario utilizzare le proprietà di limitazione nella funzione del modello medio. Il semplice utilizzo di una curva di registro con una funzione di varianza binomiale fornisce una regressione del rischio relativa, un collegamento di identità con una varianza binomiale fornisce modelli di rischio additivi. Tutto ciò è determinato dall'utente. La popolarità della regressione logistica è, purtroppo, il motivo per cui è così comunemente usato. Tuttavia, ho i miei motivi (quelli che ho dichiarato) perché penso che sia ben giustificato per l'uso nella maggior parte delle circostanze binarie di modellizzazione dei risultati.

Nel mondo dell'inferenza, per esiti rari, il rapporto di probabilità può essere approssimativamente interpretato come un "rischio relativo", ovvero una "variazione percentuale relativa del rischio di risultato confrontando X + 1 con X". Questo non è sempre il caso e, in generale, un odds ratio non può e non deve essere interpretato come tale. Tuttavia, i parametri hanno interpretazione e possono essere facilmente comunicati ad altri ricercatori è un punto importante, qualcosa che purtroppo manca dai materiali didattici degli apprendenti della macchina.

Il modello di regressione logistica fornisce anche le basi concettuali per approcci più sofisticati come la modellazione gerarchica, nonché modelli misti e approcci di verosimiglianza condizionale che sono coerenti e robusti per un numero crescente di parametri di disturbo fastidioso. I GLMM e la regressione logistica condizionale sono concetti molto importanti nelle statistiche ad alta dimensione.


1
Grazie mille per la tua risposta! Sembra che ho un'enorme mancanza di background.
user16168

Penso che il libro Generalized Linear Models di McCullough e Nelder sarebbe una grande risorsa di base per una prospettiva più statistica.
AdamO,

In generale, quale libro di testo consigliate in Apprendimento automatico con contenuti descrittivi molto dettagliati?
user16168

Elementi di apprendimento statistico di Hastie, Tibshirani, Friedman.
AdamO,

2
@ user48956 Analisi statistica con Missing Dada, Little & Rubin 2nd ed. I dati mancanti non sono "rappresentati" di per sé, ma "gestiti" per omissione. Questo non è particolare per la regressione logistica: è l'approccio ingenuo usato da tutti i modelli statistici. Quando i dati vengono formattati in una matrice rettangolare, le righe con valori mancanti vengono omesse. Questo è noto come un'analisi completa del caso. I GLM e i GLMMS sono robusti per la mancanza di dati, nel senso che le analisi complete dei casi sono generalmente imparziali e poco efficienti.
AdamO,

6

YXYYXYi=Xiβ+ϵi

YYY

Yi=Xiβ+ϵiYi=0ifYi<0Yi=1ifYi>0
X

YXYY

βϵFP{Yi=1}=F(Xiβ)

P{Yi=1}=1F(Xiβ)

ϵF

F


Quello che hai descritto è esattamente la motivazione per il modello probit, non la regressione logistica.
AdamO,

6
ϵi

Sembra un'ipotesi molto delicata e difficile da testare. Penso che la regressione logistica possa essere motivata quando tali distribuzioni di errori non reggono.
AdamO,

2
@AdamO, comunque motivi la regressione logistica, è comunque matematicamente equivalente a un modello di regressione lineare con soglia in cui gli errori hanno una distribuzione logistica. Concordo sul fatto che questa ipotesi potrebbe essere difficile da verificare, ma è lì indipendentemente da come si motiva il problema. Ricordo una precedente risposta sul CV (non riesco a metterlo in questo momento) che ha dimostrato con uno studio di simulazione che cercare di capire se un modello logistico o probit "si adatta meglio" era fondamentalmente un lancio di moneta, indipendentemente dal vero modello di generazione dei dati . Ho il sospetto che la logistica sia più popolare a causa della comoda interpretazione.
Macro,

2
P(Yi=1)=exp(Xiβ)1+exp(Xiβ)
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.