Notazione matriciale per la regressione logistica


15

Nella regressione lineare (perdita quadrata), usando la matrice abbiamo una notazione molto concisa per l'obiettivo

minimize  Axb2

Dove A è la matrice di dati, x è i coefficienti e b è la risposta.

Esiste una notazione matriciale simile per l'obiettivo di regressione logistica? Tutte le notazioni che ho visto non possono eliminare la somma su tutti i punti di dati (qualcosa come dataLlogistic(y,βTx) ).


EDIT: grazie per joceratops e la grande risposta di AdamO. La loro risposta mi ha aiutato a capire che un'altra ragione per cui la regressione lineare ha una notazione più concisa è perché la definizione della norma, che incapsula il quadrato e la somma o ee . Ma nella perdita logistica, non esiste tale definizione, il che rende la notazione un po 'più complicata.

Risposte:


18

Nella regressione lineare, la soluzione Maximize Likelihood Estimation (MLE) per la stima di x ha la seguente soluzione in forma chiusa (supponendo che A sia una matrice con il valore di colonna completo):

x^lin=argminxAxb22=(ATA)1ATb

Questo viene letto come "trova la che minimizza la funzione obiettivo, ". La cosa bella di rappresentare la funzione dell'obiettivo di regressione lineare in questo modo è che possiamo tenere tutto in notazione matriciale e risolvere a mano . Come accenna Alex R., nella pratica spesso non consideriamo direttamente perché è inefficiente dal punto di vista computazionale e spesso non soddisfa i criteri di rango intero. Invece, ci rivolgiamo allo pseudoinverso di Moore-Penrose . I dettagli della risoluzione computazionale per lo pseudo-inverso possono comportare la decomposizione di Cholesky o la decomposizione del valore singolare.xAxb22x lin ( A T A ) - 1 Ax^lin(ATA)1A

In alternativa, la soluzione MLE per stimare i coefficienti nella regressione logistica è:

x^log=argminxi=1Ny(i)log(1+exTa(i))+(1y(i))log(1+exTa(i))

dove (supponendo che ogni campione di dati sia archiviato per riga):

x è un vettore che rappresenta i coefficienti di regressione

a(i) i t h A è un vettore che rappresenta campione / riga nella matrice di datiithA

y(i) { 0 , 1 } i t h i t h è uno scalare in e l' etichetta corrispondente al campione{0,1}ithith

N è il numero di campioni di dati / numero di righe nella matrice dei dati .A

Ancora una volta, questo viene letto come "trova la che minimizza la funzione obiettivo".x

Se lo desideri, puoi fare un ulteriore passo avanti e rappresentare nella notazione matriciale come segue:x^log

x^log=argminx[1(1y(1))1(1y(N))][log(1+exTa(1))...log(1+exTa(N))log(1+exTa(1))...log(1+exTa(N))]

ma non guadagni nulla facendo questo. La regressione logistica non ha una soluzione in forma chiusa e non ottiene gli stessi vantaggi della regressione lineare rappresentandola nella notazione matriciale. Per risolvere per vengono utilizzate tecniche di stima come la discesa del gradiente e il metodo Newton-Raphson. Utilizzando alcune di queste tecniche (es. Newton-Raphson), viene approssimato ed è rappresentato in notazione matriciale ( vedi link fornito da Alex R. ).x^logx^log


Grande. Grazie. Penso che la ragione per cui non abbiamo qualcosa come risolvere è la ragione per cui non facciamo più quel passo per rendere la notazione a matrice ed evitare il simbolo della somma. AAx=Ab
Haitao Du,

Abbiamo un certo vantaggio nel fare un ulteriore passo avanti, trasformandolo in una moltiplicazione matriciale renderebbe il codice più semplice e in molte piattaforme come Matlab, poiché il ciclo con la somma su tutti i dati è molto più lento delle operazioni con le matrici.
Haitao Du,

5
@ hxd1011: solo un piccolo commento: ridurre alle equazioni di matrice non è sempre saggio. Nel caso di , non dovresti effettivamente cercare la matrice inversa , ma piuttosto fare qualcosa come una decomposizione di Cholesky che sarà molto più veloce e numericamente stabile. Per la regressione logistica, esistono diversi schemi di iterazione che utilizzano effettivamente i calcoli di matrice. Per un'ottima recensione, consultare qui: research.microsoft.com/en-us/um/people/minka/papers/logreg/…A T AATAx=ATbATA
Alex R.

1
@AlexR. Grazie mille. Ho imparato che l'uso dell'equazione normale farà quadrare il numero condizionale della matrice. E QR o Cholesky sarebbero molto meglio. Il tuo link è fantastico, tale recensione con metodi numerici è sempre quello che volevo.
Haitao Du,

15

La risposta di @joceratops si concentra sul problema dell'ottimizzazione della massima probabilità di stima. Questo è davvero un approccio flessibile che è suscettibile di molti tipi di problemi. Per stimare la maggior parte dei modelli, compresi i modelli di regressione lineare e logistica, esiste un altro approccio generale basato sul metodo di stima dei momenti.

Lo stimatore della regressione lineare può anche essere formulato come radice dell'equazione di stima:

0=XT(YXβ)

A questo proposito, è visto come il valore che recupera un residuo medio di 0. Non è necessario fare affidamento su alcun modello di probabilità sottostante per avere questa interpretazione. Tuttavia, è interessante fare derivare le equazioni del punteggio per una normale probabilità, vedrai infatti che assumono esattamente la forma mostrata sopra. Massimizzare la probabilità di una famiglia esponenziale regolare per un modello lineare (ad es. Regressione lineare o logistica) equivale a ottenere soluzioni alle loro equazioni di punteggio.β

0=i=1nSi(α,β)=βlogL(β,α,X,Y)=XT(Yg(Xβ))

Dove ha previsto il valore . Nella stima GLM, si dice che sia l'inverso di una funzione di collegamento. Nelle equazioni di verosimiglianza normali, è la funzione di identità e nella regressione logistica è la funzione di logit. Un approccio più generale sarebbe richiedere che consenta di specificare erroneamente il modello. g ( X i β ) g g - 1 g - 1 0 = n i = 1 Y - g ( X i β )Yig(Xiβ)gg1g10=i=1nYg(Xiβ)

Inoltre, è interessante notare che per le famiglie esponenziali regolari, che si chiama relazione media-varianza. In effetti per la regressione logistica, la relazione di varianza media è tale che la media è correlata alla varianza di . Ciò suggerisce un'interpretazione di un modello GLM erroneamente specificato come uno che dà un residuo di Pearson medio 0. Ciò suggerisce inoltre una generalizzazione per consentire derivati ​​medi funzionali non proporzionali e relazioni di varianza media.p=g(Xβ)var(Yi)=pi(1-pi)g(Xβ)β=V(g(Xβ))p=g(Xβ)var(Yi)=pi(1pi)

Un approccio di equazione di stima generalizzata specifica i modelli lineari nel modo seguente:

0=g(Xβ)βV1(Yg(Xβ))

Con una matrice di varianze basata sul valore adattato (media) dato da . Questo approccio alla stima consente di scegliere una funzione di collegamento e una relazione di varianza media come con i GLM.Vg(Xβ)

Nella regressione logistica sarebbe il logit inverso, e sarebbe dato da . Le soluzioni a questa equazione di stima, ottenute da Newton-Raphson, produrranno la ottenuta dalla regressione logistica. Tuttavia, una classe di modelli leggermente più ampia è stimabile in un quadro simile. Ad esempio, la funzione di collegamento può essere considerata come il log del predittore lineare in modo che i coefficienti di regressione siano rischi relativi e non rapporti di probabilità . Il che - date le insidie ​​ben documentate dell'interpretazione degli OR come RR - mi spinge a chiedermi perché qualcuno si adatti ai modelli di regressione logistica.gViig(Xiβ)(1g(Xβ))β


1
+1 ottima risposta. formularlo come una scoperta di radice su derivati ​​è davvero nuovo per me. e la seconda equazione è davvero concisa.
Haitao Du,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.