Ci sono ipotesi sulla regressione logistica?


18

Ci sono ipotesi sulla variabile di risposta della regressione logistica?

Ad esempio, supponiamo di avere punti dati. Sembra che la risposta provenga da una distribuzione di Bernoulli con . Pertanto, dovremmo avere distribuzioni di Bernoulli, con diversi parametri .Y i p i = logit ( β 0 + β 1 x i ) 1000 p1000Yipi=logit(β0+β1xi)1000p

Quindi, sono "indipendenti", ma non sono "identici".

Ho ragione?


PS. Ho imparato la regressione logistica dalla letteratura sull'apprendimento automatico, in cui ottimizziamo la funzione obiettiva e controlliamo se è buono nel testare i dati, senza parlare troppo delle ipotesi.

La mia domanda è iniziata con questo post Comprendere la funzione di collegamento nel modello lineare generalizzato in cui provo a saperne di più sulle ipotesi statistiche.


1
Un "presupposto" è qualcosa che un teorema può avere. Regressione lineare ha una "assunzione" di errori iid (non è s che vengono "assunti" per essere IID in regressione lineare viene per l'errori) nel senso che il Teorema di Gauss-Markov ha questa ipotesi. Ora, c'è qualche teorema che uno ha una mente per la regressione logistica? In caso contrario, non ci sono "ipotesi". y
ameba dice di reintegrare Monica il

7
@Amoeba, hxd è corretto nel notare che le distribuzioni non sono identiche: "iid" non si applica. Se uno sta usando la regressione logistica solo per adattarsi, allora (mentre scrivi) forse sono necessari pochi presupposti; ma non appena si fa uso della matrice di covarianza stimata dei coefficienti o si desidera costruire intervalli di previsione (o, del resto, convalidare i valori previsti), ciò richiede ipotesi probabilistiche. Il solito è che le risposte sono indipendenti.
whuber

4
@amoeba una volta che si desidera eseguire l'inferenza (test di ipotesi, intervalli di confidenza, ecc.) piuttosto che semplicemente calcolare le stime dei parametri, si farà una serie di ipotesi (alcune più critiche di altre) al fine di poter derivare la relativa distribuzione nulla del testare la statistica o i calcoli necessari per un intervallo con la copertura desiderata. Anche le procedure relativamente basse presuppongono ancora ipotesi e se ci preoccupiamo delle nostre inferenze, ci preoccuperemo se è probabile che abbiano qualcosa vicino alle loro proprietà nominali.
Glen_b -Restate Monica

1
@amoeba, mi piace un teorema che mostra la normalità asintotica dell'MLE. Mi piace anche il test del rapporto di verosimiglianza.
Gammer

2
Le loro distribuzioni marginali non sono identiche a meno che non abbiano tutti lo stesso valore predittore, nel qual caso hai solo prove IID di bernoulli. I loro distribuzioni condizionate (dato il predittore) sono tutti uguali, ma non credo che normalmente si dice che la in questo caso sono IID. Yi
Gammer,

Risposte:


11

Dalla tua domanda precedente hai appreso che GLM è descritto in termini di distribuzione di probabilità, predittore lineare e funzione di collegamento g ed è descritto comeηg

η=XβE(Y|X)=μ=g1(η)

dove è una funzione di collegamento logit e si presume che Y segua una distribuzione di BernoulligY

YiB(μi)

ciascun consegue distribuzione di Bernoulli con il proprio medio μ i che è subordinata X . Siamo non assumendo che ciascun Y i proviene dalla stessa distribuzione, con lo stesso mezzo (questo sarebbe l'intercetta-unico modello Y i = g - 1 ( μ ) ), ma che tutti hanno mezzi differenti. Partiamo dal presupposto che Y i è indipendente , cioè non dobbiamo preoccuparci di cose come l'autocorrelazione tra valori Y i successivi ecc.Yi μiXYiYi=g1(μ)YiYi

L' ipotesi iid è correlata a errori nella regressione lineare (ad es. GLG gaussiana), in cui si trova il modello

yi=β0+β1xi+εi=μi+εi

dove , quindi abbiamo IID rumore intorno a μ i . Questo è il motivo per cui sono interessati alla diagnostica dei residui e prestano attenzione alla trama dei residui rispetto a quella montata . Ora, nel caso della regressione logistica come GLM non è così semplice poiché non esiste un termine di rumore additivo come con il modello gaussiano (vedi qui , qui e quiεiN(0,σ2)μi). Vogliamo ancora che i residui siano "casuali" intorno allo zero e non vogliamo vedere alcuna tendenza in essi perché suggeriscono che ci sono alcuni effetti che non sono stati presi in considerazione nel modello, ma non assumiamo che lo siano normale e / o iid . Vedi anche L'importanza dell'assunzione di iid nel thread di apprendimento statistico .

Come sidenote, notiamo che possiamo persino abbandonare l'assunto che ogni provenga dallo stesso tipo di distribuzione. Esistono modelli (non GLM) che ritenere che differenti Y i 's può avere diverse distribuzioni con diversi parametri, vale a dire che i dati proviene da una miscela di differenti distribuzioni . In tal caso, supponiamo anche che i valori Y i siano indipendenti , poiché i valori dipendenti, provenienti da diverse distribuzioni con parametri diversi (cioè dati tipici del mondo reale) sono qualcosa che nella maggior parte dei casi sarebbe troppo complicato da modellare (spesso impossibile) .YiYiYi


6

Come è stato affermato, mentre spesso consideriamo il caso di errori iid nella regressione lineare, questo non ha un equivalente diretto nella maggior parte dei modelli lineari generalizzati (inclusa la regressione logistica). Nella regressione logistica, di solito impieghiamo il presupposto di indipendenza dei risultati che hanno tutti una relazione molto stretta (cioè effetti lineari sulle probabilità del registro). Ma questi danno luogo a variabili casuali che non sono identiche, né sono scomponibili in un termine costante più un errore iid come nel caso della regressione lineare.

Se vuoi davvero dimostrare che le risposte hanno una sorta di relazione IID, seguimi per il prossimo paragrafo. Sappi solo che questa idea è un po 'fuori mano; potresti non ottenere il pieno credito per questa risposta in una finale se il tuo professore manca di pazienza.

XFXXquniform(0,1)X=FX1(q)p=expit(βo+β1x)FY(y|p)pYi

pi=expit(βo+β1xi)

qiuniform(0,1)

Yi=F1(qi|pi)

qi


1
qiYiB(pi)Yipiqi

@Tim: sì, la seconda parte della risposta è più una nota a margine interessante che una risposta concisa. Ma può essere un modo utile per vederlo; dopo tutto, in pratica è così che il tuo computer simula i dati di questi modelli!
Cliff AB,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.