Ci sono ipotesi sulla regressione logistica?

Ci sono ipotesi sulla variabile di risposta della regressione logistica?

Ad esempio, supponiamo di avere punti dati. Sembra che la risposta provenga da una distribuzione di Bernoulli con . Pertanto, dovremmo avere distribuzioni di Bernoulli, con diversi parametri . $1000$ $Y_i$ $p_i=\text{logit}(\beta_0+\beta_1 x_i)$ $1000$ $p$

Quindi, sono "indipendenti", ma non sono "identici".

Ho ragione?

PS. Ho imparato la regressione logistica dalla letteratura sull'apprendimento automatico, in cui ottimizziamo la funzione obiettiva e controlliamo se è buono nel testare i dati, senza parlare troppo delle ipotesi.

La mia domanda è iniziata con questo post Comprendere la funzione di collegamento nel modello lineare generalizzato in cui provo a saperne di più sulle ipotesi statistiche.

— Haitao Du
fonte

Un "presupposto" è qualcosa che un teorema può avere. Regressione lineare ha una "assunzione" di errori iid (non è

s che vengono "assunti" per essere IID in regressione lineare viene per l'errori) nel senso che il Teorema di Gauss-Markov ha questa ipotesi. Ora, c'è qualche teorema che uno ha una mente per la regressione logistica? In caso contrario, non ci sono "ipotesi".

y

$y$

— ameba dice di reintegrare Monica il

@Amoeba, hxd è corretto nel notare che le distribuzioni non sono identiche: "iid" non si applica. Se uno sta usando la regressione logistica solo per adattarsi, allora (mentre scrivi) forse sono necessari pochi presupposti; ma non appena si fa uso della matrice di covarianza stimata dei coefficienti o si desidera costruire intervalli di previsione (o, del resto, convalidare i valori previsti), ciò richiede ipotesi probabilistiche. Il solito è che le risposte sono indipendenti.

— whuber

@amoeba una volta che si desidera eseguire l'inferenza (test di ipotesi, intervalli di confidenza, ecc.) piuttosto che semplicemente calcolare le stime dei parametri, si farà una serie di ipotesi (alcune più critiche di altre) al fine di poter derivare la relativa distribuzione nulla del testare la statistica o i calcoli necessari per un intervallo con la copertura desiderata. Anche le procedure relativamente basse presuppongono ancora ipotesi e se ci preoccupiamo delle nostre inferenze, ci preoccuperemo se è probabile che abbiano qualcosa vicino alle loro proprietà nominali.

— Glen_b -Restate Monica

@amoeba, mi piace un teorema che mostra la normalità asintotica dell'MLE. Mi piace anche il test del rapporto di verosimiglianza.

— Gammer

Le loro distribuzioni marginali non sono identiche a meno che non abbiano tutti lo stesso valore predittore, nel qual caso hai solo prove IID di bernoulli. I loro distribuzioni condizionate (dato il predittore) sono tutti uguali, ma non credo che normalmente si dice che la

in questo caso sono IID.

Y_{i}

$Y_i$

— Gammer,

Risposte:

Dalla tua domanda precedente hai appreso che GLM è descritto in termini di distribuzione di probabilità, predittore lineare e funzione di collegamento ed è descritto come $\eta$ $g$

\begin{aligned} η & = X β \\ E (Y | X) & = μ = g^{- 1} (η) \end{aligned}

$\begin{align} \eta &= X\beta \\ E(Y|X) &= \mu = g^{-1}(\eta) \end{align}$

dove è una funzione di collegamento logit e si presume che segua una distribuzione di Bernoulli $g$ $Y$

Y_{i} \sim B (μ_{i})

$Y_i \sim \mathcal{B}(\mu_i)$

ciascun consegue distribuzione di Bernoulli con il proprio medio che è subordinata . Siamo non assumendo che ciascun proviene dalla stessa distribuzione, con lo stesso mezzo (questo sarebbe l'intercetta-unico modello ), ma che tutti hanno mezzi differenti. Partiamo dal presupposto che è indipendente , cioè non dobbiamo preoccuparci di cose come l'autocorrelazione tra valori successivi ecc. $Y_i$ $\mu_i$ $X$ $Y_i$ $Y_i = g^{-1}(\mu)$ $Y_i$ $Y_i$

L' ipotesi iid è correlata a errori nella regressione lineare (ad es. GLG gaussiana), in cui si trova il modello

y_{i} = β_{0} + β_{1} x_{i} + ε_{i} = μ_{i} + ε_{i}

$y_i = \beta_0 + \beta_1 x_i + \varepsilon_i = \mu_i + \varepsilon_i$

dove , quindi abbiamo IID rumore intorno a . Questo è il motivo per cui sono interessati alla diagnostica dei residui e prestano attenzione alla trama dei residui rispetto a quella montata . Ora, nel caso della regressione logistica come GLM non è così semplice poiché non esiste un termine di rumore additivo come con il modello gaussiano (vedi qui , qui e qui $\varepsilon_i \sim \mathcal{N}(0, \sigma^2)$ $\mu_i$ ). Vogliamo ancora che i residui siano "casuali" intorno allo zero e non vogliamo vedere alcuna tendenza in essi perché suggeriscono che ci sono alcuni effetti che non sono stati presi in considerazione nel modello, ma non assumiamo che lo siano normale e / o iid . Vedi anche L'importanza dell'assunzione di iid nel thread di apprendimento statistico .

Come sidenote, notiamo che possiamo persino abbandonare l'assunto che ogni provenga dallo stesso tipo di distribuzione. Esistono modelli (non GLM) che ritenere che differenti 's può avere diverse distribuzioni con diversi parametri, vale a dire che i dati proviene da una miscela di differenti distribuzioni . In tal caso, supponiamo anche che valori siano indipendenti , poiché i valori dipendenti, provenienti da diverse distribuzioni con parametri diversi (cioè dati tipici del mondo reale) sono qualcosa che nella maggior parte dei casi sarebbe troppo complicato da modellare (spesso impossibile) . $Y_i$ $Y_i$ $Y_i$

— Tim
fonte

Come è stato affermato, mentre spesso consideriamo il caso di errori iid nella regressione lineare, questo non ha un equivalente diretto nella maggior parte dei modelli lineari generalizzati (inclusa la regressione logistica). Nella regressione logistica, di solito impieghiamo il presupposto di indipendenza dei risultati che hanno tutti una relazione molto stretta (cioè effetti lineari sulle probabilità del registro). Ma questi danno luogo a variabili casuali che non sono identiche, né sono scomponibili in un termine costante più un errore iid come nel caso della regressione lineare.

Se vuoi davvero dimostrare che le risposte hanno una sorta di relazione IID, seguimi per il prossimo paragrafo. Sappi solo che questa idea è un po 'fuori mano; potresti non ottenere il pieno credito per questa risposta in una finale se il tuo professore manca di pazienza.

$X$ $F_X$ $X$ $q \sim \text{uniform(0,1)}$ $X = F_X^{-1}(q)$ $p = \text{expit}(\beta_o + \beta_1 x)$ $F_Y( y | p)$ $p$ $Y_i$

$p_i = \text{expit}(\beta_o + \beta_1 x_i)$

$q_i \sim\text{uniform(0,1)}$

$Y_i = F^{-1}(q_i | p_i)$

$q_i$

— Cliff AB
fonte

q_{i}

$q_i$

Y_{i} \sim B (p_{i})

$Y_i \sim \mathcal{B}(p_i)$

Y_{i}

$Y_i$

p_{i}

$p_i$

q_{i}

$q_i$

@Tim: sì, la seconda parte della risposta è più una nota a margine interessante che una risposta concisa. Ma può essere un modo utile per vederlo; dopo tutto, in pratica è così che il tuo computer simula i dati di questi modelli!

— Cliff AB,