Regressione logistica - Termine di errore e sua distribuzione


31

Sull'esistenza di un termine di errore nella regressione logistica (e nella sua presunta distribuzione), ho letto in vari punti che:

  1. non esiste alcun termine di errore
  2. il termine di errore ha una distribuzione binomiale (in conformità con la distribuzione della variabile di risposta)
  3. il termine di errore ha una distribuzione logistica

Qualcuno può chiarire per favore?


6
Con la regressione logistica - o addirittura i GLM più in generale - in genere non è utile pensare in termini di osservazione yi|X come "mean + error". Meglio pensare in termini di distribuzione condizionale. Non direi che "non esiste alcun termine di errore" in quanto "non è utile pensare in questi termini". Quindi non direi così tanto che è una scelta tra 1. o 2. come direi che in genere è meglio dire "nessuna delle precedenti". Tuttavia, indipendentemente dal grado in cui si potrebbe discutere per "1" o "2.", tuttavia, "3." è decisamente sbagliato. dove l'hai visto?
Glen_b -Restate Monica

1
@Glen_b: si potrebbe discutere per (2)? Ho conosciuto persone che lo dicessero, ma mai per difenderlo quando è stato messo in discussione.
Scortchi - Ripristina Monica

3
@Glen_b Tutte e tre le affermazioni hanno interpretazioni costruttive in cui sono vere. (3) è indirizzato a en.wikipedia.org/wiki/Logistic_distribution#Applications e en.wikipedia.org/wiki/Discrete_choice#Binary_Choice .
whuber

@whuber: ho corretto la mia risposta wrt (3), che non è stata ben ponderata; ma ancora perplesso in che senso (2) potrebbe essere giusto.
Scortchi - Ripristina Monica

2
@Scortchi Anche se hai ragione sul fatto che (2) non è corretto, se lo interpretiamo dicendo che la differenza tra un'osservazione e la sua aspettativa ha una distribuzione binomiale tradotta dall'aspettativa , allora sarà (banalmente) corretta. L'osservazione tra parentesi in (2) suggerisce fortemente che questa è l'interpretazione prevista. Si noti che possono essere definiti anche altri "termini di errore" utili, come i termini di errore e di devianza descritti in Hosmer & Lemeshow (e, fatti salvi opportuni avvertimenti discussi qui, i loro quadrati hanno approssimazioni χ 2 distribuzioni). χ2χ2
whuber

Risposte:


25

Nella regressione lineare si presume che le osservazioni seguano una distribuzione gaussiana con un parametro medio condizionato ai valori del predittore. Se si sottrae la media dalle osservazioni si ottiene l' errore : una distribuzione gaussiana con zero medio e indipendente dai valori del predittore, ovvero gli errori in qualsiasi set di valori del predittore seguono la stessa distribuzione.

Nelle osservazioni di regressione logistica si suppone che segua una distribuzione di Bernoulli con un parametro medio (una probabilità) subordinato ai valori del predittore. Quindi per ogni dato valore predittore che determina una media π ci sono solo due possibili errori: 1 - π che si verificano con probabilità π e 0 - π che si verificano con probabilità 1 - π . Per altri valori predittivi gli errori saranno 1 - π ′ che si verificano con probabilità π y{0,1}π1ππ0π1π1π'π', E verificano con probabilità 1 - π . Quindi non esiste una distribuzione comune degli errori indipendente dai valori del predittore, motivo per cui la gente dice "non esiste alcun termine di errore" (1).0-π'1π

"Il termine di errore ha una distribuzione binomiale" (2) è solo sciatteria— "I modelli gaussiani hanno errori gaussiani, i modelli binomiali ergo hanno errori binomiali". (O, come sottolinea @whuber, si potrebbe intendere "la differenza tra un'osservazione e la sua aspettativa ha una distribuzione binomiale tradotta dall'aspettativa".)

"Il termine di errore ha una distribuzione logistica" (3) deriva dalla derivazione della regressione logistica dal modello in cui si osserva se una variabile latente con errori a seguito di una distribuzione logistica supera una certa soglia. Quindi non è lo stesso errore definito sopra. (Sembrerebbe strano dire IMO al di fuori di quel contesto, o senza riferimento esplicito alla variabile latente.)

† Se hai osservazioni con gli stessi valori predittivi, dando la stessa probabilità π per ciascuno, allora la loro somma y segue una distribuzione binomiale con probabilità π e no. prove k . Considerando y - k π come l'errore si ottengono le stesse conclusioni.kπyπkykπ


1
Potresti fornire un semplice esempio per quanto riguarda la parte "non esiste alcun termine di errore". Sto avendo problemi a capirlo nel modo in cui è scritto.
Quirik,

@Scortchi Sto avendo problemi a seguire il caso quando in pratica il modello viene utilizzato con una certa soglia, diciamo 0.5. Quindi l'errore è 1 o 0. Può quindi essere considerata una variabile casuale di Bernoulli con il parametro 1- quando l'etichetta vera è 1? π
wabbit

17

Questo è stato trattato in precedenza. Un modello vincolato ad avere valori previsti in non può possibilmente avere un termine di errore aggiuntivo che farebbe andare le previsioni fuori da [ 0 , 1 ] . Pensa all'esempio più semplice di un modello logistico binario: un modello contenente solo un'intercettazione. Ciò equivale al problema di un campione di Bernoulli, spesso chiamato (in questo caso semplice) il problema binomiale perché (1) tutte le informazioni sono contenute nella dimensione del campione e nel numero di eventi o (2) la distribuzione di Bernoulli è un caso speciale della distribuzione binomiale con n = 1[0,1][0,1]n=1. I dati grezzi in questa situazione sono una serie di valori binari e ognuno ha una distribuzione di Bernoulli con parametro sconosciuto rappresenta la probabilità dell'evento. Non esiste un termine di errore nella distribuzione di Bernoulli, c'è solo una probabilità sconosciuta. Il modello logistico è un modello di probabilità.θ


9

Per me l'unificazione della regressione logistica, lineare, di poisson ecc. È sempre stata in termini di specificazione della media e della varianza nel quadro del modello lineare generalizzato. Iniziamo specificando una distribuzione di probabilità per i nostri dati, normale per dati continui, Bernoulli per dicotomia, Poisson per conteggi, ecc ... Quindi specifichiamo una funzione di collegamento che descrive come la media è correlata al predittore lineare:

g(μi)=α+xiTβ

Per la regressione lineare, .g(μi)=μi

g(μi)=log(μi1μi)

g(μi)=log(μi)

L'unica cosa che si potrebbe considerare in termini di scrittura di un termine di errore sarebbe dichiarare:

yi=g1(α+xiTβ)+eiE(ei)=0Var(ei)=σ2(μi)σ2(μi)=μi(1μi)=g1(α+xiTβ)(1g1(α+xiTβ)). But, you cannot explicitly state that ei has a Bernoulli distribution as mentioned above.

Note, however, that basic Generalized Linear Models only assume a structure for the mean and variance of the distribution. It can be shown that the estimating equations and the Hessian matrix only depend on the mean and variance you assume in your model. So you don't necessarily need to be concerned with the distribution of ei for this model because the higher order moments don't play a role in the estimation of the model parameters.


0
  1. No errors exist. We are modeling the mean! The mean is just a true number.
  2. This doesn't make sense to me.
  3. Think the response variable as a latent variable. If you assume the error term is normally distributed, then the model becomes a probit model. If you assume the distribution of the error term is logistic, then the model is logistic regression.

2
I fail to see how this helps one understand a probability model. Probability models are simpler than this makes it seem.
Frank Harrell
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.