Distribuzione degli errori per regressione lineare e logistica


9

Con dati continui, una regressione lineare presuppone che il termine di errore sia distribuito N (0, )Y=β1+β2X2+uσ2

1) Supponiamo che anche Var (Y | x) sia ~ N (0, )?σ2

2) Qual è la distribuzione di questo errore nella regressione logistica? Quando i dati sono nella forma di 1 record per caso, dove "Y" è 1 o 0, è il termine di errore distribuito Bernoulli (ovvero la varianza è p (1-p))) e quando i dati sono nella forma # i successi di # di prove, si presume binomiale (ovvero la varianza è np (1-p)), dove p è la probabilità che Y sia 1?


2
Non si è precisi. Il modello presuppone che i termini di errore siano indipendenti e identicamente distribuiti con una distribuzione N (0, σ ) e non correlata a COVARIATE. Che cos'è Var (Y | x)? Stai condizionando su X = x? Il modello presume che la covariata sia casuale in qualche modo o così assumiamo che la covariata sia fissata secondo una matrice di progettazione? Penso che sia quest'ultimo e quindi Var (Y | X = x) è implicito nelle ipotesi e non ha bisogno di essere assunto. 222
Michael R. Chernick,

@MichaelChernick Perché il modello presuppone che sia corretto? Certamente può essere corretto, ma può anche essere casuale. Nulla nella domanda implica uno dei due per me. X2
Peter Flom

@PeterFlom Ho letto nella domanda che la regressione lineare con quella presunta distribuzione degli errori significava OLS che richiede X per essere riparato e noto. Se qualcuno ha una regressione Deming (cioè un errore nella regressione delle variabili) verrebbe specificato nella domanda. Guardare la risposta che Stat ha dato indica che anche lui ha interpretato la domanda. 2
Michael R. Chernick,

@Michael, stavo assumendo X fisso.
B_Miner

Risposte:


10

1) Se ha una distribuzione normale, cioè allora , poiché non è una variabile casuale.uN(0,σ2)Var(Y|X2)=Var(β1+β2X2)+Var(u)=0+σ2=σ2β1+β2X2

2) Nella regressione logistica, si presume che gli errori seguano una distribuzione binomiale come menzionato qui . È meglio scriverlo come , poiché tali probabilità dipendono da , come indicato qui o nella regressione logistica applicata .Var(Yj|Xj)=mj.E[Yj|Xj].(1E[Yj|Xj])=mjπ(Xj).(1π(Xj))Xj


Stat, Quindi, è corretto affermare che la varianza per il suo singolo errore, , è (1- ) che è equivalente a quello che hai mostrato supponendo che ci siano più di 1 osservazione nei dati con la stessa covariata modello (cioè altrimenti = 1 per tutto j)? eipipimj
B_Miner,

2
Sì, questo è corretto. Se con , allora con probabilità o con probabilità . Quindi ha una distribuzione con media e varianza uguale a . Yi=pi+eiP(Yi=1)=1P(Yi=0)=piei=1pipiei=pi1piei0pi(1pi)
Stat

Un altro punto qui, Stat, DOVRIAMO supporre che gli X siano fissi, non casuali per Var (Y | X) = Var (e) per entrambi i casi di regressione lineare e logistica corretti?
B_Miner,

NB con probabilità o con probabilità non è una distribuzione binomiale per . ei=1pipiei=pi1piei
Scortchi - Ripristina Monica

B_Miner: significa che la varianza di dipende dalla variabile casuale che assume un valore osservato . Quindi è irrilevante se i tuoi predittori siano riparati da un esperimento o osservati in un campione: ciò che dice @ Stat è che non vengono più considerati variabili casuali ai fini della regressione. Var(Y|X)=Var(Y|X=x)YXx
Scortchi - Ripristina Monica
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.