Regressione lineare, aspettative condizionali e valori previsti


11

Va bene, quindi solo un po 'confuso su alcune cose, qualsiasi aiuto sarebbe molto apprezzato. Comprendo che il modello di regressione lineare è previsto tramite un'aspettativa condizionale

E(Y|X)=b+Xb+e
  1. Supponiamo che sia che siano variabili casuali con qualche distribuzione di probabilità sconosciuta? ho capito che solo i residui e i coefficienti beta stimati erano variabili casuali. in tal caso, ad esempio, se obesità e età, se prendiamo l'aspettativa condizionale significato, qual è il valore atteso di essere obesi se l'individuo è attraverso il campione, dovremmo prendi semplicemente la media (media aritmetica) di y per quelle osservazioni in cui ? ma il valore atteso non implica che dobbiamo moltiplicarlo per la probabilità che si verifichi? ma come in questo senso troviamo la probabilità dellaY Y = X = E ( Y | X = 35 ) 35 X = 35 XXYY=X=E(Y|X=35)35X=35X-valore variabile che si verifica se rappresenta qualcosa come l'età?
  2. Se rappresentasse qualcosa di simile al tasso di cambio, questo sarebbe classificato come casuale? come mai troveresti il ​​valore atteso di questo senza conoscere la probabilità però? o il valore atteso sarebbe solo uguale alla media nel limite.X
  3. Se non assumiamo che le variabili dipendenti siano esse stesse variabili casuali, dal momento che non opponiamo la probabilità, cosa assumiamo che siano? solo valori fissi o qualcosa del genere? ma se questo è il caso, come possiamo iniziare con una variabile non casuale? cosa assumiamo sulla distribuzione delle variabili indipendenti?

Scusate se qualcosa non ha senso o è ovvio per nessuno.


1
Il coefficiente di regressione è una costante sconosciuta, non una variabile casuale (almeno in un mondo frequentista). β
Richard Hardy,

cosa intendi per aspettative condizionate? E (Y | X) significa semplicemente Y dato X, cioè il valore atteso di Y su X. Di ', y = 5 + x, quindi E (Y | X = 5) è 10. Non ho capito il tuo punto con aspettativa condizionale
Zamir Akimbekov,

@RichardHardy, ho capito che dato che B è la media della distribuzione campionaria dei beta, è una variabile casuale caratterizzata da una distribuzione normale. ti riferisci al modello di popolazione?
William Carulli,

Sì, modello di popolazione.
Richard Hardy,

1
@WilliamCarulli Richard si riferisce alla differenza tra un parametro di popolazione e un parametro stimato. Il parametro stimato è in effetti una variabile casuale, ma il parametro di popolazione reale (sconosciuto) è un valore fisso.
Matthew Drury,

Risposte:


8

Nel modello di probabilità alla base della regressione lineare, X e Y sono variabili casuali.

in tal caso, ad esempio, se Y = obesità e X = età, se prendiamo l'aspettativa condizionale E (Y | X = 35) significato, qual è il valore atteso di essere obesi se l'individuo è 35 attraverso il campione, dovremmo prendi semplicemente la media (media aritmetica) di y per quelle osservazioni in cui X = 35?

Giusto. In generale, non puoi aspettarti di disporre di dati sufficienti per ciascun valore specifico di X, oppure potrebbe essere impossibile farlo se X può assumere un intervallo continuo di valori. Ma concettualmente, questo è corretto.

ma il valore atteso non implica che dobbiamo moltiplicarlo per la probabilità che si verifichi?

Questa è la differenza tra l' attesa incondizionata e l' attesa condizionale . La relazione tra loro èE [ Y X = x ]E[Y]E[YX=x]

E[Y]=xE[YX=x]Pr[X=x]

quale è la legge dell'aspettativa totale.

ma in che senso trovare la probabilità che si verifichi la variabile del valore X se rappresenta qualcosa come l'età?

Generalmente non si fa regressione lineare. Poiché stiamo tentando di determinare , non è necessario conoscere .P r [ X = x ]E[YX]Pr[X=x]

Se non assumiamo che le variabili indipendenti siano esse stesse variabili casuali, dal momento che non opponiamo la probabilità, cosa assumiamo che siano? solo valori fissi o qualcosa del genere?

Noi facciamo assumiamo che Y è una variabile casuale. Un modo di pensare alla regressione lineare è come modello di probabilità perY

YXβ+N(0,σ)

Ciò significa che, una volta che conosci il valore di X, la variazione casuale in Y è limitata alla summand .N(0,σ)


Grazie mille per il tuo commento, mi ha aiutato immensamente. Saluti.
William Carulli,

@WilliamCarulli Prego! Sentiti libero di fare qualsiasi domanda di follow-up e farò del mio meglio per rispondere. Se ho chiarito davvero tutti i tuoi problemi, puoi accettarlo anche tu.
Matthew Drury,

3
Questo è un bel post. Tuttavia, penso che qualsiasi risposta che non riconosca che (a) può essere risolta o (b) possa essere una variabile casuale (con particolari assunzioni di indipendenza) non sta realmente affrontando le preoccupazioni espresse nella domanda. X
whuber

@MatthewDrury, solo per chiarire, se la mia variabile dipendente è il tasso di cambio, e la mia dipendente è il tasso di interesse interno, allora
William Carulli,

@ MatthewDrury @ MatthewDrury, Giusto per chiarire, se la mia variabile dipendente è il tasso di cambio, e la mia dipendente è il tasso di interesse interno, quindi E (E (tasso di cambio | tasso di interesse)) = E (tasso di cambio) = media del campione del tasso di cambio? Immagino che ciò che mi confonde sia che presumo sempre che le aspettative siano calcolate in base alle probabilità, non vedo la ragione per indicare la regressione lineare come un'aspettativa condizionale quando risolverla tramite l'algebra matriciale sembra molto diversa dall'assumere l'aspettativa complessiva.
William Carulli,

3

Ci saranno MOLTE risposte a questa domanda, ma voglio ancora aggiungerne una poiché hai fatto alcuni punti interessanti. Per semplicità, considero solo il modello lineare semplice.

   It is my understanding that the linear regression model
   is predicted via a conditional expectation E(Y|X)=b+Xb+e

L'equazione fondamentale di una semplice analisi di regressione lineare è: Questo significato equazione è che il valore medio di è lineare sui valori di . Si può anche notare che il valore atteso è anche lineare sui parametri e , motivo per cui il modello è chiamato lineare. Questa equazione fondamentale può essere riscritta come: dove è una variabile casuale con zero medio:

E(Y|X)=β0+β1X,
YXβ0β1
Y=β0+β1X+ϵ,
ϵE(ϵ)=0
Do we assume that both X and Y are Random variables with some unknown 
probability distribution? ... If we don't assume the independent variables 
are themselves random 

La variabile indipendente può essere casuale o fissa. La variabile dipendente è SEMPRE casuale.XY

Di solito si presume che siano numeri fissi. Questo perché l'analisi di regressione è stata sviluppata ed è ampiamente applicata nel contesto di esperimenti progettati, in cui i valori della sono stati precedentemente fissati.{X1,...,Xn}X

Le formule per le stime dei minimi quadrati di e sono le stesse anche se le sono considerate casuali, ma la distribuzione di queste stime non sarà generalmente la stessa rispetto alla situazione con le fisse .β 1 X Xβ0β1XX

if we take the conditional expectation E(Y|X=35) ... would we just take 
the average(arithmetic mean) of y for those observations where X=35?

Nel semplice modello lineare è possibile creare una stima di basata sulle stime di e , ovvero: Lo stimatore meno quadrato medio condizionale ha un'espressione uguale a quella che hai descritto se il tuo modello tratta i diversi pesi come livelli di un singolo fattore. Questi modelli sono anche noti come ANOVA a senso unico, che è un caso particolare di modello lineare (non semplice).E(Y|X=x) β 0 β 1 φ (x)= β 0+ ß 1xφ^(x)E(Y|X=x)β^0β^1

φ^(x)=β^0+β^1x


1
Alcune delle osservazioni in questo post sono insolite e potrebbero essere fraintese. In primo luogo, il modello si chiama "lineare", perché è lineare nei parametri , non in . In secondo luogo, le stime e sono variabili aleatorie indipendentemente da ciò che è assunto su . Terzo, il tuo trattamento delle aspettative condizionali sembra confondere le osservazioni con la vera distribuzione condizionata. Infine, il riferimento a "nessun valore ripetuto" è confuso perché è irrilevante. β 0 β 1 XXβ^0β^1X
whuber

1
@whuber "In primo luogo, il modello è chiamato" lineare "perché è lineare nei parametri" Stavo spiegando il significato dell'equazione, non il significato di "lineare" in "modello lineare". "le stime β̂ 0 e β̂ 1 sono variabili casuali a prescindere da ciò che si suppone su X" sicuramente, ma la distribuzione di tali variabili casuali cambia a seconda del modo in cui trattate X.
Mur1lo,

1
@whuber Concordo pienamente con i tuoi ultimi punti. Ho intenzione di modificare la mia risposta in modo che sia più chiara in tutte le questioni che hai indicato. Grazie per il feedback.
Mur1lo,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.