Come concettualizzare l'errore in un modello di regressione?


11

Frequento un corso di analisi dei dati e alcune delle mie idee ben radicate vengono scosse. Vale a dire, l'idea che l'errore (epsilon), così come qualsiasi altro tipo di varianza, si applica solo (così ho pensato) a un gruppo (un campione o l'intera popolazione). Ora, ci viene insegnato che una delle ipotesi di regressione è che la varianza è "la stessa per tutti gli individui". Questo è in qualche modo scioccante per me. Ho sempre pensato che fosse la varianza in Y attraverso tutti i valori di X che si riteneva costante.

Ho fatto una chiacchierata con il prof, che mi ha detto che quando facciamo una regressione, assumiamo che il nostro modello sia vero. E penso che sia la parte difficile. Per me, il termine errore (epsilon) significava sempre qualcosa come "qualunque elemento non conosciamo e che possa influenzare la nostra variabile di risultato, oltre ad un errore di misurazione". Nel modo in cui la lezione viene insegnata, non esiste "altra roba"; si presume che il nostro modello sia vero e completo. Ciò significa che tutta la variazione residua deve essere considerata come un prodotto dell'errore di misurazione (quindi, la misurazione di un individuo 20 volte dovrebbe produrre la stessa varianza della misurazione di 20 individui una volta).

Sento che qualcosa non va da qualche parte, mi piacerebbe avere un parere di esperti su questo ... C'è qualche spazio per l'interpretazione su quale sia il termine di errore, concettualmente parlando?


3
Forse intendeva dire che, anche se il modello è vero, c'è ancora una variazione casuale nelle risposte - questo è catturato dalla varianza dell'errore - questo, ad esempio, può essere attribuito a un apparato di misurazione imperfetto. Altri a volte concettualizzano la varianza dell'errore come quella dovuta a predittori mancanti (non necessariamente errori nella forma del modello), sottintendendo che se tutti i possibili predittori fossero misurati, la varianza dell'errore sarebbe 0. Questo non è in contrasto con il primo - gli errori nella misurazione può essere pensato come un "predittore mancante".
Macro

Penso che una cosa che sia sempre difficile da capire all'inizio sia che "errore" potrebbe significare cose diverse in questo caso. "Errore" potrebbe riferirsi alla differenza tra i valori adattati che otteniamo dal nostro modello e i valori osservati (la discrepanza può essere dovuta a un modello abbastanza parsimonioso, ad es.). "Errore" potrebbe anche significare la differenza tra i valori osservati e i valori reali (la discrepanza può essere dovuta, ad esempio, al dispositivo utilizzato per misurare i valori arrotondati al numero intero più vicino / decimo decimale / ecc.). [Il primo tipo è dove ascolteresti termini come "residui / varianza residua".]

@Macro Sì, questo mi sembra un modo naturale di pensare all'errore. Sto cercando comunque di capire perché il prof ha insistito sulla definizione più rigorosa di esso (considerandolo applicabile a ciascun individuo anche se sappiamo nella realtà, non è vero).
Dominic Comtois,

@MikeWierzbicki Giusto. E se ho capito bene, tutto questo è raggruppato nel punto di vista "rigoroso". Ciò significa che tutta la differenza tra i valori osservati e quelli previsti deriva dall'errore di misurazione, poiché il nostro modello "deve essere vero".
Dominic Comtois,

Risposte:


2

Se ci sono aspetti di individui che hanno un effetto sui valori y risultanti, allora o c'è un modo per arrivare a quegli aspetti (nel qual caso dovrebbero essere parte del predittore x), o non c'è modo di mai arrivare a quello informazione.

Se non c'è modo di ottenere mai queste informazioni e non c'è modo di misurare ripetutamente i valori y per gli individui, allora non importa davvero. Se puoi misurare y ripetutamente e se il tuo set di dati contiene effettivamente misurazioni ripetute per alcuni individui, hai un potenziale problema a portata di mano, poiché la teoria statistica presuppone l'indipendenza degli errori / residui di misurazione.

Ad esempio, supponiamo che stai cercando di adattare un modello del modulo

y=β0+β1x

e quello per ogni individuo,

yind=100+10x+z

dove z dipende dall'individuo ed è normalmente distribuito con media 0 e deviazione standard 10. Per ogni misurazione ripetuta di un individuo,

ymeas=100+10x+z+e

e

Potresti provare a modellarlo come

y=β0+β1x+ϵ

ϵ

σ=102+0.12=100.01

Finché hai una sola misurazione per ogni individuo, andrebbe bene. Tuttavia, se hai più misurazioni per lo stesso individuo, i tuoi residui non saranno più indipendenti!

β0=100β1=10χ2


Ho cercato di evitare di usare il termine spaventoso "modellazione multilivello" nella mia risposta, ma dovresti essere consapevole che in alcuni casi fornisce un modo per affrontare questo tipo di situazione.
Brian Borchers,

1

Penso che "l'errore" sia meglio descritto come "la parte delle osservazioni che non è prevedibile date le nostre informazioni attuali". Cercare di pensare in termini di popolazione vs campione porta a problemi concettuali (bene lo fa comunque per me), così come pensare agli errori come "puramente casuali" tratti da una distribuzione. pensare in termini di previsione e "prevedibilità" ha molto più senso per me.

p(e1,,en)E(1ni=1nei2)=σ2σ2σ

n


σ2

p(e1,,en)1

E da vicino i divergenza media kl è ridotto al minimo
probabilityislogic

Il dilemma non è tra campione e popolazione. Si tratta di pensare all'errore come applicabile agli individui rispetto al campione / popolazione.
Dominic Comtois,


1

Non sono d'accordo con la formulazione del professore di questo. Come dici tu, l'idea che la varianza sia la stessa per ogni individuo implica che il termine di errore rappresenta solo l'errore di misurazione. Di solito non è così che viene costruito il modello di regressione multipla di base. Inoltre, come dici tu, la varianza è definita per un gruppo (che si tratti di un gruppo di singoli soggetti o di un gruppo di misurazioni). Non si applica a livello individuale, a meno che tu non abbia ripetute misure.

Un modello deve essere completo in quanto il termine di errore non deve contenere influenze da alcuna variabile correlata ai predittori. Il presupposto è che il termine di errore è indipendente dai predittori. Se viene omessa una variabile correlata, si ottengono coefficienti distorti (questo si chiama distorsione da variabile omessa ).


Non capisco bene questa risposta. sembra riconoscere la differenza tra errore a causa della mancanza di adattamento e errore casuale, ma l'ultima domanda retorica sembra confusa. Da una prospettiva puramente formale, essenzialmente qualsiasi inferenza fatta rispetto a un modello di regressione dipende da presupposti molto espliciti sulla struttura del rumore.
cardinale

1
Il mio punto è che in molti casi, lo scopo del modello di regressione è capire cosa sta succedendo anche quando non conosciamo tutte le cause di un determinato risultato. Ma siccome sembra poco chiaro, eliminerò questa domanda.
Anne Z.

Grazie. Il punto nel tuo commento è buono. La domanda precedente che hai dichiarato potrebbe essere letta mettendo in discussione l'intera base su cui poggia la teoria della regressione. :)
cardinale

Sono d'accordo con te nel tuo disaccordo (da qui la mia domanda!), E la distorsione da variabile omessa è abbastanza rilevante per il problema. Grazie.
Dominic Comtois,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.