Dov'è la varianza condivisa tra tutti gli IV in un'equazione di regressione multipla lineare?


10

In un'equazione di regressione multipla lineare, se i pesi beta riflettono il contributo di ogni singola variabile indipendente oltre al contributo di tutti gli altri IV, dove nell'equazione di regressione è la varianza condivisa da tutti i IV che predice il DV?

Ad esempio, se il diagramma di Venn visualizzato di seguito (e preso dalla pagina 'about' del CV qui: https://stats.stackexchange.com/about ) fosse rietichettato come 3 IV e 1 DV, dove entrerebbe l'area con l'asterisco nell'equazione di regressione multipla?

inserisci qui la descrizione dell'immagine


4
Non vedo la necessità di un downvote qui. Penso che questa domanda arrivi a quello che sta succedendo nella regressione multipla a un livello fondamentale e offre l'opportunità di spiegare qualcosa su MR che altrimenti non verrebbe mai discusso.
gung - Ripristina Monica

Risposte:


8

WikiDiggForumBlogWiki ti sta rispondendo.

Ogni cerchio rappresenta un insieme di punti e quindi una quantità di varianza. Per la maggior parte, siamo interessati alla varianza in Wiki, ma la figura mostra anche le variazioni nei predittori. Ci sono alcune cose da notare sulla nostra figura. Innanzitutto, ogni variabile ha la stessa quantità di varianza: hanno tutte le stesse dimensioni (anche se non tutti useranno i diagrammi di Venn in modo così letterale). Inoltre, c'è la stessa quantità di sovrapposizioni, ecc. Ecc. Una cosa più importante da notare è che esiste una buona dose di sovrapposizione tra le variabili predittive. Ciò significa che sono correlati. Questa situazione è molto comune quando si tratta di dati secondari (ad es., Di archiviazione), di ricerca osservativa o di scenari di previsione del mondo reale. D'altra parte, se si trattasse di un esperimento progettato, ciò implicherebbe probabilmente una progettazione o esecuzione inadeguate. Per continuare con questo esempio per un po 'più a lungo, possiamo vedere che la nostra capacità predittiva sarà moderata; la maggior parte della variabilità inWikiR2.35DiggBlogForumWiki

Ora, dopo aver adattato un modello con più predittori, le persone spesso vogliono testare quei predittori per vedere se sono correlati alla variabile di risposta (anche se non è chiaro che questo sia importante quanto le persone sembrano credere che lo sia). Il nostro problema è che per testare questi predittori, dobbiamo partizionare la somma dei quadrati e poiché i nostri predittori sono correlati, ci sono SS che potrebbero essere attribuite a più di un predittore. In effetti, nella regione con l'asterisco, le SS potrebbero essere attribuite a uno dei tre predittori. Ciò significa che non esiste una partizione univoca dell'SS e quindi nessun test univoco. Come viene gestito questo problema dipende dal tipo di SS utilizzato dal ricercatore ealtri giudizi del ricercatore . Poiché molte applicazioni software restituiscono il SS di tipo III per impostazione predefinita, molte persone eliminano le informazioni contenute nelle regioni sovrapposte senza rendersi conto di aver emesso una sentenza . Spiego questi problemi, i diversi tipi di SS, e vado in dettaglio qui .

La domanda, come affermato, chiede specificamente dove si manifesta tutto ciò nell'equazione beta / regressione. La risposta è che non lo è. Alcune informazioni al riguardo sono contenute nella mia risposta qui (anche se dovrai leggere un po 'tra le righe).


Ciao Gung, grazie per la tua pubblicazione. È molto interessante e mi ha aperto gli occhi in alcune aree. Tuttavia, ho problemi a leggere tra le righe del post a cui ti sei collegato. Quindi, la mia domanda rimane: in un'equazione di regressione multipla lineare, se i pesi beta riflettono il contributo di ogni singola variabile indipendente oltre al contributo di tutti gli altri IV, dove nell'equazione di regressione è la varianza condivisa da tutti i IV che prevede il DV?
Joel W.

WikiDiggForum
gung - Ripristina Monica

Se "La sovrapposizione appare nel primo non nel secondo" come può l'equazione di regressione riflettere la varianza condivisa? Se i beta indicano il contributo di ciascun IV quando gli effetti di tutti gli altri IV vengono rimossi statisticamente, quale parte della formula di regressione riflette il potere predittivo della varianza condivisa rimossa? Oppure, come può l'equazione di regressione mostrare cosa accadrebbe alla Y prevista se si incrementa uno dei IV di 1 se la sovrapposizione non si riflette nei Betas? Una terza domanda: in un'analisi MR dei dati sottostanti il ​​diagramma di Venn il Forum beta = 0?
Joel W.

βF=0

1
@MarkWhite, la risposta dello studente è per lo più OK. L'affermazione che quando X1 e X2 sono perfettamente correlati le loro beta sono la metà non è corretta; quando r = 1 il modello non è identificabile (vedi qui ). Man mano che r si avvicina a 1, i beta stimati dipenderanno dalle relazioni nei dati del campione e possono variare ampiamente da campione a campione.
gung - Ripristina Monica

5

Peter Kennedy ha una bella descrizione dei diagrammi di Ballentine / Venn per la regressione nel suo libro e nell'articolo JSE , compresi i casi in cui possono portarti fuori strada.

R2


R2

Anzi e fatto.
Dimitriy V. Masterov

L'area stellata viene utilizzata per calcolare la y prevista? In tal caso, dove nella formula di previsione l'area stellata contribuisce alla previsione y? Detto diversamente, quale termine o termini nella formula di previsione riflettono l'area stellata?
Joel W.

3

Mi rendo conto che si tratta di un thread (molto) datato, ma dal momento che uno dei miei colleghi mi ha posto questa stessa domanda questa settimana e non trovando nulla sul Web a cui potrei indicarlo, ho pensato di aggiungere i miei due centesimi "per i posteri" Qui. Non sono convinto che le risposte fornite finora rispondano alla domanda del PO.

Ho intenzione di semplificare il problema coinvolgendo solo due variabili indipendenti; è molto semplice estenderlo a più di due. Considera il seguente scenario: due variabili indipendenti (X1 e X2), una variabile dipendente (Y), 1000 osservazioni, le due variabili indipendenti sono altamente correlate tra loro (r = .99) e ogni variabile indipendente è correlata alla dipendente variabile (r = .60). Senza perdita di generalità, standardizzare tutte le variabili su una media di zero e una deviazione standard di una, quindi il termine di intercettazione sarà zero in ciascuna delle regressioni.

Eseguire una semplice regressione lineare di Y su X1 produrrà un quadrato r di .36 e un valore b1 di 0,6. Allo stesso modo, l'esecuzione di una semplice regressione lineare di Y su X2 produrrà un quadrato r di .36 e un valore b1 di 0,6.

L'esecuzione di una regressione multipla di Y su X1 e X2 produrrà un quadrato r di appena un po 'più alto di 0,36 e sia b1 che b2 assumeranno il valore di 0,3. Pertanto, la variazione condivisa in Y viene catturata in ENTRAMBE b1 e b2 (ugualmente).

Penso che l'OP possa aver formulato un'ipotesi falsa (ma del tutto comprensibile): vale a dire, poiché X1 e X2 si avvicinano sempre di più alla perfetta correlazione, i loro valori b nell'equazione di regressione multipla si avvicinano sempre più a ZERO. Questo non è il caso. In effetti, quando X1 e X2 si avvicinano sempre di più alla perfetta correlazione, i loro valori b nella regressione multipla si avvicinano sempre più a MEZZO del valore b nella semplice regressione lineare di uno di essi. Tuttavia, poiché X1 e X2 si avvicinano sempre di più alla perfetta correlazione, l'ERRORE STANDARD di b1 e b2 si avvicina sempre più all'infinito, quindi i valori t convergono su zero. Quindi, i valori t convergeranno su zero (cioè, nessuna relazione lineare UNICA tra X1 e Y o X2 e Y),

Quindi, la risposta alla domanda del PO è che, man mano che la correlazione tra X1 e X2 si avvicina all'unità, OGNI dei coefficienti di pendenza parziale si avvicina contribuendo ugualmente alla previsione del valore Y, anche se nessuna variabile indipendente offre alcuna spiegazione UNICA del dipendente variabile.

Se desideri verificarlo empiricamente, genera un set di dati fabbricato (... ho usato una macro SAS denominata Corr2Data.sas ...) che presenta le caratteristiche sopra descritte. Controlla i valori b, gli errori standard e i valori t: scoprirai che sono esattamente come descritti qui.

HTH // Phil


1
Questa è una spiegazione fantastica, grazie. Ho provato a simulare diverse situazioni in R, e sono giunto alla conclusione che non puoi liberarti della variabilità condivisa se n è troppo grande o se la correlazione tra l'output (Y) e il componenet condiviso (X1 e X2 ) è troppo alto. Ma perché i valori t dovrebbero riflettere tutto ciò che non è il contributo unico di X1 e X2, per cominciare? Se i valori t di regressione riflettono i contributi unici dei predittori, non dovremmo vedere la variabilità condivisa che influisce sui valori t, ma lo facciamo. Perché?
Galit,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.