Regressione lineare multivariata rispetto a diversi modelli di regressione univariata


11

Nelle impostazioni di regressione univariata, proviamo a modellare

y=Xβ+noise

dove un vettore di osservazioni e la matrice di progettazione con predittori. La soluzione è . n X R n × m m β 0 = ( X T X ) - 1 X yyRnnXRn×mmβ0=(XTX)1Xy

Nelle impostazioni di regressione multivariata, proviamo a modellare

Y=Xβ+noise

dove è una matrice di osservazioni e variabili variabili latenti. La soluzione è . n p β 0 = ( X T X ) - 1 X YyRn×pnpβ0=(XTX)1XY

La mia domanda è come è diverso da quello che l'esecuzione di diversa regressione lineare univariata? Ho letto qui che in quest'ultimo caso prendiamo in considerazione la correlazione tra le variabili dipendenti, ma non la vedo dalla matematica.p


1
Vedi il teorema di Frisch-Waugh-Lovell.
rsm,

1
@amorfati: Quindi, se ho capito bene, sono gli stessi. Perché le persone le trattano in modo diverso?
Roy,

Risposte:


6

Nella cornice della regressione lineare multivariata classica, abbiamo il modello:

Y=Xβ+ϵ

dove rappresenta le variabili indipendenti, rappresenta più variabili di risposta e è un termine iid gaussiano. Il rumore ha una media zero e può essere correlato tra le variabili di risposta. La soluzione di massima verosimiglianza per i pesi è equivalente alla soluzione dei minimi quadrati (indipendentemente dalle correlazioni del rumore) [1] [2]:Y ϵXYϵ

β^=(XTX)1XTY

Ciò equivale a risolvere in modo indipendente un problema di regressione separato per ciascuna variabile di risposta. Questo può essere visto dal fatto che la colonna di (contenente i pesi per la variabile di output) può essere ottenuta moltiplicando per th colonna di (contenente i valori della variabile di risposta).p i ( X T X ) - 1 X T i Y iiβ^i(XTX)1XTiYi

Tuttavia, la regressione lineare multivariata differisce dalla risoluzione separata dei singoli problemi di regressione poiché le procedure di inferenza statistica spiegano le correlazioni tra le variabili a risposta multipla (ad es. Vedere [2], [3], [4]). Ad esempio, la matrice di covarianza del rumore viene visualizzata nelle distribuzioni di campionamento, nelle statistiche dei test e nelle stime degli intervalli.

Un'altra differenza emerge se permettiamo a ciascuna variabile di risposta di avere il proprio set di covariate:

Yi=Xiβi+ϵi

dove rappresenta la I variabile di risposta e X i e ϵ i rappresentano il suo corrispondente set di covariate e termine di rumore. Come sopra, i termini del rumore possono essere correlati tra le variabili di risposta. In questa impostazione, esistono stimatori che sono più efficienti dei minimi quadrati e non possono essere ridotti per risolvere problemi di regressione separati per ciascuna variabile di risposta. Ad esempio, vedere [1].YiiXiϵi

Riferimenti

  1. Zellner (1962) . Un metodo efficiente per stimare regressioni e test apparentemente non correlati per il bias di aggregazione.
  2. Helwig (2017) . Regressione lineare multivariata [diapositive]
  3. Fox e Weisberg (2011) . Modelli lineari multivariati in R. [Appendice: un compagno R alla regressione applicata]
  4. Maitra (2013) . Modelli di regressione lineare multivariata. [Slides]

1
Grazie, ora è più chiaro. Hai un riferimento per questa formulazione? Ho incontrato solo la forma meno quadrata. Inoltre, conosci un pacchetto Python che lo implementa?
Roy,

1
Secondo la richiesta di riferimento. Si ritiene che la correlazione sia solo la covarianza dei risultati o si impara in qualche modo se la covarianza condizionale?
generic_user

Non sono sicuro al 100% che @ user20160 si riferisse a questi, ma penso che ciò che avevano in mente fosse la stima di equazioni / equazioni di stima generalizzate. EE / GEE sono coerenti quando la struttura di covarianza è errata e si può anche impostare la struttura di covarianza prevista. Tuttavia, questi modelli sono stimati iterativamente rispetto a OLS con una forma chiusa. Dovresti essere in grado di stimare GEE / EE in Python ma non conosco i pacchetti.
Icocobus,

1
@Roy ho riscritto la risposta e aggiunto riferimenti. Il mio post originale presupponeva il caso che ora è l'ultimo paragrafo del post rivisto. Proverò ad aggiungere ulteriori dettagli in seguito.
user20160,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.