Spiega la differenza tra regressione multipla e regressione multivariata, con un uso minimo di simboli / matematica


Risposte:


54

Molto rapidamente, direi: "multiplo" si applica al numero di predittori che entrano nel modello (o equivalentemente nella matrice di progettazione) con un unico risultato (risposta Y), mentre "multivariato" si riferisce a una matrice di vettori di risposta. Non ricordo l'autore che ha iniziato la sua sezione introduttiva sulla modellazione multivariata con quella considerazione, ma penso che sia Brian Everitt nel suo libro di testo An R and S-Plus Companion to Multivariate Analysis . Per una discussione approfondita al riguardo, suggerirei di esaminare il suo ultimo libro, Modellazione multivariabile e Analisi multivariata per le scienze comportamentali .

Per "variata", direi che questo è un modo comune per fare riferimento a qualsiasi variabile casuale che segue una distribuzione nota o ipotizzata, ad esempio parliamo di variati gaussiani come una serie di osservazioni tratte da una distribuzione normale (con parametri μ e σ 2 ). In termini probabilistici, abbiamo detto che si tratta di alcune realizzazioni casuali di X, con aspettative matematiche μ , e circa il 95% di esse dovrebbero trovarsi nell'intervallo [ μ - 2 σ ; μ + 2 σ ] .Xioμσ2μ[μ-2σ;μ+2σ]


1
Anche coursera.org/learn/machine-learning/home/week/2 usa il termine regressione multivariata anziché regressione multipla ...
Franck Dernoncourt,

Penso che la stessa confusione insorga con le persone che usano il termine GLM per General Linear Model (ad esempio, negli studi di neuroimaging) rispetto al General Linear Model. Ho visto molti casi di "regressione logistica multivariata" in cui vi è un solo risultato e non penso che questo contenga tanto finché il termine è chiaramente definito dall'autore.
chl,

39

Ecco due esempi strettamente correlati che illustrano le idee. Gli esempi sono in qualche modo incentrati sugli Stati Uniti, ma le idee possono essere estrapolate ad altri paesi.

Esempio 1

Supponiamo che un'università desideri perfezionare i suoi criteri di ammissione in modo da ammettere gli studenti "migliori". Supponiamo inoltre che la media dei voti (GPA) di uno studente sia ciò che l'università desidera utilizzare come metrica di rendimento per gli studenti. Hanno in mente diversi criteri come GPA delle scuole superiori (HSGPA), punteggi SAT (SAT), genere ecc. E vorrebbero sapere quale di questi criteri è importante per quanto riguarda GPA.

Soluzione: regressione multipla

Nel contesto sopra, c'è una variabile dipendente (GPA) e hai più variabili indipendenti (HSGPA, SAT, Gender ecc.). Vuoi scoprire quali delle variabili indipendenti sono buoni predittori per la tua variabile dipendente. Utilizzerai la regressione multipla per effettuare questa valutazione.

Esempio 2

Invece della situazione di cui sopra, supponiamo che l'ufficio ammissioni desideri monitorare le prestazioni degli studenti nel tempo e desideri determinare quale dei loro criteri guida le prestazioni degli studenti nel tempo. In altre parole, hanno punteggi GPA per i quattro anni in cui uno studente resta a scuola (diciamo, GPA1, GPA2, GPA3, GPA4) e vogliono sapere quale delle variabili indipendenti predirebbe meglio i punteggi GPA su base annuale per anno base annua. L'ufficio ammissioni spera di scoprire che le stesse variabili indipendenti prevedono le prestazioni in tutti e quattro gli anni, in modo che la scelta dei criteri di ammissione garantisca che le prestazioni degli studenti siano costantemente elevate in tutti e quattro gli anni.

Soluzione: regressione multivariata

Nell'esempio 2, abbiamo più variabili dipendenti (ad es. GPA1, GPA2, GPA3, GPA4) e più variabili indipendenti. In una situazione del genere, useresti la regressione multivariata.


2
Ce
n'è

100% la risposta migliore che puoi davvero capire
Alvis

21

yXy=f(X)

y=f(X1,X2,...,Xn)

y1,y2,...,ym=f(X1,X2,...,Xn)y11,y12,...X11,X12,...Y=f(X)

Ulteriori letture:


Capisco la definizione. Ma qual è l'effetto del trattamento di una regressione multi-variabile come un sistema di regressioni uni-variate?
LKS,

@LKS: potresti volerlo fare in una domanda completamente separata.
stackoverflowuser2010,


La risposta nella Quora si riferiva a questa pagina? : P
Habeeb Perwad,

4

Penso che l'intuizione chiave (e il differenziatore) qui a parte il numero di variabili su entrambi i lati dell'equazione sia che, nel caso della regressione multivariata, l'obiettivo è utilizzare il fatto che esiste (generalmente) una correlazione tra le variabili di risposta (o esiti). Ad esempio, in una sperimentazione medica, i predittori potrebbero essere peso, età e razza e le variabili di esito sono la pressione sanguigna e il colesterolo. Potremmo, in teoria, creare due modelli di "regressione multipla", uno regredendo la pressione sanguigna su peso, età e razza e un secondo modello regredendo colesterolo su quegli stessi fattori. Tuttavia, in alternativa, potremmo creare un singolo modello di regressione multivariata che prevede entrambipressione sanguigna e colesterolo simultaneamente basati sulle tre variabili predittive. L'idea è che il modello di regressione multivariata potrebbe essere migliore (più predittivo) nella misura in cui può imparare di più dalla correlazione tra pressione sanguigna e colesterolo nei pazienti.


Ottimo punto Mi chiedevo se la regressione multivariata potesse essere fatta con R. Usando Manova, sono in grado di fare ANOVA multivariata, ma non sono in grado di ottenere coefficienti come la regressione univariata.
KarthikS,

1

Nella regressione multivariata ci sono più di una variabile dipendente con varianze (o distribuzioni) diverse. Le variabili predittive possono essere più di una o più. Quindi può essere una regressione multipla con una matrice di variabili dipendenti, ovvero varianze multiple. Ma quando diciamo regressione multipla, intendiamo solo una variabile dipendente con una singola distribuzione o varianza. Le variabili predittive sono più di una. Riassumendo più si intende più di una variabile predittore ma multivariato si riferisce a più di una variabile dipendente.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.