La regressione multipla e multivariata è davvero diversa? Che cosa è un variata in ogni modo?
La regressione multipla e multivariata è davvero diversa? Che cosa è un variata in ogni modo?
Risposte:
Molto rapidamente, direi: "multiplo" si applica al numero di predittori che entrano nel modello (o equivalentemente nella matrice di progettazione) con un unico risultato (risposta Y), mentre "multivariato" si riferisce a una matrice di vettori di risposta. Non ricordo l'autore che ha iniziato la sua sezione introduttiva sulla modellazione multivariata con quella considerazione, ma penso che sia Brian Everitt nel suo libro di testo An R and S-Plus Companion to Multivariate Analysis . Per una discussione approfondita al riguardo, suggerirei di esaminare il suo ultimo libro, Modellazione multivariabile e Analisi multivariata per le scienze comportamentali .
Per "variata", direi che questo è un modo comune per fare riferimento a qualsiasi variabile casuale che segue una distribuzione nota o ipotizzata, ad esempio parliamo di variati gaussiani come una serie di osservazioni tratte da una distribuzione normale (con parametri μ e σ 2 ). In termini probabilistici, abbiamo detto che si tratta di alcune realizzazioni casuali di X, con aspettative matematiche μ , e circa il 95% di esse dovrebbero trovarsi nell'intervallo [ μ - 2 σ ; μ + 2 σ ] .
Ecco due esempi strettamente correlati che illustrano le idee. Gli esempi sono in qualche modo incentrati sugli Stati Uniti, ma le idee possono essere estrapolate ad altri paesi.
Esempio 1
Supponiamo che un'università desideri perfezionare i suoi criteri di ammissione in modo da ammettere gli studenti "migliori". Supponiamo inoltre che la media dei voti (GPA) di uno studente sia ciò che l'università desidera utilizzare come metrica di rendimento per gli studenti. Hanno in mente diversi criteri come GPA delle scuole superiori (HSGPA), punteggi SAT (SAT), genere ecc. E vorrebbero sapere quale di questi criteri è importante per quanto riguarda GPA.
Soluzione: regressione multipla
Nel contesto sopra, c'è una variabile dipendente (GPA) e hai più variabili indipendenti (HSGPA, SAT, Gender ecc.). Vuoi scoprire quali delle variabili indipendenti sono buoni predittori per la tua variabile dipendente. Utilizzerai la regressione multipla per effettuare questa valutazione.
Esempio 2
Invece della situazione di cui sopra, supponiamo che l'ufficio ammissioni desideri monitorare le prestazioni degli studenti nel tempo e desideri determinare quale dei loro criteri guida le prestazioni degli studenti nel tempo. In altre parole, hanno punteggi GPA per i quattro anni in cui uno studente resta a scuola (diciamo, GPA1, GPA2, GPA3, GPA4) e vogliono sapere quale delle variabili indipendenti predirebbe meglio i punteggi GPA su base annuale per anno base annua. L'ufficio ammissioni spera di scoprire che le stesse variabili indipendenti prevedono le prestazioni in tutti e quattro gli anni, in modo che la scelta dei criteri di ammissione garantisca che le prestazioni degli studenti siano costantemente elevate in tutti e quattro gli anni.
Soluzione: regressione multivariata
Nell'esempio 2, abbiamo più variabili dipendenti (ad es. GPA1, GPA2, GPA3, GPA4) e più variabili indipendenti. In una situazione del genere, useresti la regressione multivariata.
Ulteriori letture:
Penso che l'intuizione chiave (e il differenziatore) qui a parte il numero di variabili su entrambi i lati dell'equazione sia che, nel caso della regressione multivariata, l'obiettivo è utilizzare il fatto che esiste (generalmente) una correlazione tra le variabili di risposta (o esiti). Ad esempio, in una sperimentazione medica, i predittori potrebbero essere peso, età e razza e le variabili di esito sono la pressione sanguigna e il colesterolo. Potremmo, in teoria, creare due modelli di "regressione multipla", uno regredendo la pressione sanguigna su peso, età e razza e un secondo modello regredendo colesterolo su quegli stessi fattori. Tuttavia, in alternativa, potremmo creare un singolo modello di regressione multivariata che prevede entrambipressione sanguigna e colesterolo simultaneamente basati sulle tre variabili predittive. L'idea è che il modello di regressione multivariata potrebbe essere migliore (più predittivo) nella misura in cui può imparare di più dalla correlazione tra pressione sanguigna e colesterolo nei pazienti.
Nella regressione multivariata ci sono più di una variabile dipendente con varianze (o distribuzioni) diverse. Le variabili predittive possono essere più di una o più. Quindi può essere una regressione multipla con una matrice di variabili dipendenti, ovvero varianze multiple. Ma quando diciamo regressione multipla, intendiamo solo una variabile dipendente con una singola distribuzione o varianza. Le variabili predittive sono più di una. Riassumendo più si intende più di una variabile predittore ma multivariato si riferisce a più di una variabile dipendente.