Perché abbiamo bisogno della regressione multivariata (al contrario di un mucchio di regressioni univariate)?


28

Ho appena sfogliato questo meraviglioso libro: analisi statistica multivariata applicata di Johnson e Wichern . L'ironia è che non sono ancora in grado di comprendere la motivazione per l'utilizzo di modelli multivariati (regressione) invece di modelli univariati separati (regressione). Ho esaminato i post 1 e 2 di stats.statexchange che spiegano (a) la differenza tra regressione multipla e multivariata e (b) l'interpretazione dei risultati della regressione multivariata, ma non sono in grado di ottimizzare l'uso di modelli statistici multivariati da tutte le informazioni che mettiti online su di loro.

Le mie domande sono:

  1. Perché abbiamo bisogno della regressione multivariata? Qual è il vantaggio di considerare i risultati simultaneamente piuttosto che individualmente, al fine di trarre inferenze.
  2. Quando utilizzare modelli multivariati e quando utilizzare più modelli univariati (per risultati multipli).
  3. Prendi un esempio nel sito dell'UCLA con tre risultati: locus of control, concetto di sé e motivazione. Rispetto a 1. e 2., possiamo confrontare l'analisi quando eseguiamo tre regressioni multiple univariate rispetto a una regressione multipla multivariata? Come giustificare l'uno sull'altro?
  4. Non ho trovato molti documenti accademici che utilizzano modelli statistici multivariati. Ciò è dovuto al presupposto della normalità multivariata, alla complessità dell'adattamento / interpretazione del modello o ad altri motivi specifici?

18
Modelli univariati separati ignorano le correlazioni.
jwimberley,

3
Sì, ci sono molti fenomeni al mondo che non possono essere modellati da variabili casuali indipendenti.
Michael R. Chernick,

2
@jwimberley Potresti espandere le conseguenze dell'ignorare queste correlazioni in una risposta?
Jake Westfall,

2
Solo una nota sul titolo: la riduzione della dimensionalità (PCA, analisi dei fattori, qualsiasi metodo non lineare, ecc.) E il clustering sono generalmente considerati anche metodi "multivariati". Sembra che la tua domanda si concentri specificamente sulla regressione multivariata (rispetto a un sacco di regressioni univariate), quindi ti suggerisco di inserirla direttamente nel tuo titolo. +1 btw.
ameba dice di reintegrare Monica il

2
Un semplice esempio di come MANOVA può essere utile rispetto agli ANOVA: stats.stackexchange.com/questions/129123 . Una situazione opposta in cui MANOVA è ancora vantaggioso ma per una ragione diversa: stats.stackexchange.com/questions/61921 . Quindi MANOVA può: (i) dare più potenza, (ii) controllare il tasso di errore complessivo.
ameba dice di reintegrare Monica il

Risposte:


22

Hai letto l'esempio completo sul sito UCLA che hai collegato?

Riguardo a 1: L'
uso di un modello multivariato ti aiuta (formalmente, inferenzialmente) a confrontare i coefficienti tra i risultati.
In questo esempio collegato, usano il modello multivariato per verificare se il writecoefficiente è significativamente diverso per il locus_of_controlrisultato rispetto al self_conceptrisultato. Non sono uno psicologo, ma presumibilmente è interessante chiederti se la tua abilità di scrittura influenza / prevede due diverse variabili psicologiche allo stesso modo. (Oppure, se non crediamo al nulla, è comunque interessante chiederti se hai raccolto abbastanza dati per dimostrare in modo convincente che gli effetti differiscono davvero.)
Se avessi eseguito analisi univariate separate, sarebbe più difficile confrontare ilwritecoefficiente tra i due modelli. Entrambe le stime verrebbero dallo stesso set di dati, quindi sarebbero correlate. Il modello multivariato tiene conto di questa correlazione.

Inoltre, per quanto riguarda 4:
Ci sono alcuni modelli multivariati molto di uso comune, come ad esempio Misure ripetute ANOVA . Con un disegno di studio appropriato, immagina di dare ciascuno dei diversi farmaci a ogni paziente e di misurare la salute di ogni paziente dopo ogni farmaco. Oppure immagina di misurare lo stesso risultato nel tempo, come per i dati longitudinali, ad esempio le altezze dei bambini nel tempo. Quindi hai più risultati per ogni unità (anche quando sono solo ripetizioni dello "stesso" tipo di misurazione). Probabilmente vorrai fare almeno alcuni semplici contrasti: confrontare gli effetti del farmaco A con il farmaco B o gli effetti medi dei farmaci A e B rispetto al placebo. Per questo, le misure ripetute ANOVA è un modello / analisi statistica multivariata appropriata.


1
Hai dato un'ottima risposta. Ero decisamente consapevole che esiste un mondo di altri esempi e argomenti che potrebbero essere fatti. Mi piace che tu abbia preso informazioni dal link UCLA per mostrare l'OP. Francamente inizialmente ero offeso dalla domanda, ma ho deciso di fornire una risposta quando mi sono reso conto che l'OP voleva sinceramente qui buoni argomenti e non stava spingendo l'idea di ignorare i metodi multivariati. La mia scelta è stata quella di mostrare esempi in cui ignorare la correlazione ha avuto risultati davvero devastanti e fatali.
Michael R. Chernick,

1
Accolgo con favore la tua risposta e, auspicabilmente, risposte più ben ponderate che lo renderanno un filo prezioso.
Michael R. Chernick,

Grazie per l'ottima risposta, @civilstat. Nel punto 1, se eseguiamo due modelli univariati indipendenti, hai menzionato che il coefficiente della variabile di input ( writeper esempio il coefficiente) sarebbe correlato e il modello multivariato tiene conto dello stesso. Qui è dove vorrei ottenere maggiore comprensione. locus_of_control e self_concept possono essere uniti in una singola misura usando l'analisi dei fattori o altre tecniche e la misura risultante può essere modellata, se esiste una motivazione adeguata. Se entrambi misurano due diversi psyc. fenomeni, cosa otteniamo modellandoli contemporaneamente?
KarthikS,

2
@ManuelFazio Vedi la frase successiva sul sito dell'UCLA: "Allora perché condurre una regressione multivariata? Come abbiamo detto prima, uno dei vantaggi dell'utilizzo di mvreg è che puoi condurre test dei coefficienti attraverso le diverse variabili di risultato." Se si eseguissero regressioni separate, si otterrebbero lo stesso coefficiente e SE per ogni risultato , ma non si otterrebbe una stima della correlazione tra coefficienti tra i risultati . Avresti bisogno di questa correlazione se, ad esempio, volessi ottenere un elemento della configurazione per la differenza nei coefficienti di lettura per il risultato della motivazione rispetto al risultato self_concept.
Civilstat,

1
@civilstat Ah, peccato per me, il presupposto di indipendenza era così radicato nella mia mente che non ha fatto clic anche dopo aver letto quella frase. Grazie per la spiegazione estesa!
zipzapboing

11

Pensa a tutte le conclusioni false e talvolta pericolose che derivano semplicemente dalla moltiplicazione delle probabilità, pensando che gli eventi siano indipendenti. A causa di tutte le protezioni ridondanti incorporate, abbiamo inserito nelle nostre centrali nucleari esperti in base al presupposto di indipendenza che ci hanno detto che la possibilità di un grave incidente nucleare era infinitesimale. Ma come abbiamo visto a Three Mile Island, gli umani commettono errori correlati soprattutto quando sono in preda al panico a causa di un errore iniziale che può rapidamente aggravarsi. Potrebbe essere difficile costruire un modello multivariato realistico che caratterizza il comportamento umano ma realizzare l'effetto di un modello orribile (errori indipendenti) è chiaro.

Ci sono molti altri esempi possibili. Prenderò il disastro di Challenger Shuttle come un altro possibile esempio. La domanda era se lanciarsi o meno a basse temperature. Vi erano alcuni dati che suggerivano che gli o-ring potessero guastarsi a basse temperature. Ma non c'erano molti dati dalle missioni passate per chiarire quanto fosse alto il rischio. La NASA si è sempre preoccupata della sicurezza degli astronauti e molti licenziamenti sono stati progettati nell'astronave e hanno lanciato veicoli per rendere sicure le missioni.

Tuttavia, prima del 1986, c'erano alcuni guasti di sistema e quasi guasti probabilmente dovuti al fatto di non identificare tutte le possibili modalità di guasto (un compito difficile). La modellazione dell'affidabilità è un affare difficile. Ma questa è un'altra storia. Nel caso dello shuttle il produttore degli o-ring (Morton Thiokol) aveva effettuato alcuni test sugli o-ring che indicavano la possibilità di guasto a bassa temperatura.

Ma i dati su un numero limitato di missioni hanno mostrato una certa relazione tra temperatura e guasto, ma poiché la ridondanza ha portato alcuni amministratori a pensare che non si sarebbero verificati più guasti agli O-ring, hanno esercitato pressioni sul lancio della NASA.

Naturalmente c'erano molti altri fattori che hanno portato alla decisione. Ricorda come il presidente Reagan era così ansioso di mettere un insegnante nello spazio in modo da dimostrare che ora era abbastanza sicuro che le persone comuni che non erano astronauti potevano viaggiare in sicurezza sulla navetta. Quindi la pressione politica è stata un altro grande fattore che ha influenzato la decisione. In questo caso con dati sufficienti e un modello multivariato il rischio avrebbe potuto essere meglio dimostrato. La NASA usa per tentare di sbagliare dal lato della cautela. In questo caso rimandare il lancio per alcuni giorni fino a quando il clima non si sarebbe riscaldato in Florida sarebbe stato prudente.

Commissioni post-disastro, ingegneri, scienziati e statistici hanno fatto molte analisi e sono stati pubblicati articoli. Le loro opinioni possono differire dalle mie. Edward Tufte ha dimostrato in una delle sue serie di libri sulla grafica che una buona grafica avrebbe potuto essere più convincente. Ma alla fine, sebbene tutte queste analisi abbiano tutti i meriti, penso che la politica avrebbe comunque vinto.

La morale di queste storie non è che questi disastri hanno motivato l'uso di metodi multivariati, ma piuttosto che scarse analisi che hanno ignorato la dipendenza a volte portano a gravi sottovalutazioni del rischio. Ciò può comportare un eccesso di fiducia che può essere pericoloso. Come ha sottolineato jwimberley nel primo commento a questa discussione "I modelli univariati separati ignorano le correlazioni".


Grazie per il tuo meraviglioso esempio, @MichaelChernick. L'ipotesi di indipendenza è preoccupante, capisco. Sono più curioso dell'interrelazione tra i risultati e della necessità di modellarli contemporaneamente.
KarthikS,

Facciamo l'esempio del disastro dello shuttle Challenger stesso. Qui il risultato univariato è binario, indipendentemente dal fatto che sia sicuro o meno il lancio dello space shuttle. Considera il modello che cerca di fare molte cose, come prevedere la sicurezza, misurare le deviazioni della traiettoria e prevedere la pressione interna per lo shuttle. Un approccio potrebbe essere quello di costruire modelli separati per ciascuno di essi, e l'altro potrebbe essere quello di considerare il modello one-for-all che non solo cerca di catturare gli effetti degli input (temperatura, umidità, ecc.), Ma controlla anche la simultanea effetti sui risultati.
KarthikS,

1
Grazie @MichaelChernick. Non sono sicuro di aver compreso completamente i tuoi argomenti. Comprendo che molti di noi usano la regressione univariata e multivariata per una semplice regressione lineare con input singolo e più di una variabile di input (in cui vengono esaminati gli effetti simultanei di più di un input). Ma ho incorniciato questa domanda per i modelli con un risultato (univariato) o più di un risultato (multivariato). Se il caso Challenger non allude a un caso d'uso con esito multivariato, puoi alludere a un caso valido. Grazie per continuare la discussione.
KarthikS,

Sono sorpreso che tu abbia dato una taglia a questa domanda. I doni vengono fatti più spesso quando ha ricevuto pochi commenti e se contiene risposte non coprono alcuni aspetti importanti delle domande. Questa discussione ha avuto tre buone risposte e tonnellate di commenti (anche quelli davvero buoni come il primo di Jwimberley.
Michael R. Chernick,

Non sono sicuro di cos'altro vuoi. La domanda è molto ampia e sembra essere più una discussione che una tecnica. Mi sembra quasi che tu stia cercando di convincere qualcuno a dire che l'analisi univariata da sola va bene in situazioni complesse. Non proverò per la generosità e sarà interessante vedere nei prossimi sette giorni che qualcuno ci proverà e se lo faranno lo accetterete. Il disastro di Challenger può essere visto come un risultato univariato, ma non credo che nessun tratto dell'immaginazione possa ricevere una risposta completa solo con metodi univariati.
Michael R. Chernick, il

7

Considera questa citazione da p. 36 del libro di Darcy Olsen The Right to Try [1]:

Ma circa sedici settimane dopo l'inizio delle infusioni di [eteplirsen], Jenn iniziò a notare i cambiamenti in [suo figlio] Max. "Il bambino ha smesso di voler usare la sua sedia a rotelle", dice. Alcune settimane dopo, stava chiedendo di suonare fuori - qualcosa che non faceva da anni. Quindi Max ha iniziato a riguadagnare le sue capacità motorie. Era in grado di aprire nuovamente i contenitori - un'abilità che aveva perso con il progredire della sua [distrofia muscolare di Duchenne].

La madre di Max, Jenn, sta costruendo un quadro coerente del suo miglioramento, raccogliendo prove da molteplici risultati che individualmente potrebbero essere liquidati come "rumore", ma che insieme sono abbastanza convincenti. (Questo principio di sintesi delle prove fa parte del motivo per cui i pediatri di norma non respingono mai le inferenze istintive di un genitore secondo cui "qualcosa non va nel mio bambino". I genitori hanno accesso a una "analisi longitudinale multivariata" dei loro figli molto più ricca dell '"oligovariata" analisi della sezione trasversale accessibile a un medico durante un singolo, breve incontro clinico.)

p>0.05

Il raggiungimento di tale sintesi di prove è la logica fondamentale per l'analisi degli esiti multivariati negli studi clinici. Alcuni anni fa [2] i metodi statistici nella ricerca medica avevano dedicato un tema alla "modellizzazione congiunta" dei risultati multivariati.

  1. Olsen, Darcy. Il diritto di provare: in che modo il governo federale impedisce agli americani di ricevere i trattamenti salvavita di cui hanno bisogno. Prima edizione. New York, NY: Harper, un'impronta di HarperCollins Publishers, 2015.
  2. Rizopoulos, Dimitris ed Emmanuel Lesaffre. "Introduzione al numero speciale sulle tecniche di modellazione congiunta". Metodi statistici nella ricerca medica 23, n. 1 (1 febbraio 2014): 3–10. DOI: 10,1177 / 0962280212445800.

6

Facciamo una semplice analogia, dato che è tutto ciò che posso davvero provare a contribuire. Invece della regressione univariata rispetto a quella multivariata, consideriamo le distribuzioni univariate (marginali) contro multivariate (congiunte). Di 'che ho i seguenti dati e voglio trovare "valori anomali". Come primo approccio, potrei usare le due distribuzioni marginali ("univariate") e tracciare linee al 2,5% inferiore e al 2,5% superiore di ciascuna in modo indipendente. I punti che cadono al di fuori delle linee risultanti sono considerati anomali.

Ma due cose: 1) cosa pensiamo dei punti che si trovano al di fuori delle linee per un asse ma all'interno delle linee per l'altro asse? Sono "valori anomali parziali" o qualcosa del genere? E 2) la casella risultante non sembra che stia davvero facendo quello che vogliamo. Il motivo è, ovviamente, che le due variabili sono correlate e ciò che intuitivamente desideriamo è trovare valori anomali insoliti considerando le variabili in combinazione.

In questo caso, esaminiamo la distribuzione congiunta e ho codificato i punti in base al colore, indipendentemente dal fatto che la loro distanza di Mahalanobis dal centro sia compresa o meno nel 5% superiore. I punti neri sembrano molto più simili a valori anomali, anche se alcuni valori anomali si trovano all'interno di entrambi i gruppi di linee verdi e alcuni non valori anomali (rosso) si trovano al di fuori di entrambi i gruppi di linee verdi.

In entrambi i casi, stiamo delimitando il 95% rispetto al 5%, ma la seconda tecnica rappresenta la distribuzione congiunta. Credo che la regressione multivariata sia così, in cui si sostituisce la "regressione" alla "distribuzione". Non lo capisco del tutto e non ho avuto la necessità (che ho capito) di fare da solo la regressione multivariata, ma questo è il modo in cui ci penso.

[L'analogia ha dei problemi: la distanza di Mahalanobis riduce due variabili a un singolo numero - qualcosa come il modo in cui una regressione univariata prende un insieme di variabili indipendenti e può, con le giuste tecniche, prendere in considerazione le covarianze tra le variabili indipendenti e risultati in una singola variabile dipendente - mentre una regressione multivariata si traduce in più variabili dipendenti. Quindi è un po 'indietro, ma si spera abbastanza avanti per dare un po' di intuizione.]

inserisci qui la descrizione dell'immagine


1
Mi piace questo. Vorrei usare le ellissi esterne per definire i valori anomali. Come vedo la tua illustrazione, un punto può essere lontano dalla media nella direzione x o y ma essere comunque all'interno di un'ellisse non lontana dalla linea di regressione.
Michael R. Chernick, l'

3

1) La natura non è sempre semplice. In effetti, la maggior parte dei fenomeni (risultati) che studiamo dipendono da più variabili e in modo complesso. Un modello inferenziale basato su una variabile alla volta avrà molto probabilmente una propensione elevata.

2) I modelli univariati sono il modello più semplice che puoi costruire, per definizione. Va bene se stai indagando su un problema per la prima volta e vuoi afferrare la sua singola funzionalità più essenziale. Ma se vuoi una comprensione più profonda, una comprensione che puoi effettivamente sfruttare perché ti fidi di ciò che stai facendo, utilizzeresti analisi multivariate. E tra quelli multivariati, dovresti preferire quelli che comprendono i modelli di correlazione, se ti interessa l'accuratezza del modello.

3) Spiacente, non ho tempo di leggere questo.

4) Le carte che usano tecniche multivariate sono molto comuni in questi giorni - anche estremamente comuni in alcuni campi. Durante gli esperimenti del CERN usando i dati del Large Hadron Collider (per prendere un esempio dalla fisica delle particelle), più della metà delle centinaia di articoli pubblicati ogni anno usano tecniche multivariate in un modo o nell'altro

https://inspirehep.net/search?ln=en&ln=en&p=find+cn+cms+&of=hb&action_search=Search&sf=earliestdate&so=d&rm=&rg=25&sc=0


Penso che intendi dire che il modello univariato è uno con solo input e multivariato è un modello con input multipli. La mia domanda riguardava più risultati analizzati contemporaneamente in un modello.
KarthikS,

1
Hai unito la regressione multivariata / univariata con la regressione multipla / singola.
Firebug

1

La mia risposta dipende da cosa vuoi fare con la regressione. Se stai cercando di confrontare l'effetto di diversi coefficienti, la regressione potrebbe non essere lo strumento giusto per te. Se stai provando a fare previsioni usando coefficienti diversi che hai dimostrato essere indipendenti, allora forse dovresti usare la regressione multipla.

I fattori sono correlati? In tal caso, una regressione multivariata può fornire un modello errato e è necessario utilizzare un metodo come VIF o regressione della cresta per tagliare le correlazioni incrociate. Non si devono confrontare i coefficienti fino a quando non vengono eliminati i fattori correlati. Ciò causerà un disastro. Se non sono correlati tra loro, i coefficienti multivariati dovrebbero essere paragonabili ai coefficienti univariati e ciò non dovrebbe sorprendere.

Il risultato potrebbe anche dipendere dal pacchetto software in uso. Non sto scherzando. Pacchetti software diversi hanno metodi diversi per il calcolo della regressione multivariata. (Non mi credi? Controlla come il pacchetto di regressione R standard calcola R 2 con e senza forzare l'origine come intercettazione. La mascella dovrebbe colpire il pavimento.) Devi capire come il pacchetto software sta eseguendo la regressione. In che modo compensa le correlazioni incrociate? Sta eseguendo una soluzione sequenziale o matrice? Ho avuto frustrazioni per questo in passato. Ti suggerisco di eseguire la tua regressione multipla su diversi pacchetti software e vedere cosa ottieni.

Un altro buon esempio qui:

Si noti che in questa equazione, i coefficienti di regressione (o coefficienti B) rappresentano i contributi indipendenti di ciascuna variabile indipendente per la previsione della variabile dipendente. Un altro modo per esprimere questo fatto è dire che, ad esempio, la variabile X1 è correlata alla variabile Y, dopo aver controllato tutte le altre variabili indipendenti. Questo tipo di correlazione viene anche definita correlazione parziale (questo termine è stato usato per la prima volta da Yule, 1907). Forse il seguente esempio chiarirà questo problema. Probabilmente potresti trovare una significativa correlazione negativa tra lunghezza e altezza dei capelli nella popolazione (cioè, le persone corte hanno i capelli più lunghi). All'inizio questo può sembrare strano; tuttavia, se dovessimo aggiungere la variabile Gender nell'equazione di regressione multipla, questa correlazione probabilmente scomparirebbe. Questo perché le donne, in media, hanno i capelli più lunghi degli uomini; sono anche più brevi in ​​media rispetto agli uomini. Pertanto, dopo aver rimosso questa differenza di genere immettendo Sesso nell'equazione, la relazione tra lunghezza e altezza dei capelli scompare perché la lunghezza dei capelli non fornisce alcun contributo unico alla previsione di altezza, al di sopra e al di là di ciò che condivide nella previsione con Sesso variabile . Detto in altro modo, dopo aver controllato per la variabile Sesso, la correlazione parziale tra lunghezza e altezza dei capelli è zero. la relazione tra lunghezza e altezza dei capelli scompare perché la lunghezza dei capelli non fornisce alcun contributo unico alla previsione dell'altezza, al di là di ciò che condivide nella previsione con il genere variabile. Detto in altro modo, dopo aver controllato per la variabile Sesso, la correlazione parziale tra lunghezza e altezza dei capelli è zero. la relazione tra lunghezza e altezza dei capelli scompare perché la lunghezza dei capelli non fornisce alcun contributo unico alla previsione dell'altezza, al di là di ciò che condivide nella previsione con il genere variabile. Detto in altro modo, dopo aver controllato per la variabile Sesso, la correlazione parziale tra lunghezza e altezza dei capelli è zero. http://www.statsoft.com/Textbook/Multiple-Regression

Ci sono così tante insidie ​​che usano la regressione multipla che cerco di evitare di usarlo. Se lo dovessi usare, fai molta attenzione ai risultati e ricontrolla. Dovresti sempre tracciare i dati visivamente per verificare la correlazione. (Solo perché il tuo programma software ha detto che non c'era alcuna correlazione, non significa che non ce ne fosse una. Interessanti correlazioni ) Controlla sempre i tuoi risultati con il buon senso. Se un fattore mostra una forte correlazione in una regressione univariata, ma nessuno in una multivariata, è necessario capire perché prima di condividere i risultati (il fattore di genere sopra è un buon esempio).


" Scopri come il pacchetto di regressione R standard calcola R2 con e senza forzare l'origine come intercettazione. " Mentre è potenzialmente fonte di confusione per coloro che non se lo aspettano, ciò che R fa in quella situazione è l'approccio standard che viene letteralmente implementato in ogni software di statistica pacchetto in cui ho controllato questo.
Jake Westfall,

Interessante. Ho visto articoli pubblicati da analisti che non capivano questa differenza. Hai visto una buona discussione online sull'argomento? Devo inviare una nuova domanda al CV su di essa?
Maddenker,

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.