Qual è il punto della regressione univariata prima della regressione multivariata?


13

Attualmente sto lavorando a un problema in cui abbiamo un piccolo set di dati e siamo interessati all'effetto causalità di un trattamento sul risultato.

Il mio consulente mi ha incaricato di eseguire una regressione univariata su ciascun predittore con il risultato come risposta, quindi l'assegnazione del trattamento come risposta. Cioè, mi viene chiesto di adattare una regressione con una variabile alla volta e di fare una tabella dei risultati. Ho chiesto "perché dovremmo farlo?", E la risposta è stata qualcosa per l'effetto di "siamo interessati a quali predittori sono associati con l'assegnazione del trattamento e il risultato, poiché ciò indicherebbe probabilmente un confondente". Il mio consulente è un esperto di statistica, non uno scienziato in un altro campo, quindi sono propenso a fidarmi di loro.

Ciò ha senso, ma non è chiaro come utilizzare il risultato dell'analisi univariata. Fare delle scelte di selezione del modello da questo risultato non determinerebbe una distorsione significativa delle stime e intervalli di confidenza ristretti? Perché qualcuno dovrebbe farlo? Sono confuso e il mio consulente è abbastanza opaco sulla questione quando l'ho sollevato. Qualcuno ha risorse su questa tecnica?

(NB: il mio advisor ha detto che NON stiamo usando i valori p come valore limite, ma che vogliamo considerare "tutto".)


6
Se per "regressione univariata" il tuo istruttore includesse disegnare un diagramma a dispersione, allora è saggiamente un consiglio. E poiché nessuna regressione a cui tieni mai dovrebbe essere condotta senza tracciare, otterrai alcune informazioni utili. Fai tutto in una volta, se puoi, con una matrice scatterplot e mostra con loro alcuni levigamenti robusti. I vantaggi saranno evidenti quando vedrai i vari modi in cui le tue variabili possono discostarsi dall'esporre relazioni lineari.
whuber

1
Cosa succede se i dati di risposta sono binari e stiamo usando un glm con un collegamento logit? La tua spiegazione certamente chiarisce il caso lineare, e ora che ci penso, l'uso di grafici a dispersione sarebbe naturale
Marcel

5
Ero preoccupato che potessi chiederlo :-). In realtà, una buona levigatura può comunque fornire grandi intuizioni. Aiuta a disturbare la risposta in modo da poterne distinguere la distribuzione. Ecco un esempio di tale trama: stats.stackexchange.com/a/14501/919 . Illustrerò un'altra soluzione su stats.stackexchange.com/a/138660/919 .
whuber

3
Questa regressione univariata prima della tecnica di regressione multivariabile è chiamata "selezione variabile intenzionale" nel libro di Hosmer e Lemeshow "Regressione logistica applicata"
Grande38

7
Attenzione: una variabile potrebbe non mostrare alcuna relazione in una regressione invariata, ma essere importante nella relazione multivariata.
Glen_b

Risposte:


3

Il contesto causale della tua analisi è un qualificatore chiave nella tua domanda. Nella previsione, eseguire regressioni univariate prima di regressioni multiple nello spirito del "metodo di selezione intenzionale" suggerito da Hosmer e Lemenshow ha un obiettivo. Nel tuo caso, in cui stai costruendo un modello causale, eseguire regressioni univariate prima di eseguire regressioni multiple ha un obiettivo completamente diverso. Lasciami espandere su quest'ultimo.

Tu e il tuo istruttore dovete avere in mente un determinato grafico causale. I grafici causali hanno implicazioni verificabili. La tua missione è iniziare con il set di dati che hai e ragionare sul modello causale che potrebbe averlo generato. Le regressioni univariate che ha suggerito di eseguire molto probabilmente costituiscono il primo passo nel processo di verifica delle implicazioni del grafico causale che hai in mente. Supponi di credere che i tuoi dati siano stati generati dal modello causale rappresentato nel grafico seguente. Supponiamo che tu sia interessato all'effetto causale di D su E. Il grafico seguente suggerisce una serie di implicazioni verificabili, come:

  • E sono D sono probabilmente dipendenti
  • E e A sono probabilmente dipendenti
  • E e C sono probabilmente dipendenti
  • E e B sono probabilmente dipendenti
  • E e N sono probabilmente indipendenti

inserisci qui la descrizione dell'immagine

Ho detto che questo è solo il primo passo nel processo di ricerca causale perché il vero divertimento inizia quando inizi a eseguire più regressioni, condizionando diverse variabili e testando se il risultato della regressione è coerente con le implicazioni del grafico. Ad esempio, il grafico sopra suggerisce che E e A devono essere indipendenti una volta che ti condizioni su D. In altre parole, se regredisci E su D e A e scopri che il coefficiente su A non è uguale a zero, concluderai che E dipende da A, dopo aver condizionato D, e quindi che il grafico causale deve essere sbagliato. Ti darà anche suggerimenti su come modificare il tuo grafico causale, perché il risultato di questa regressione suggerisce che ci deve essere un percorso tra A ed E che non è separato da d da D.


1

Prima di provare a rispondere vorrei sottolineare che il tipo di dati e la sua distribuzione possono influire sul modo in cui li valutate / regredite / classificate.

Inoltre, potresti voler cercare qui il metodo che il tuo consulente potrebbe voler utilizzare.

Un po 'di sfondo. Mentre l'utilizzo di uno strumento di selezione dei modelli è una possibilità, devi comunque essere in grado di dire perché un predittore è stato utilizzato o lasciato fuori. Questi strumenti possono essere una scatola nera. Dovresti comprendere appieno i tuoi dati ed essere in grado di indicare perché è stato selezionato un predittore specifico. (Soprattutto, sto assumendo per una tesi / progetto di master.)

Ad esempio, guarda il prezzo delle case e l'età. Il prezzo delle case generalmente diminuisce con l'età. Pertanto, quando vedi una vecchia casa con un prezzo elevato nei tuoi dati, sembrerebbe un valore anomalo da rimuovere, ma non è così.

Quanto a (NB: il mio advisor ha detto che NON stiamo usando i valori p come valore limite, ma che vogliamo considerare "tutto".) I valori p non sono l'essere tutti e terminano tutto ma possono essere utili . Gli algoritmi / programmi di richiamo sono limitati e non possono visualizzare l'intera immagine.

Per quanto riguarda il motivo per cui potresti regredire univariato su ciascun incarico di predittore / trattamento.

Questo potrebbe essere d'aiuto nella selezione dei predittori da includere nel modello multivariato di base. Da quel modello di base, vedresti quindi se quei predittori sono significativi e devono rimanere o se dovrebbero essere rimossi con l'obiettivo di ottenere un modello parsimonioso.

O potrebbe essere per te comprendere meglio i dati.


1
Mia moglie ed io abbiamo comprato una vecchia casa ma non potevamo permetterci una casa storica, quindi il tuo esempio ha un semplice contro-esempio.
Nick Cox,

Vero. Intendevo parlare del prezzo delle case in realtà. Come i prezzi delle case generalmente diminuiscono con l'età. Pertanto, quando vedi una vecchia casa con un prezzo elevato, sembrerebbe che venga rimosso un valore anomalo. Modificherò quel punto. Grazie.
Apocryphon,

0

Penso che il tuo supervisore ti stia chiedendo di eseguire una prima analisi dei dati con l'obiettivo di identificare se una qualsiasi delle variabili può spiegare una frazione significativa della varianza nei dati.

Una volta che hai concluso se una qualsiasi delle variabili può spiegare una parte della variabilità, allora sarai in grado di valutare come funzionano insieme, se sono colinear, o correlati tra loro, ecc. In una fase puramente esplorativa per avere un'analisi multivariata potrebbe rendere più difficile una prima valutazione, perché costruendo ogni variabile rimuoveresti l'effetto delle altre. Potrebbe essere più difficile valutare se una qualsiasi delle variabili possa spiegare una qualsiasi delle variazioni.


0

Questo può essere un approccio per comprendere i dati, ma l'esperienza mostra che le previsioni varieranno quando si utilizzano tutti i predittori combinati e ciascuno predittore uno per uno. Questo è solo qualcosa che comprendiamo la prevedibilità dei dati e capiamo cosa deve essere fatto per i passi futuri.
Ho visto molte volte quando con tutte le variabili il valore p dice che alcune variabili non sono significative ma con quelle variabili non significative da sole, erano abbastanza significative. Ciò è dovuto a effetti contrastanti: non è che il tuo supervisore abbia torto, ma per capire i dati dobbiamo farlo.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.