Perché la centratura di variabili indipendenti può modificare gli effetti principali con moderazione?


28

Ho una domanda relativa alla regressione multipla e all'interazione, ispirata a questo thread CV: termine di interazione che utilizza l'analisi della regressione gerarchica con variabili centrate? Quali variabili dovremmo centrare?

Quando cerco un effetto di moderazione, concentro le mie variabili indipendenti e moltiplico le variabili centrate per calcolare il mio termine di interazione. Quindi eseguo la mia analisi di regressione e controllo gli effetti principali e di interazione, che possono mostrare la moderazione.

Se rifaccio l'analisi senza centrare, apparentemente il coefficiente di determinazione ( R2 ) non cambia ma i coefficienti di regressione ( β s) lo fanno. Sembra chiaro e logico.

Cosa non capisco: i valori p degli effetti principali cambiano sostanzialmente con il centraggio, sebbene l'interazione non lo faccia (il che è giusto). Quindi la mia interpretazione degli effetti principali potrebbe cambiare radicalmente, determinata solo dalla centratura o meno. (Sono ancora gli stessi dati, in entrambe le analisi!)

Qualcuno può chiarire? - Perché ciò significherebbe che l'opzione di centrare le mie variabili sarebbe obbligatoria e tutti dovrebbero farlo per ottenere gli stessi risultati con gli stessi dati.


Grazie mille per la distribuzione a quel problema e per le tue spiegazioni complete. Siate certi che il vostro aiuto è molto apprezzato!

Per me, il più grande vantaggio del centraggio è evitare la multicollinearità. È ancora abbastanza confuso stabilire una regola, centrare o meno. La mia impressione è che la maggior parte delle risorse suggerisca di concentrarsi, anche se ci sono alcuni "rischi" nel farlo. Ancora una volta voglio mettere in evidenza il fatto che 2 ricercatori che trattano dello stesso materiale e dei medesimi dati potrebbero trarre risultati diversi, perché uno si centra e l'altro no. Ho appena letto una parte di un libro di Bortz (era un professore e una specie di stella delle statistiche in Germania e in Europa), e non menziona nemmeno quella tecnica; sottolinea solo di essere attento nell'interpretazione dei principali effetti delle variabili quando sono coinvolti nelle interazioni.

Dopotutto, quando conduci una regressione con un IV, un moderatore (o un secondo IV) e un DV, consiglieresti di centrare o no?


5
Non uso quasi mai il centraggio, trovandolo completamente inutile e confuso.
Frank Harrell,

3
Leggi di nuovo attentamente le risposte. Le tue conclusioni non cambiano quando centri le variabili indipendenti o applichi una trasformazione lineare, se sono disegnate correttamente. La multicollinearità dovuta al non centraggio è un problema puramente numerico e gestita automaticamente da qualsiasi software decente.
Scortchi - Ripristina Monica

1
Questo fenomeno (che cambia i valori di p) può essere inteso come conseguenza della natura quadratica delle interazioni, come spiegato in stats.stackexchange.com/questions/28730/… .
whuber

Risposte:


23

Nei modelli senza termini di interazione (ovvero senza termini che sono costruiti come il prodotto di altri termini), il coefficiente di regressione di ciascuna variabile è la pendenza della superficie di regressione nella direzione di quella variabile. È costante, indipendentemente dai valori delle variabili, e quindi si può dire che misura l'effetto complessivo di quella variabile.

Nei modelli con interazioni, questa interpretazione può essere fatta senza ulteriori qualifiche solo per quelle variabili che non sono coinvolte in alcuna interazione. Per una variabile che è coinvolta nelle interazioni, il coefficiente di regressione dell '"effetto principale" - cioè il coefficiente di regressione della variabile da solo - è la pendenza della superficie di regressione nella direzione di quella variabile quando tutte le altre variabili che interagire con quella variabile ha valori pari a zero e il test di significatività del coefficiente si riferisce alla pendenza della superficie di regressione solo in quella regione dello spazio predittore. Poiché non è necessario che vi siano effettivamente dati in quella regione dello spazio, il coefficiente dell'effetto principale può avere poca somiglianza con la pendenza della superficie di regressione nella regione dello spazio predittore in cui i dati sono stati effettivamente osservati.

In termini anova, il coefficiente dell'effetto principale è analogo a un semplice effetto principale, non a un effetto principale complessivo. Inoltre, può riferirsi a ciò che in un progetto di anova sarebbero celle vuote in cui i dati venivano forniti estrapolando da celle con dati.

Per una misura dell'effetto complessivo della variabile che è analogo a un effetto principale complessivo in anova e che non estrapola oltre la regione in cui sono stati osservati i dati, dobbiamo guardare la pendenza media della superficie di regressione nella direzione della variabile , in cui la media è superiore agli N casi effettivamente osservati. Questa pendenza media può essere espressa come una somma ponderata dei coefficienti di regressione di tutti i termini nel modello che coinvolgono la variabile in questione.

I pesi sono scomodi da descrivere ma facili da ottenere. Il coefficiente dell'effetto principale di una variabile ottiene sempre un peso di 1. Per ogni altro coefficiente di un termine che coinvolge quella variabile, il peso è la media del prodotto delle altre variabili in quel termine. Ad esempio, se abbiamo cinque variabili "non elaborate" x1, x2, x3, x4, x5, più quattro interazioni a due vie (x1,x2), (x1,x3), (x2,x3), (x4,x5)e una interazione a tre (x1,x2,x3), il modello è

y = b0 + b1*x1 + b2*x2 + b3*x3 + b4*x4 + b5*x5 +
    b12*x1*x2 + b13*x1*x3 + b23*x2*x3 + b45*x4*x5 +
    b123*x1*x2*x3 + e

e gli effetti principali complessivi sono

B1 = b1 + b12*M[x2] + b13*M[x3] + b123*M[x2*x3],

B2 = b2 + b12*M[x1] + b23*M[x3] + b123*M[x1*x3],

B3 = b3 + b13*M[x1] + b23*M[x2] + b123*M[x1*x2],

B4 = b4 + b45*M[x5],

B5 = b5 + b45*M[x4],

dove M [.] indica la media campionaria della quantità all'interno delle parentesi. Tutti i termini del prodotto all'interno delle parentesi sono tra quelli costruiti per fare la regressione, quindi un programma di regressione dovrebbe già conoscerli e dovrebbe essere in grado di stampare i loro mezzi su richiesta.

Nei modelli che hanno solo effetti principali e interazioni a due vie, esiste un modo più semplice per ottenere gli effetti complessivi: centrare [1] le variabili grezze ai loro mezzi. Questo deve essere fatto prima di calcolare i termini del prodotto e non deve essere fatto ai prodotti. Quindi tutte le espressioni M [.] Diventeranno 0 e i coefficienti di regressione saranno interpretabili come effetti globali. I valori di b cambieranno; i valori delle B non lo faranno. Solo le variabili coinvolte nelle interazioni devono essere centrate, ma di solito non vi è alcun danno nel centrare altre variabili misurate. L'effetto generale di centrare una variabile è che, oltre a modificare l'intercetta, cambia solo i coefficienti di altre variabili che interagiscono con la variabile centrata. In particolare, non modifica i coefficienti di alcun termine che coinvolge la variabile centrata. Nell'esempio riportato sopra, la centratura di x1 cambierebbe b0, b2, b3 e b23.

[1 - Il "centraggio" è usato da persone diverse in modi che differiscono quanto basta per causare confusione. Come usato qui, "centrare una variabile su #" significa sottrarre # da tutti i punteggi sulla variabile, convertendo i punteggi originali in deviazioni da #.]

Quindi perché non centrare sempre i mezzi, di routine? Tre ragioni. In primo luogo, i coefficienti dell'effetto principale delle variabili non centrate possono essere essi stessi di interesse. Il centraggio in tali casi sarebbe controproducente, poiché modifica i coefficienti dell'effetto principale di altre variabili.

In secondo luogo, la centratura renderà tutte le espressioni M [.] 0, e quindi convertirà semplici effetti in effetti complessivi, solo in modelli senza interazioni a tre o più . Se il modello contiene tali interazioni, i calcoli b -> B devono ancora essere eseguiti, anche se tutte le variabili sono centrate sui loro mezzi.

Terzo, centrare un valore come la media, che è definito dalla distribuzione dei predittori invece di essere scelto razionalmente, significa che tutti i coefficienti che sono influenzati dal centraggio saranno specifici per il tuo particolare campione. Se ti concentri sulla media, allora qualcuno che tenta di replicare il tuo studio deve centrare la tua media, non la loro media, se vogliono ottenere gli stessi coefficienti che hai. La soluzione a questo problema è centrare ogni variabile su un valore centrale scelto razionalmente di quella variabile che dipende dal significato dei punteggi e non dipende dalla distribuzione dei punteggi. Tuttavia, i calcoli b -> B rimangono ancora necessari.

Il significato degli effetti complessivi può essere verificato con le consuete procedure per testare combinazioni lineari di coefficienti di regressione. Tuttavia, i risultati devono essere interpretati con cura perché gli effetti complessivi non sono parametri strutturali ma dipendono dal design. I parametri strutturali - i coefficienti di regressione (non centrati o con centratura razionale) e la varianza dell'errore - possono essere considerati invarianti a causa dei cambiamenti nella distribuzione dei predittori, ma gli effetti generali generalmente cambieranno. Gli effetti complessivi sono specifici per il particolare campione e non dovrebbe essere previsto il riporto ad altri campioni con distribuzioni diverse sui predittori. Se un effetto complessivo è significativo in uno studio e non in un altro, potrebbe riflettere nient'altro che una differenza nella distribuzione dei predittori.


10

β

y=β1X1+β2X2+β3X1X2+εβ1X1β3X1X2X1X1X2β

ββ1yx1 x2=0x1yx2β1x2

βx1yx2yx1x2


-1

Sono impazzito con la stessa domanda, ma alla fine ho trovato la soluzione al tuo e al mio problema. È TUTTO SU COME CALCOLARE LE VARIABILI CENTRATE. Sono disponibili due opzioni:
1. MEAN - VARIABILI INDIVIDUALI 2. VARIABILI INDIVIDUALI - MEAN
Probabilmente hai calcolato le tue variabili centrate come (variabile individuale - valore medio) , quindi quelle con valori bassi otterrebbero punteggi negativi e quelle con valori alti sarebbero positive punteggi.
Spiegherò con un esempio per facilitare la comprensione. Voglio vedere come la forza muscolare, influenza la massa ossea e voglio tenere conto del genere per vedere se influisce in modo diverso nelle ragazze e nei ragazzi. L'idea è che maggiore è la forza muscolare maggiore è la massa ossea. Pertanto ho:

Variabile dipendente: massa ossea Variabili indipendenti: sesso, forza muscolare, forza_interazione_SEX_MUSCLE.

Come ho scoperto la multicollinearità (di solito quando hai un termine di interazione), ho centrato la forza muschiata (MEAN - VARIABLE INDIVIDUALE) e ho creato il nuovo termine di interazione con la nuova variabile centrata. I miei coefficienti erano

0.902
-0.010
-0.023
0.0002

0.902(00.010)(0.023musclecentredvalue)+(Interaction0.0002)

Guardando questo, potresti pensare che il muscolo influisca negativamente sull'osso, ma devi pensare alle variabili centrate, non alle variabili originali. Diciamo che la forza muscolare media del gruppo era 30 KG. E vuoi stimare la massa ossea di un ragazzo (WEAKBOY) che si è esibito20 KG e un altro che si è esibito 40KG(STRONGBOY). I valori centrati di WEAKBOY saranno (VALORE DEL GRUPPO SIGNIFICATO - VALORE INDIVIDUALE; 30 - 20 = 10), e per STRONGBOY sarà -10. Applicando questi valori all'equazione:

WEAKBOY Massa ossea = 0.902 - 0 - (0.023 * 10) + .... = 0.672

STRONGBOY Massa ossea = 0.902 - (0.023 * (- 10)) + ... = 1.132

Come puoi vedere, STRONGBOY avrà davvero un osso più forte. Se avessi centrato le tue variabili al contrario: (INDIVIDUALE - MEAN), tutti i coefficienti saranno uguali ma i simboli saranno diversi. Questo perché quando applichi la variabile centrata WEAKBOY sarà (-10) e STRONGBOY sarà (+10). Pertanto i risultati finali saranno esattamente gli stessi.

Tutto ha senso una volta capito.

Spero che l'esempio sia abbastanza chiaro.


Questo errore non spiegherebbe i cambiamenti nei valori di p. A proposito, l'opzione (1) non è centrata, perché include anche la moltiplicazione dei valori per una costante. (La costante è -1.)
whuber
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.