Nei modelli senza termini di interazione (ovvero senza termini che sono costruiti come il prodotto di altri termini), il coefficiente di regressione di ciascuna variabile è la pendenza della superficie di regressione nella direzione di quella variabile. È costante, indipendentemente dai valori delle variabili, e quindi si può dire che misura l'effetto complessivo di quella variabile.
Nei modelli con interazioni, questa interpretazione può essere fatta senza ulteriori qualifiche solo per quelle variabili che non sono coinvolte in alcuna interazione. Per una variabile che è coinvolta nelle interazioni, il coefficiente di regressione dell '"effetto principale" - cioè il coefficiente di regressione della variabile da solo - è la pendenza della superficie di regressione nella direzione di quella variabile quando tutte le altre variabili che interagire con quella variabile ha valori pari a zero e il test di significatività del coefficiente si riferisce alla pendenza della superficie di regressione solo in quella regione dello spazio predittore. Poiché non è necessario che vi siano effettivamente dati in quella regione dello spazio, il coefficiente dell'effetto principale può avere poca somiglianza con la pendenza della superficie di regressione nella regione dello spazio predittore in cui i dati sono stati effettivamente osservati.
In termini anova, il coefficiente dell'effetto principale è analogo a un semplice effetto principale, non a un effetto principale complessivo. Inoltre, può riferirsi a ciò che in un progetto di anova sarebbero celle vuote in cui i dati venivano forniti estrapolando da celle con dati.
Per una misura dell'effetto complessivo della variabile che è analogo a un effetto principale complessivo in anova e che non estrapola oltre la regione in cui sono stati osservati i dati, dobbiamo guardare la pendenza media della superficie di regressione nella direzione della variabile , in cui la media è superiore agli N casi effettivamente osservati. Questa pendenza media può essere espressa come una somma ponderata dei coefficienti di regressione di tutti i termini nel modello che coinvolgono la variabile in questione.
I pesi sono scomodi da descrivere ma facili da ottenere. Il coefficiente dell'effetto principale di una variabile ottiene sempre un peso di 1. Per ogni altro coefficiente di un termine che coinvolge quella variabile, il peso è la media del prodotto delle altre variabili in quel termine. Ad esempio, se abbiamo cinque variabili "non elaborate" x1, x2, x3, x4, x5
, più quattro interazioni a due vie (x1,x2), (x1,x3), (x2,x3), (x4,x5)
e una interazione a tre (x1,x2,x3)
, il modello è
y = b0 + b1*x1 + b2*x2 + b3*x3 + b4*x4 + b5*x5 +
b12*x1*x2 + b13*x1*x3 + b23*x2*x3 + b45*x4*x5 +
b123*x1*x2*x3 + e
e gli effetti principali complessivi sono
B1 = b1 + b12*M[x2] + b13*M[x3] + b123*M[x2*x3],
B2 = b2 + b12*M[x1] + b23*M[x3] + b123*M[x1*x3],
B3 = b3 + b13*M[x1] + b23*M[x2] + b123*M[x1*x2],
B4 = b4 + b45*M[x5],
B5 = b5 + b45*M[x4],
dove M [.] indica la media campionaria della quantità all'interno delle parentesi. Tutti i termini del prodotto all'interno delle parentesi sono tra quelli costruiti per fare la regressione, quindi un programma di regressione dovrebbe già conoscerli e dovrebbe essere in grado di stampare i loro mezzi su richiesta.
Nei modelli che hanno solo effetti principali e interazioni a due vie, esiste un modo più semplice per ottenere gli effetti complessivi: centrare [1] le variabili grezze ai loro mezzi. Questo deve essere fatto prima di calcolare i termini del prodotto e non deve essere fatto ai prodotti. Quindi tutte le espressioni M [.] Diventeranno 0 e i coefficienti di regressione saranno interpretabili come effetti globali. I valori di b cambieranno; i valori delle B non lo faranno. Solo le variabili coinvolte nelle interazioni devono essere centrate, ma di solito non vi è alcun danno nel centrare altre variabili misurate. L'effetto generale di centrare una variabile è che, oltre a modificare l'intercetta, cambia solo i coefficienti di altre variabili che interagiscono con la variabile centrata. In particolare, non modifica i coefficienti di alcun termine che coinvolge la variabile centrata. Nell'esempio riportato sopra, la centratura di x1 cambierebbe b0, b2, b3 e b23.
[1 - Il "centraggio" è usato da persone diverse in modi che differiscono quanto basta per causare confusione. Come usato qui, "centrare una variabile su #" significa sottrarre # da tutti i punteggi sulla variabile, convertendo i punteggi originali in deviazioni da #.]
Quindi perché non centrare sempre i mezzi, di routine? Tre ragioni. In primo luogo, i coefficienti dell'effetto principale delle variabili non centrate possono essere essi stessi di interesse. Il centraggio in tali casi sarebbe controproducente, poiché modifica i coefficienti dell'effetto principale di altre variabili.
In secondo luogo, la centratura renderà tutte le espressioni M [.] 0, e quindi convertirà semplici effetti in effetti complessivi, solo in modelli senza interazioni a tre o più . Se il modello contiene tali interazioni, i calcoli b -> B devono ancora essere eseguiti, anche se tutte le variabili sono centrate sui loro mezzi.
Terzo, centrare un valore come la media, che è definito dalla distribuzione dei predittori invece di essere scelto razionalmente, significa che tutti i coefficienti che sono influenzati dal centraggio saranno specifici per il tuo particolare campione. Se ti concentri sulla media, allora qualcuno che tenta di replicare il tuo studio deve centrare la tua media, non la loro media, se vogliono ottenere gli stessi coefficienti che hai. La soluzione a questo problema è centrare ogni variabile su un valore centrale scelto razionalmente di quella variabile che dipende dal significato dei punteggi e non dipende dalla distribuzione dei punteggi. Tuttavia, i calcoli b -> B rimangono ancora necessari.
Il significato degli effetti complessivi può essere verificato con le consuete procedure per testare combinazioni lineari di coefficienti di regressione. Tuttavia, i risultati devono essere interpretati con cura perché gli effetti complessivi non sono parametri strutturali ma dipendono dal design. I parametri strutturali - i coefficienti di regressione (non centrati o con centratura razionale) e la varianza dell'errore - possono essere considerati invarianti a causa dei cambiamenti nella distribuzione dei predittori, ma gli effetti generali generalmente cambieranno. Gli effetti complessivi sono specifici per il particolare campione e non dovrebbe essere previsto il riporto ad altri campioni con distribuzioni diverse sui predittori. Se un effetto complessivo è significativo in uno studio e non in un altro, potrebbe riflettere nient'altro che una differenza nella distribuzione dei predittori.