D: "... come interpretare il valore x2" Alto "? Ad esempio, che effetto ha" Alto "x2s sulla variabile di risposta nell'esempio fornito qui ??
A: Senza dubbio hai notato che non c'è menzione di x2 = "High" nell'output. Al momento x2High è scelto come "caso base". Questo perché hai offerto una variabile fattore con la codifica predefinita per i livelli nonostante un ordine che sarebbe stato L / M / H più naturale per la mente umana. Ma "H" essendo lessicamente prima di "L" e "M" nell'alfabeto, è stato scelto da R come caso base.
Poiché "x2" non è stato ordinato, ciascuno dei contrasti riportati era relativo a x2 = "Alto" e quindi x2 == "Basso" è stato stimato a -0,78 rispetto a x2 = "Alto". Al momento, l'intercetta è il valore stimato di "Y" quando x2 = "Alto" e x1 = 0. Probabilmente si desidera rieseguire la regressione dopo aver modificato i livelli di ordinamento (ma non aver effettuato il fattore ordinato).
x2a = factor(x2, levels=c("Low", "Medium", "High"))
Quindi la stima "Media" e "Alta" sarà più in linea con ciò che ti aspetti.
Modifica: esistono disposizioni di codifica alternative (o disposizioni più precise della matrice del modello). La scelta predefinita per i contrasti in R è "contrasti di trattamento" che specifica un livello di fattore (o una particolare combinazione di livelli di fattore) come livello di riferimento e riporta differenze medie stimate per altri livelli o combinazioni. Tuttavia, è possibile impostare il livello di riferimento come media complessiva forzando l'intercetta su 0 (non consigliato) o utilizzando una delle altre opzioni di contrasto:
?contrasts
?C # which also means you should _not_ use either "c" or "C" as variable names.
Puoi scegliere diversi contrasti per diversi fattori, anche se farlo sembrerebbe imporre un ulteriore onere interpretativo. S-Plus utilizza i contrasti di Helmert per impostazione predefinita e SAS utilizza i contrasti di trattamento, ma sceglie l'ultimo livello di fattore anziché il primo come livello di riferimento.