Cos'è una matrice di contrasto?


46

Che cosa è esattamente la matrice di contrasto (un termine, pertinente ad un'analisi con predittori categorici) e come viene specificata esattamente la matrice di contrasto? Cioè cosa sono le colonne, quali sono le righe, quali sono i vincoli su quella matrice e cosa significano i numeri nelle colonne je nelle righe i? Ho cercato di esaminare i documenti e il web, ma sembra che tutti lo utilizzino, ma non c'è alcuna difesa da nessuna parte. Potrei retroingegnerizzare i contrasti predefiniti disponibili, ma penso che la definizione dovrebbe essere disponibile senza quella.

> contr.treatment(4)
  2 3 4
1 0 0 0
2 1 0 0
3 0 1 0
4 0 0 1
> contr.sum(4)
  [,1] [,2] [,3]
1    1    0    0
2    0    1    0
3    0    0    1
4   -1   -1   -1
> contr.helmert(4)
  [,1] [,2] [,3]
1   -1   -1   -1
2    1   -1   -1
3    0    2   -1
4    0    0    3
> contr.SAS(4)
  1 2 3
1 1 0 0
2 0 1 0
3 0 0 1
4 0 0 0

La "matrice di contrasto" viene utilizzata per rappresentare IV (fattori) categorici nella modellazione. In particolare, viene utilizzato per ricodificare un fattore in un insieme di "variabili di contrasto" (le variabili fittizie sono solo un esempio). Ogni tipo di variabili di contrasto ha la propria matrice di contrasto corrispondente. Vedi ad esempio la mia domanda correlata , non ancora risposta.
ttnphns,

5
@ttnphns Siamo spiacenti ma continui a fare ciò che fanno tutti i documenti e i web: spieghi a cosa servono le matrici di contrasto, senza affrontare la domanda su quale sia la matrice di contrasto. Questo è lo scopo di una definizione .
Curioso

3
Naturalmente è collegato, ma derivare "ciò che è" da "ciò di cui è necessario" è il lavoro di un detective, che non dovrebbe essere necessario. Questo è il reverse engineering. Le cose dovrebbero essere documentate.
Curioso

2
ats.ucla.edu/stat/r/library/contrast_coding.htm è una buona Rrisorsa orientata ai metodi di codifica.
whuber

1
@Curious, solo per farti sapere: ho assegnato 100 taglie a ttnphns, ma inizierò un'altra taglia (o chiederò a qualcun altro di farlo) per premiare anche Gus_est. Ho anche scritto la mia risposta, nel caso in cui tu preferisca avere una più breve :-)
ameba dice Reinstate Monica

Risposte:


31

Nella loro bella risposta, @Gus_est, ha intrapreso una spiegazione matematica dell'essenza della matrice del coefficiente di contrasto L (notata lì una C ). è la formula fondamentale per verificare le ipotesi nella modellistica lineare generale univariata (dove b sono parametri e k sono funzione stimabile che rappresenta un'ipotesi nulla), e quella risposta mostra alcune formule necessarie utilizzate nei moderni programmi ANOVA.Lb=kbk

La mia risposta ha uno stile molto diverso. È per un analista di dati che si vede piuttosto un "ingegnere" che un "matematico", quindi la risposta sarà un resoconto (superficiale) "pratico" o "didattico" e si concentrerà per rispondere solo agli argomenti (1) coefficienti di contrasto significano e (2) come possono aiutare ad eseguire ANOVA tramite un programma di regressione lineare .

ANOVA come regressione con variabili fittizie: introduzione di contrasti .

Immaginiamo ANOVA con variabile dipendente Y e fattore categoriale A con 3 livelli (gruppi). Diamo un'occhiata all'ANOVA dal punto di vista della regressione lineare, cioè trasformando il fattore in un insieme di variabili binarie fittizie (aka indicatore noto anche come trattamento noto come uno caldo ). Questo è il nostro insieme indipendente X . (Probabilmente tutti hanno sentito che è possibile fare ANOVA in questo modo - come regressione lineare con predittori fittizi.)

Poiché uno dei tre gruppi è ridondante, solo due variabili fittizie entreranno nel modello lineare. Nomina Group3 come ridondante o riferimento. I predittori fittizi che costituiscono X sono un esempio di variabili di contrasto , ovvero variabili elementari che rappresentano le categorie di un fattore. La stessa X viene spesso chiamata matrice di progettazione. Ora possiamo inserire il set di dati in un programma di regressione lineare multipla che centrerà i dati e troverà i coefficienti di regressione (parametri) , dove "+" designa pseudoinverso.b=(XX)1Xy=X+y

Il passaggio equivalente non consisterà nel centrare, ma piuttosto aggiungere il termine costante del modello come prima colonna di 1 s in X , quindi stimare i coefficienti allo stesso modo di sopra . Fin qui tutto bene.b=(XX)1Xy=X+y

Definiamo matrice C per essere l'aggregazione (riepilogo) delle variabili indipendenti matrice disegno X . It semplicemente ci mostra lo schema di codifica osservato lì, - la matrice di contrasto codifica (= matrice di base): .C=aggrX

C
              Const  A1    A2
Gr1 (A=1)       1     1     0
Gr2 (A=2)       1     0     1
Gr3 (A=3,ref)   1     0     0

Le colonne sono le variabili (colonne) di X - le variabili elementari di contrasto A1 A2, fittizie in questo caso, e le righe sono tutti i gruppi / livelli del fattore. Così è stata la nostra matrice di codifica C per indicatore o schema di codifica del contrasto fittizio.

Ora, è chiamata matrice del coefficiente di contrasto o matrice L. Poiché C è quadrato, L = C + = C - 1 . La matrice di contrasto, corrispondente alla nostra C - che è per i contrasti dell'indicatore del nostro esempio - è quindi:C+=LL=C+=C1

L
          Gr1   Gr2   Gr3
         (A=1) (A=2) (A=3)
Const      0     0     1            => Const = Mean_Gr3
A1         1     0    -1            => Param1 = Mean_Gr1-Mean_Gr3
A2         0     1    -1            => Param2 = Mean_Gr2-Mean_Gr3

La matrice L è la matrice che mostra i coefficienti di contrasto . Si noti che la somma dei coefficienti di contrasto in ogni riga (eccetto la costante di riga) è . Ogni riga di questo tipo è chiamata contrasto . Le righe corrispondono alle variabili di contrasto e le colonne corrispondono ai gruppi, ai livelli dei fattori.0

Il significato dei coefficienti di contrasto è che aiutano a capire ciò che ciascun effetto (ogni parametro b stimato nella regressione con la nostra X , codificata così com'è) rappresenta nel senso della differenza (il confronto di gruppo). Vediamo immediatamente, seguendo i coefficienti, che la costante stimata sarà uguale alla media Y nel gruppo di riferimento; quel parametro b1 (cioè della variabile fittizia A1) sarà uguale alla differenza: media Y nel gruppo1 meno media Y nel gruppo3; e il parametro b2 è la differenza: media nel gruppo2 meno media nel gruppo3.

Nota : Dire "media" proprio sopra (e più avanti) significa media stimata (prevista dal modello) per un gruppo, non la media osservata in un gruppo.

Un'osservazione istruttiva : quando eseguiamo una regressione da variabili predittive binarie , il parametro di tale variabile indica la differenza in Y tra i gruppi variabile = 1 e variabile = 0. Tuttavia, nella situazione in cui le variabili binarie sono l'insieme di k-1 variabili fittizie che rappresentano un kfattore di livello, il significato del parametro diventa più stretto : mostra la differenza in Y tra variabile = 1 e (non solo variabile = 0 ma anche) riferimento_variabile = 1 gruppi.

Come (dopo moltiplicato per y ) ci porta valori di b , similmente ( a g g r X ) + porta significati di b .X+y(aggrX)+

OK, abbiamo dato la definizione di coefficiente di contrasto della matrice L . Poiché , simmetricamente C = L + = L - 1 , il che significa che se ti è stato dato o hai costruito una matrice di contrasto L basata su fattori categorici - per testare quella L nella tua analisi, allora hai idea di come codificare correttamente le variabili del predittore del contrasto X per testare la L tramite una regressione ordinariaL=C+=C1C=L+=L1 software (ovvero quello che elabora solo le variabili "continue" nel modo OLS standard e non riconosce affatto i fattori categorici). Nel nostro esempio attuale la codifica era - indicatore (fittizio) variabili di tipo.

ANOVA come regressione: altri tipi di contrasto .

Osserviamo brevemente altri tipi di contrasto (= schemi di codifica, = stili di parametrizzazione) per un fattore categorica A .

Contrasti di deviazione o effetto . Matrici C e L e significato dei parametri:

C
              Const  A1    A2
Gr1 (A=1)       1     1     0
Gr2 (A=2)       1     0     1
Gr3 (A=3,ref)   1    -1    -1

L
          Gr1   Gr2   Gr3
         (A=1) (A=2) (A=3)
Const     1/3   1/3   1/3      => Const = 1/3Mean_Gr3+1/3Mean_Gr2+1/3Mean_Gr3 = Mean_GU
A1        2/3  -1/3  -1/3      => Param1 = 2/3Mean_Gr1-1/3(Mean_Gr2+Mean_Gr3) = Mean_Gr1-Mean_GU
A2       -1/3   2/3  -1/3      => Param2 = 2/3Mean_Gr2-1/3(Mean_Gr1+Mean_Gr3) = Mean_Gr2-Mean_GU

                                  Parameter for the reference group3 = -(Param1+Param2) = Mean_Gr3-Mean_GU

                                  Mean_GU is grand unweighted mean = 1/3(Mean_Gr1+Mean_Gr2+Mean_Gr3)

Tramite la codifica di deviazione, ciascun gruppo del fattore viene confrontato con la media grande non ponderata, mentre Costante è quella media grande. Questo è ciò che ottieni in regressione con i predittori di contrasto X codificati in modo "deviazione" o effetto.

Contrasti semplici . Questo schema di contrasto / codifica è un ibrido di indicatori e tipi di deviazione, fornisce il significato di Costante come nel tipo di deviazione e il significato degli altri parametri come nel tipo di indicatore:

C
              Const  A1    A2
Gr1 (A=1)       1   2/3  -1/3
Gr2 (A=2)       1  -1/3   2/3
Gr3 (A=3,ref)   1  -1/3  -1/3

L
          Gr1   Gr2   Gr3
         (A=1) (A=2) (A=3)
Const     1/3   1/3   1/3        => Const = as in Deviation
A1         1     0    -1         => Param1 = as in Indicator
A2         0     1    -1         => Param2 = as in Indicator

Contrasti di Helmert . Confronta ogni gruppo (tranne il riferimento) con la media non ponderata dei gruppi successivi e Constant è la media media non ponderata. Matrici C e L :

C
              Const  A1    A2
Gr1 (A=1)       1   2/3    0
Gr2 (A=2)       1  -1/3   1/2
Gr3 (A=3,ref)   1  -1/3  -1/2

L
          Gr1   Gr2   Gr3
         (A=1) (A=2) (A=3)
Const     1/3   1/3   1/3        => Const = Mean_GU
A1         1   -1/2  -1/2        => Param1 = Mean_Gr1-1/2(Mean_Gr2+Mean_Gr3)
A2         0     1    -1         => Param2 = Mean_Gr2-Mean_Gr3

Differenza o contrasti di Helmert al contrario . Confronta ogni gruppo (tranne il riferimento) con la media non ponderata dei gruppi precedenti e Constant è la media media non ponderata.

C
              Const  A1    A2
Gr1 (A=1)       1  -1/2  -1/3
Gr2 (A=2)       1   1/2  -1/3
Gr3 (A=3,ref)   1    0    2/3

L
          Gr1   Gr2   Gr3
         (A=1) (A=2) (A=3)
Const     1/3   1/3   1/3        => Const = Mean_GU
A1        -1     1     0         => Param1 = Mean_Gr2-Mean_Gr1
A2       -1/2  -1/2    1         => Param2 = Mean_Gr3-1/2(Mean_Gr2+Mean_Gr1)

Contrasti ripetuti . Confronta ogni gruppo (tranne il riferimento) con il gruppo successivo e Costante è la media media non ponderata.

C
              Const  A1    A2
Gr1 (A=1)       1   2/3   1/3
Gr2 (A=2)       1  -1/3   1/3
Gr3 (A=3,ref)   1  -1/3  -2/3

L
          Gr1   Gr2   Gr3
         (A=1) (A=2) (A=3)
Const     1/3   1/3   1/3        => Const = Mean_GU
A1         1    -1     0         => Param1 = Mean_Gr1-Mean_Gr2
A2         0     1    -1         => Param2 = Mean_Gr2-Mean_Gr3

La domanda si pone: how exactly is contrast matrix specified?guardando i tipi di contrasti delineati finora è possibile capire come. Ogni tipo ha la sua logica come "riempire" i valori di L . La logica riflette il significato di ciascun parametro: quali sono le due combinazioni di gruppi che si prevede di confrontare.

Contrasti polinomiali . Questi sono un po 'speciali, non lineari. Il primo effetto è lineare, il secondo è quadratico, il successivo è cubico. Lascio qui senza conto la domanda su come debbano essere costruite le loro matrici C e L e se siano l'inverso l'una dell'altra. Consultare le spiegazioni approfondite di @Antoni Parellada su questo tipo di contrasto: 1 , 2 .

Nei disegni bilanciati, Helmert, Helmert al contrario e contrasti polinomiali sono sempre contrasti ortogonali . Altri tipi considerati sopra non sono contrasti ortogonali. Ortogonale (sotto bilanciamento) è il contrasto in cui nella matrice di contrasto la somma L in ogni riga (tranne Const) è zero e la somma dei prodotti degli elementi corrispondenti di ciascuna coppia di righe è zero.

Ecco le misure di somiglianza angolare (correlazione di coseno e Pearson) in diversi tipi di contrasto, ad eccezione del polinomio che non ho testato. Cerchiamo di avere un singolo fattore A con klivelli, ed è stato quindi ricodificato nel set di k-1variabili di contrasto di un tipo specifico. Quali sono i valori nella matrice di correlazione o coseno tra queste variabili di contrasto?

                     Balanced (equal size) groups     Unbalanced groups
Contrast type             cos        corr              cos        corr

INDICATOR                  0       -1/(k-1)             0         varied
DEVIATION                 .5          .5              varied      varied
SIMPLE                 -1/(k-1)    -1/(k-1)           varied      varied
HELMERT, REVHELMERT        0           0              varied      varied
REPEATED                varied   =  varied            varied      varied

   "=" means the two matrices are same while elements in matrix vary

Sto dando la tabella per informazioni e lasciandola senza commenti. È di una certa importanza per uno sguardo più profondo alla modellazione lineare generale.

Contrasti definiti dall'utente . Questo è ciò che componiamo per testare un'ipotesi di confronto personalizzata. Normalmente la somma in ogni tranne la prima riga di L dovrebbe essere 0, il che significa che due gruppi o due composizioni di gruppi vengono confrontati in quella riga (cioè con quel parametro).

Dopo tutto, dove sono i parametri del modello ?

Sono le righe o le colonne di L ? In tutto il testo sopra ho detto che i parametri corrispondono alle righe di L , poiché le righe rappresentano le variabili di contrasto, i predittori. Mentre le colonne sono livelli di un fattore, i gruppi. Ciò può sembrare in contraddizione con tale, ad esempio, blocco teorico della risposta di @Gus_est, dove chiaramente le colonne corrispondono ai parametri:

H0:[011000011000011][β0β1β2β3β4]=[000]

In realtà, non c'è contraddizione e la risposta al "problema" è: sia le righe che le colonne della matrice del coefficiente di contrasto corrispondono ai parametri! Ricordiamo solo che i contrasti (variabili di contrasto), le righe, sono stati inizialmente creati per rappresentare nient'altro che i livelli dei fattori: sono i livelli tranne quello di riferimento omesso. Confronta per favore questi due ortografia equivalente della matrice L per il semplice contrasto:

L
          Gr1   Gr2   Gr3
          A=1   A=2   A=3(reference)
Const     1/3   1/3   1/3 
A1         1     0    -1  
A2         0     1    -1   

L
            b0    b1    b2    b3(redundant)
           Const  A=1   A=2   A=3(reference)
b0  Const   1    1/3   1/3   1/3 
b1  A1      0     1     0    -1  
b2  A2      0     0     1    -1   

Il primo è quello che ho mostrato prima, il secondo è il layout più "teorico" (per l'algebra del modello lineare generale). Semplicemente, è stata aggiunta una colonna corrispondente al termine Costante. I coefficienti dei parametri b identificano le righe e le colonne. Il parametro b3, come ridondante, verrà impostato su zero. Puoi pseudoinverso il secondo layout per ottenere la matrice di codifica C , dove all'interno nella parte in basso a destra troverai ancora i codici corretti per le variabili di contrasto A1 e A2. Questo sarà così per qualsiasi tipo di contrasto descritto (tranne per il tipo di indicatore - in cui lo pseudoinverso di tale disposizione rettangolare non darà il risultato corretto; questo è probabilmente il motivo per cui il semplice tipo di contrasto è stato inventato per comodità: coefficienti di contrasto identici al tipo di indicatore, ma per costante di riga).

Tipo di contrasto e risultati della tabella ANOVA .

(μ1=μ2,μ2=μ3)(μ1=μ23,μ2=μ3)(μ1=μ123,μ2=μ123)(μ1=μ3,μ2=μ3)

I programmi ANOVA implementati tramite il paradigma del modello lineare generale possono visualizzare sia la tabella ANOVA (effetti combinati: principale, interazioni) sia la tabella delle stime dei parametri (effetti elementari b ). Alcuni programmi possono generare quest'ultima tabella corrispondente al tipo di contrasto come offerto dall'utente, ma la maggior parte produrrà sempre i parametri corrispondenti a un tipo - spesso, tipo di indicatore, perché i programmi ANOVA basati su un modello lineare generale parametrizzano in modo specifico variabili fittizie (il più conveniente da fare) e quindi passare ai contrasti mediante speciali formule di "collegamento" che interpretano l'input fittizio fisso in un contrasto (arbitrario).

Mentre nella mia risposta - mostrando ANOVA come regressione - il "link" è realizzato già a livello dell'input X , che ha chiamato per introdurre la nozione dello schema di codifica appropriato per i dati.

Alcuni esempi che mostrano i test dei contrasti ANOVA tramite la normale regressione .

Mostrando in SPSS la richiesta di un tipo di contrasto in ANOVA e ottenendo lo stesso risultato tramite regressione lineare. Abbiamo alcuni set di dati con Y e fattori A (3 livelli, riferimento = ultimo) e B (4 livelli, riferimento = ultimo); trova i dati di seguito più avanti.

La deviazione contrasta l'esempio nel modello fattoriale completo (A, B, A * B). Tipo di deviazione richiesto sia per A che per B (potremmo scegliere di richiedere tipi diversi per ciascun fattore, per vostra informazione).

Matrice del coefficiente di contrasto L per A e per B:

            A=1      A=2      A=3
Const     .3333    .3333    .3333 
dev_a1    .6667   -.3333   -.3333
dev_a2   -.3333    .6667   -.3333

            B=1      B=2      B=3      B=4
Const     .2500    .2500    .2500    .2500
dev_b1    .7500   -.2500   -.2500   -.2500 
dev_b2   -.2500    .7500   -.2500   -.2500 
dev_b3   -.2500   -.2500    .7500   -.2500

Richiedere al programma ANOVA ( GLMin SPSS) di eseguire l'analisi della varianza e di produrre risultati espliciti per i contrasti di deviazione:

inserisci qui la descrizione dell'immagine

inserisci qui la descrizione dell'immagine

Il tipo di contrasto di deviazione ha confrontato A = 1 rispetto alla media non ponderata Grand e A = 2 con la stessa media. Le ellissi rosse inchiostrano le stime della differenza e i loro valori p. L'effetto combinato sul fattore A è inchiostrato dal rettangolo rosso. Per il fattore B, tutto è analogamente inchiostrato in blu. Visualizza anche la tabella ANOVA. Si noti che gli effetti di contrasto combinati equivalgono agli effetti principali in esso.

inserisci qui la descrizione dell'immagine

Creiamo ora variabili di contrasto fisico dev_a1, dev_a2, dev_b1, dev_b2, dev_b3 ed eseguiamo la regressione. Invertire le matrici L per ottenere le matrici di codifica C :

      dev_a1   dev_a2
A=1   1.0000    .0000 
A=2    .0000   1.0000 
A=3  -1.0000  -1.0000

      dev_b1   dev_b2   dev_b3
B=1   1.0000    .0000    .0000 
B=2    .0000   1.0000    .0000 
B=3    .0000    .0000   1.0000 
B=4  -1.0000  -1.0000  -1.0000

X=DCDkk

Dopo aver creato le variabili di contrasto, moltiplicare tra quelle di diversi fattori per ottenere variabili che rappresentino le interazioni (il nostro modello ANOVA era fattoriale completo): dev_a1b1, dev_a1b2, dev_a1b3, dev_a2b1, dev_a2b2, dev_a2b3. Quindi eseguire la regressione lineare multipla con tutti i predittori.

inserisci qui la descrizione dell'immagine

Come previsto, dev_a1 è lo stesso dell'effetto del contrasto "Livello 1 vs media"; dev_a2 è lo stesso di "Livello 2 vs media", ecc. ecc., confrontare le parti inchiostrate con l'analisi del contrasto ANOVA sopra.

Si noti che se non stessimo utilizzando le variabili di interazione dev_a1b1, dev_a1b2 ... in regressione i risultati coincideranno con i risultati dell'analisi del contrasto ANOVA esclusivamente per gli effetti principali.

Esempio di contrasti semplici sotto lo stesso modello fattoriale completo (A, B, A * B).

Matrice del coefficiente di contrasto L per A e per B:

            A=1      A=2      A=3
Const     .3333    .3333    .3333 
sim_a1   1.0000    .0000  -1.0000
sim_a2    .0000   1.0000  -1.0000

            B=1      B=2      B=3      B=4
Const     .2500    .2500    .2500    .2500
sim_b1   1.0000    .0000    .0000  -1.0000
sim_b2    .0000   1.0000    .0000  -1.0000
sim_b3    .0000    .0000   1.0000  -1.0000

Risultati ANOVA per contrasti semplici:

inserisci qui la descrizione dell'immagine

inserisci qui la descrizione dell'immagine

I risultati complessivi (tabella ANOVA) sono gli stessi dei contrasti di deviazione (non visualizzati ora).

Crea variabili di contrasto fisico sim_a1, sim_a2, sim_b1, sim_b2, sim_b3. Le matrici di codifica invertendo le L-matrici sono (senza colonna Const):

      sim_a1   sim_a2
A=1    .6667   -.3333
A=2   -.3333    .6667
A=3   -.3333   -.3333

      sim_b1   sim_b2   sim_b3
B=1    .7500   -.2500   -.2500
B=2   -.2500    .7500   -.2500
B=3   -.2500   -.2500    .7500
B=4   -.2500   -.2500   -.2500

X=DC

inserisci qui la descrizione dell'immagine

Come prima, vediamo che i risultati di regressione e ANOVA corrispondono. Un parametro di regressione di una semplice variabile di contrasto è la differenza (e il test di significatività di esso) tra quel livello del fattore e il livello di riferimento (l'ultimo, nel nostro esempio) di esso.

I dati a due fattori utilizzati negli esempi:

     Y      A      B
 .2260      1      1
 .6836      1      1
-1.772      1      1
-.5085      1      1
1.1836      1      2
 .5633      1      2
 .8709      1      2
 .2858      1      2
 .4057      1      2
-1.156      1      3
1.5199      1      3
-.1388      1      3
 .4865      1      3
-.7653      1      3
 .3418      1      4
-1.273      1      4
1.4042      1      4
-.1622      2      1
 .3347      2      1
-.4576      2      1
 .7585      2      1
 .4084      2      2
1.4165      2      2
-.5138      2      2
 .9725      2      2
 .2373      2      2
-1.562      2      2
1.3985      2      3
 .0397      2      3
-.4689      2      3
-1.499      2      3
-.7654      2      3
 .1442      2      3
-1.404      2      3
-.2201      2      4
-1.166      2      4
 .7282      2      4
 .9524      2      4
-1.462      2      4
-.3478      3      1
 .5679      3      1
 .5608      3      2
1.0338      3      2
-1.161      3      2
-.1037      3      3
2.0470      3      3
2.3613      3      3
 .1222      3      4

Esempio di contrasto definito dall'utente . Facciamo un singolo fattore F con 5 livelli. Creerò e testerò una serie di contrasti ortogonali personalizzati, in ANOVA e in regressione.

inserisci qui la descrizione dell'immagine

LL

Sottoponiamo la matrice alla procedura ANOVA di SPSS per testare i contrasti. Bene, potremmo inviare anche una sola riga (contrasto) dalla matrice, ma inoltreremo l'intera matrice perché - come negli esempi precedenti - vorremmo ricevere gli stessi risultati tramite la regressione e il programma di regressione avrà bisogno del completo insieme di variabili di contrasto (tenere presente che appartengono insieme a un fattore!). Aggiungeremo la riga costante a L, proprio come abbiamo fatto prima, anche se se non avessimo bisogno di testare l'intercettazione potremmo ometterla in modo sicuro.

UNIANOVA Y BY F
  /METHOD=SSTYPE(3)
  /INTERCEPT=INCLUDE
  /CONTRAST (F)= special
       (.2 .2 .2 .2 .2
         3  3 -2 -2 -2
         1 -1  0  0  0
         0  0  2 -1 -1
         0  0  0  1 -1)
  /DESIGN=F.

Equivalently, we might also use this syntax (with a more flexible /LMATRIX subcommand)
if we omit the Constant row from the matrix.
UNIANOVA Y BY F
  /METHOD=SSTYPE(3)
  /INTERCEPT=INCLUDE
  /LMATRIX= "User contrasts"
       F  3  3 -2 -2 -2;
       F  1 -1  0  0  0;
       F  0  0  2 -1 -1;
       F  0  0  0  1 -1
  /DESIGN=F.

inserisci qui la descrizione dell'immagine

L'effetto dei contrasti complessivi (nella parte inferiore della foto) non è lo stesso dell'effetto ANOVA complessivo previsto:

inserisci qui la descrizione dell'immagine

ma è semplicemente il manufatto del nostro inserimento del termine Costante nella matrice L. Infatti, SPSS implica già Costante quando vengono specificati contrasti definiti dall'utente. Rimuovi la riga costante da L e otterremo gli stessi risultati dei contrasti (matrice K nella foto sopra) tranne per il fatto che il contrasto L0 non verrà visualizzato. E l'effetto di contrasto complessivo corrisponderà all'ANOVA generale:

inserisci qui la descrizione dell'immagine

C=L+X=DC

C
      use_f1   use_f2   use_f3   use_f4
F=1    .1000    .5000    .0000    .0000
F=2    .1000   -.5000    .0000    .0000
F=3   -.0667    .0000    .3333    .0000
F=4   -.0667    .0000   -.1667    .5000
F=5   -.0667    .0000   -.1667   -.5000

inserisci qui la descrizione dell'immagine

Osserva l'identità dei risultati. I dati utilizzati in questo esempio:

     Y      F
 .2260      1
 .6836      1
-1.772      1
-.5085      1
1.1836      1
 .5633      1
 .8709      1
 .2858      1
 .4057      1
-1.156      1
1.5199      2
-.1388      2
 .4865      2
-.7653      2
 .3418      2
-1.273      2
1.4042      2
-.1622      3
 .3347      3
-.4576      3
 .7585      3
 .4084      3
1.4165      3
-.5138      3
 .9725      3
 .2373      3
-1.562      3
1.3985      3
 .0397      4
-.4689      4
-1.499      4
-.7654      4
 .1442      4
-1.404      4
-.2201      4
-1.166      4
 .7282      4
 .9524      5
-1.462      5
-.3478      5
 .5679      5
 .5608      5
1.0338      5
-1.161      5
-.1037      5
2.0470      5
2.3613      5
 .1222      5

Contrasti in analisi diverse da (M) ANOVA .

Ovunque compaiano i predittori nominali, sorge la questione del contrasto (quale tipo di contrasto selezionare per quale predittore). Alcuni programmi lo risolvono internamente dietro le quinte quando i risultati complessivi, onnibus, non dipenderanno dal tipo selezionato. Se vuoi un tipo specifico per vedere più risultati "elementari", devi selezionare. Seleziona (o, piuttosto, componi) un contrasto anche quando stai testando un'ipotesi di confronto personalizzata.

(M) ANOVA e analisi loglineare, modelli lineari misti e talvolta generalizzati includono opzioni per il trattamento dei predittori attraverso diversi tipi di contrasti. Ma come ho provato a mostrare, è possibile creare contrasti come variabili di contrasto esplicitamente e manualmente. Quindi, se non hai il pacchetto ANOVA a portata di mano, potresti farlo - per molti aspetti con buona fortuna - con regressione multipla.


1
per favore non limitare questa risposta solo ad anova, se possibile. Il tag [anova] è stato aggiunto da @amoeba quando hai risposto alla mia domanda, ma non voglio che la risposta sia limitata solo ad anova.
Curioso il

CLCL

@amoeba, non ho familiarità con "matrice di contrasto" e quasi sicuro che sta per "matrice del coefficiente di contrasto" o matrice L, che è un termine ufficiale o almeno diffuso in (M) ANOVA / GLM. Il termine "matrice di codifica a contrasto" è molto meno menzionato in quanto è semplicemente la vista aggravata della matrice di progettazione X; Ho visto la parola "matrice di base" usata nei documenti di uno statistico senior della SPSS, Dave Nichols. Assolutamente, le matrici L (etichetta ufficiale) e C (etichetta arbitraria?) Sono così strettamente correlate che difficilmente si può discutere l'una senza l'altra. Suppongo che "matrice di contrasto" dovrebbe essere considerata come questa coppia.
ttnphns,

1
Si, sono d'accordo. Ormai sono convinto che "matrice di contrasto" è un termine che viene utilizzato solo nella comunità R e si riferisce allo schema di codifica. Ho controllato il libro di testo a cui fa riferimento Gus_est e non usano mai il termine "matrice di contrasto", parlano solo di "contrasti" (vedi il mio ultimo commento sotto la sua risposta). L'OP stava chiaramente chiedendo "matrice di contrasto" in senso R.
ameba dice Ripristina Monica il

1
That L will determine what are you going to test, you aren't free anymore to choose what to testβi=0β1β2/2β3/2=0

17

Userò lettere minuscole per i vettori e lettere maiuscole per le matrici.

Nel caso di un modello lineare del modulo:

y=Xβ+ε

dove è una matrice di rango , e ipotizziamo .Xn×(k+1)k+1nεN(0,σ2)

Possiamo stimare di , poiché il esiste l' inverso di .β^(XX)1XyXX

Ora, per il caso ANOVA, abbiamo che non è più al completo. Ciò implica che non abbiamo e dobbiamo accontentarci del contrario generalizzato .X(XX)1(XX)

Uno dei problemi dell'utilizzo di questo inverso generalizzato è che non è unico. Un altro problema è che non possiamo trovare uno stimatore imparziale per , poiché β

β^=(XX)XyE(β^)=(XX)XXβ.

Pertanto, non possiamo stimare . Ma possiamo stimare una combinazione lineare di ?ββ

Abbiamo che una combinazione lineare di , diciamo , è stimabile se esiste un vettore tale che .βgβaE(ay)=gβ


I contrasti sono un caso speciale di funzioni stimabili in cui la somma dei coefficienti di è uguale a zero.g

E i contrasti emergono nel contesto dei predittori categorici in un modello lineare. (se controlli il manuale collegato da @amoeba, vedi che tutta la loro codifica del contrasto è correlata a variabili categoriali). Quindi, rispondendo a @Curious e @amoeba, vediamo che sorgono in ANOVA, ma non in un modello di regressione "pura" con solo predittori continui (possiamo anche parlare di contrasti in ANCOVA, poiché abbiamo alcune variabili categoriche in esso).


Ora, nel modello dove non è full-rank ed , la funzione lineare è stimabile se esiste un vettore tale che . Cioè, è una combinazione lineare delle righe di . Inoltre, ci sono molte scelte del vettore , tale che , come possiamo vedere nell'esempio seguente.

y=Xβ+ε
XE(y)=XβgβaaX=ggXaaX=g

Esempio 1

Considera il modello unidirezionale:

yij=μ+αi+εij,i=1,2,j=1,2,3.

X=[110110110101101101],β=[μτ1τ2]

Supponiamo , quindi vogliamo stimare .g=[0,1,1][0,1,1]β=τ1τ2

Possiamo vedere che ci sono diverse scelte del vettore che producono : take ; o ; oppure .aaX=ga=[0,0,1,1,0,0]a=[1,0,0,0,0,1]a=[2,1,0,0,1,2]


Esempio 2

Prendi il modello a due vie: .

yij=μ+αi+βj+εij,i=1,2,j=1,2

X=[11010110011011010101],β=[μα1α2β1β2]

Possiamo definire le funzioni stimabili prendendo combinazioni lineari delle righe di .X

Sottraendo la riga 1 dalle righe 2, 3 e 4 (di ): X

[11010000110110001111]

E prendendo le righe 2 e 3 dalla quarta fila:

[11010000110110000000]

Moltiplicando questo per ottiene: β

g1β=μ+α1+β1g2β=β2β1g3β=α2α1

Quindi, abbiamo tre funzioni stimabili linearmente indipendenti. Ora, solo e possono essere considerati contrasti, poiché la somma dei suoi coefficienti (o, la riga la somma del rispettivo vettore ) è uguale a zero.g2βg3βg


Tornando a un modello bilanciato a senso unico

yij=μ+αi+εij,i=1,2,,k,j=1,2,,n.

E supponiamo di voler testare l'ipotesi .H0:α1==αk

In questa impostazione la matrice non è a pieno titolo, quindi non è unica e non stimabile. Per renderlo stimabile, possiamo moltiplicare per , purché . In altre parole, è stimabile iff .Xβ=(μ,α1,,αk)βgigi=0igiαiigi=0

Perché questo è vero?

Sappiamo che è stimabile se esiste un vettore tale che . Prendendo le righe distinte di e , quindi: gβ=(0,g1,,gk)β=igiαiag=aXXa=[a1,,ak]

[0,g1,,gk]=g=aX=(iai,a1,,ak)

E il risultato segue.


Se desideriamo testare un contrasto specifico, la nostra ipotesi è . Ad esempio: , che può essere scritto come , quindi stiamo confrontando con la media di e .H0:giαi=0H0:2α1=α2+α3H0:α1=α2+α32α1α2α3

Questa ipotesi può essere espressa come , dove . In questo caso, e questa ipotesi con la seguente statistica: H0:gβ=0g=(0,g1,g2,,gk)q=1

F=[gβ^][g(XX)g]1gβ^SSE/k(n1).

Se è espresso come dove le righe della matrice sono contrasti reciprocamente ortogonali ( ), quindi possiamo testare usando la statistica , doveH0:α1=α2==αkGβ=0

G=[g1g2gk]
gigj=0H0:Gβ=0F=SSHrank(G)SSEk(n1)SSH=[Gβ^][G(XX)1G]1Gβ^.

Esempio 3

Per capirlo meglio, usiamo e supponiamo di voler testare che può essere espresso come k=4H0:α1=α2=α3=α4,

H0:[α1α2α1α3α1α4]=[000]

Oppure, come : H0:Gβ=0

H0:[011000101001011]G,our contrast matrix[μα1α2α3α4]=[000]

Quindi, vediamo che le tre file della nostra matrice di contrasto sono definite dai coefficienti dei contrasti di interesse. E ogni colonna indica il livello del fattore che stiamo usando nel nostro confronto.


Praticamente tutto ciò che ho scritto è stato preso / copiato (spudoratamente) da Rencher & Schaalje, "Modelli lineari in statistica", capitoli 8 e 13 (esempi, formulazione di teoremi, alcune interpretazioni), ma altre cose come il termine "matrice di contrasto "(che, in effetti, non appare in questo libro) e la sua definizione fornita qui era la mia.


Mettere in relazione la matrice di contrasto di OP con la mia risposta

Una delle matrici di OP (che si trova anche in questo manuale ) è la seguente:

> contr.treatment(4)
  2 3 4
1 0 0 0
2 1 0 0
3 0 1 0
4 0 0 1

In questo caso, il nostro fattore ha 4 livelli e possiamo scrivere il modello nel modo seguente: Questo può essere scritto sotto forma di matrice come:

[y11y21y31y41]=[μμμμ]+[a1a2a3a4]+[ε11ε21ε31ε41]

Oppure

[y11y21y31y41]=[11000101001001010001]X[μa1a2a3a4]β+[ε11ε21ε31ε41]

Ora, per l'esempio di codifica fittizia nello stesso manuale, usano come gruppo di riferimento. Pertanto, sottraggiamo la riga 1 da ogni altra riga nella matrice , che produce la :a1XX~

[11000011000101001001]

Se osservi la numerazione delle righe e delle colonne nella matrice contr.treatment (4), vedrai che considerano tutte le righe e solo le colonne correlate ai fattori 2, 3 e 4. Se facciamo lo stesso in i rendimenti della matrice sopra:

[000100010001]

In questo modo, la matrice del trattamento contr. (4) ci sta dicendo che stanno confrontando i fattori 2, 3 e 4 con il fattore 1 e confrontando il fattore 1 con la costante (questa è la mia comprensione di quanto sopra).

E, definendo (ovvero prendendo solo le righe che si sommano a 0 nella matrice sopra): G

[011000101001001]

Possiamo testare e trovare le stime dei contrasti.H0:Gβ=0

hsb2 = read.table('http://www.ats.ucla.edu/stat/data/hsb2.csv', header=T, sep=",")

y<-hsb2$write

dummies <- model.matrix(~factor(hsb2$race)+0)
X<-cbind(1,dummies)

# Defining G, what I call contrast matrix
G<-matrix(0,3,5)
G[1,]<-c(0,-1,1,0,0)
G[2,]<-c(0,-1,0,1,0)
G[3,]<-c(0,-1,0,0,1)
G
     [,1] [,2] [,3] [,4] [,5]
[1,]    0   -1    1    0    0
[2,]    0   -1    0    1    0
[3,]    0   -1    0    0    1

# Estimating Beta

X.X<-t(X)%*%X
X.y<-t(X)%*%y

library(MASS)
Betas<-ginv(X.X)%*%X.y

# Final estimators:
G%*%Betas
          [,1]
[1,] 11.541667
[2,]  1.741667
[3,]  7.596839

E le stime sono le stesse.


Correlare la risposta di @ttnphns alla mia.

Nel loro primo esempio, l'installazione ha un fattore categorico A con tre livelli. Possiamo scrivere questo come modello (supponiamo, per semplicità, che ): j=1

yij=μ+ai+εij,for i=1,2,3

E supponiamo di voler testare o , con come gruppo / fattore di riferimento.H0:a1=a2=a3H0:a1a3=a2a3=0a3

Questo può essere scritto sotto forma di matrice come:

[y11y21y31]=[μμμ]+[a1a2a3]+[ε11ε21ε31]

Oppure

[y11y21y31]=[110010101001]X[μa1a2a3]β+[ε11ε21ε31]

Ora, se sottraggiamo la riga 3 dalla riga 1 e la riga 2, abbiamo che diventa (lo chiamerò :XX~

X~=[010100111001]

Confronta le ultime 3 colonne della matrice sopra con la matrice di @ttnphns . Nonostante l'ordine, sono abbastanza simili. Infatti, se moltiplica , otteniamo:LX~β

[010100111001][μa1a2a3]=[a1a3a2a3μ+a3]

Quindi, abbiamo le funzioni stimabili: ; ; .c1β=a1a3c2β=a2a3c3β=μ+a3

Poiché , vediamo da quanto sopra che stiamo confrontando la nostra costante con il coefficiente per il gruppo di riferimento (a_3); il coefficiente del gruppo1 al coefficiente del gruppo3; e il coefficiente di gruppo2 rispetto al gruppo3. Oppure, come ha detto @ttnphns: "Vediamo immediatamente, seguendo i coefficienti, che la costante stimata sarà uguale alla media Y nel gruppo di riferimento; che il parametro b1 (cioè della variabile fittizia A1) sarà uguale alla differenza: media Y nel gruppo 1 meno Media Y nel gruppo 3 e il parametro b2 è la differenza: media nel gruppo 2 meno media nel gruppo 3 ".H0:ciβ=0

Inoltre, osserva che (seguendo la definizione di contrasto: funzione stimabile + somma riga = 0), che i vettori e sono contrasti. E, se creiamo una matrice di costrutti, abbiamo:c1c2G

G=[01010011]

La nostra matrice di contrasto per testareH0:Gβ=0

Esempio

Useremo gli stessi dati dell '"Esempio di contrasto definito dall'utente" di @ttnphns (vorrei ricordare che la teoria che ho scritto qui richiede alcune modifiche per considerare i modelli con interazioni, ecco perché ho scelto questo esempio. Tuttavia , le definizioni dei contrasti e - ciò che chiamo - la matrice di contrasto rimangono le stesse).

Y<-c(0.226,0.6836,-1.772,-0.5085,1.1836,0.5633,0.8709,0.2858,0.4057,-1.156,1.5199,
     -0.1388,0.4865,-0.7653,0.3418,-1.273,1.4042,-0.1622,0.3347,-0.4576,0.7585,0.4084,
     1.4165,-0.5138,0.9725,0.2373,-1.562,1.3985,0.0397,-0.4689,-1.499,-0.7654,0.1442,
     -1.404,-0.2201,-1.166,0.7282,0.9524,-1.462,-0.3478,0.5679,0.5608,1.0338,-1.161,
     -0.1037,2.047,2.3613,0.1222)

F_<-c(1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,3,3,3,3,3,3,3,3,3,3,3,4,4,4,4,4,4,4,4,4,
    5,5,5,5,5,5,5,5,5,5,5)

dummies.F<-model.matrix(~as.factor(F_)+0)

X_F<-cbind(1,dummies.F)

G_F<-matrix(0,4,6)
G_F[1,]<-c(0,3,3,-2,-2,-2)
G_F[2,]<-c(0,1,-1,0,0,0)
G_F[3,]<-c(0,0,0,2,-1,-1)
G_F[4,]<-c(0,0,0,0,1,-1)

 G 
 [,1] [,2] [,3] [,4] [,5] [,6]
[1,]    0    3    3   -2   -2   -2
[2,]    0    1   -1    0    0    0
[3,]    0    0    0    2   -1   -1
[4,]    0    0    0    0    1   -1

# Estimating Beta 

X_F.X_F<-t(X_F)%*%X_F
X_F.Y<-t(X_F)%*%Y

Betas_F<-ginv(X_F.X_F)%*%X_F.Y

# Final estimators:
G_F%*%Betas_F
           [,1]
[1,]  0.5888183
[2,] -0.1468029
[3,]  0.6115212
[4,] -0.9279030

Quindi, abbiamo gli stessi risultati.


Conclusione

Mi sembra che non ci sia un concetto che definisce una matrice di contrasto.

Se prendi la definizione di contrasto, data da Scheffe ("L'analisi della varianza", pagina 66), vedrai che è una funzione stimabile i cui coefficienti si sommano a zero. Quindi, se desideriamo testare diverse combinazioni lineari dei coefficienti delle nostre variabili categoriali, utilizziamo la matrice . Questa è una matrice in cui le righe si sommano a zero, che usiamo per moltiplicare la nostra matrice di coefficienti per renderli stimabili. Le sue righe indicano le diverse combinazioni lineari di contrasti che stiamo testando e le sue colonne indicano quali fattori (coefficienti) vengono confrontati.G

Poiché la matrice sopra è costruita in modo tale che ciascuna delle sue righe sia composta da un vettore di contrasto (che somma a 0), per me ha senso chiamare una "matrice di contrasto" ( Monahan - "Un primer sui modelli lineari" - usa anche questa terminologia).GG

Tuttavia, come ben spiegato da @ttnphns, i software chiamano qualcos'altro come "matrice di contrasto" e non sono riuscito a trovare una relazione diretta tra la matrice e i comandi / matrici incorporati da SPSS (@ttnphns ) o R (domanda del PO), solo somiglianze. Ma credo che la bella discussione / collaborazione presentata qui aiuterà a chiarire tali concetti e definizioni.G


per favore non limitare questa risposta solo ad anova, se possibile. Il tag [anova] è stato aggiunto da @amoeba quando hai risposto alla mia domanda, ma non voglio che la risposta sia limitata solo ad anova.
Curioso il

Grazie mille per un aggiornamento così grande. Ho rimosso alcuni dei miei commenti sopra che erano ormai obsoleti (è possibile rimuovere alcuni dei tuoi, ad esempio il primo). Tuttavia, ormai mi è chiaro che la "matrice di contrasto" nel tuo senso (e di Monahan) è qualcosa di completamente diverso dalla "matrice di contrasto" nel senso in cui è usata in questo manuale R e anche nella domanda originale qui (cosa chiama ttnphns C-matrice). Penso che avrebbe senso se prendessi una nota da qualche parte nella tua risposta su questa differenza.
ameba dice Ripristina Monica l'

Sto avendo problemi con la comprensione a partire proprio dall'Esempio 1. Cosa sono an nella tua notazione ? Che cos'è e cosa rappresentano le colonne di ? Quel termine costante (colonna di quelli) e le due variabili fittizie? ijyijaiX
ttnphns

@ttnphns: sta indicizzando il gruppo (ci sono due gruppi nell'esempio 1), sta indicizzando il punto dati all'interno di ciascun gruppo. è una costante e sono costanti per ciascun gruppo in modo tale che sono medie di gruppo (quindi può essere media totale e può essere una deviazione delle medie di gruppo dalla media totale). Le colonne di sono termine costante e due manichini, sì. ijμαiμ+αiμαiX
ameba dice Ripristina Monica l'

Grazie per questa risposta, ma probabilmente non sarò mai in grado né avrò tempo di capirla. E ho studiato matematica :-) Mi aspettavo una definizione molto semplice come risposta :-)
Curioso

7

"Matrice di contrasto" non è un termine standard nella letteratura statistica. Può avere [almeno] due correlati con significati distinti:

  1. Una matrice che specifica una particolare ipotesi nulla in una regressione ANOVA (non correlata allo schema di codifica), in cui ogni riga è un contrasto . Questo non è un uso standard del termine. Ho usato la ricerca a testo integrale in Christensen Plane Answers to Complex Questions , Rutherford Presentazione di ANOVA e ANCOVA; GLM Approach e Rencher & Schaalje Linear Models in Statistics . Parlano tutti molto di "contrasti" ma non menzionano mai il termine "matrice di contrasto". Tuttavia, come ha scoperto @Gus_est, questo termine è usato in A Primer sui modelli lineari di Monahan .

  2. Una matrice che specifica lo schema di codifica per la matrice di progettazione in una regressione ANOVA. Ecco come viene usato il termine "matrice di contrasto" nella comunità R (vedere ad esempio questo manuale o questa pagina di aiuto ).

La risposta di @Gus_est esplora il primo significato. La risposta di @ttnphns esplora il secondo significato (lo chiama "matrice di codifica del contrasto" e discute anche di "matrice del coefficiente di contrasto", che è un termine standard nella letteratura SPSS).


La mia comprensione è che stavi chiedendo il significato n. 2, quindi ecco la definizione:

"Matrice Contrasto" nel senso R è matrice dove è il numero di gruppi, specificando come appartenenza al gruppo è codificato nella progettazione matrice . In particolare, se un'osservazione -esima appartiene al gruppo allora .k×kCkXmiXmj=Cij

Nota: di solito la prima colonna di è la colonna di tutte (corrispondente alla colonna di intercettazione nella matrice del disegno). Quando chiami comandi R come , ottieni matrix senza questa prima colonna.Ccontr.treatment(4)C


Ho intenzione di estendere questa risposta per fare un commento esteso su come le risposte di @ttnphns e @Gus_est si incastrano.


The answer by @Gus_est explores the first meaning. The answer by @ttnphns explores the second meaning.Protesto. (E sono sorpreso di sentire - dopo che entrambi abbiamo avuto una lunga conversazione sulle definizioni nei commenti alla risposta mty.) Ho invitato due termini: matrice del coefficiente di contrasto (dove le file sono i contrasti, combinazione lineare dei mezzi) aka L-matrix, e matrice dello schema di codifica del contrasto , detta anche matrice C. Entrambi sono correlati, ne ho discusso entrambi.
ttnphns,

(cont.) matrice di contrasto coefficiente L è un termine standard in ANOVA / Generale lineare modello, utilizzato nei testi e nei documenti SPSS, per esempio . Gli schemi di codifica vedi qui .
ttnphns,

You were asking about meaning #2In realtà non siamo sicuri del significato del termine implicito nel PO. L'OP ha mostrato alcuni esempi di schemi di codifica del contrasto, non significa necessariamente che non fosse interessato alle matrici L.
ttnphns

1
Sono felice che parliamo un po 'la stessa lingua adesso. Sembra di sì, almeno. Sarebbe fantastico per tutti, specialmente per i lettori di visitatori, se riuscissi a ottenere la tua risposta, mostrando come i rapporti di Gus e ttnphns si convertissero allo stesso risultato. Se vuoi realizzare.
ttnphns,

1
(cont.) Naturalmente la matrice L in entrambi gli "approcci" è la stessa (e non è necessaria una misteriosa matrice G). Mostra che due percorsi equivalenti (L è arbitrario, X è manichini): L -> XC -> regression -> resulte X -> [regression -> adjusting to test for L] -> resultlascia lo stesso risultato. Il secondo percorso è come farà un programma ANOVA (la parte tra parentesi []); il 1 ° percorso è una dimostrazione didattica di come i contrasti siano risolvibili solo attraverso un programma di regressione.
ttnphns,

3

Un contrasto confronta due gruppi confrontando la loro differenza con zero. In una matrice di contrasto le righe sono i contrasti e devono aggiungere a zero, le colonne sono i gruppi. Per esempio:

Diciamo che hai 4 gruppi A, B, C, D che vuoi confrontare, quindi la matrice di contrasto sarebbe:

Gruppo: ABCD
A vs B: 1 -1 0 0
C vs D: 0 0 -1 1
A, B vs D, C: 1 1 -1 -1

Parafrasando dalla comprensione della sperimentazione industriale :

Se c'è un gruppo di k oggetti da confrontare, con medie di sottogruppi di k, su questo insieme di oggetti k viene definito un contrasto da qualsiasi insieme di coefficienti k, [c1, c2, c3, ... cj, ..., ck ] che somma a zero.

Lascia che C sia un contrasto allora,

C=c1μ1+c2μ2+...cjμj+...ckμk

C=j=1kcjμj

con il vincolo

j=1kcj=0

Quei sottogruppi a cui è assegnato un coefficiente pari a zero verranno esclusi dal confronto. (*)

Sono i segni dei coefficienti che definiscono effettivamente il confronto, non i valori scelti. I valori assoluti dei coefficienti possono essere qualsiasi cosa purché la somma dei coefficienti sia zero.

(*) Ogni software statistico ha un modo diverso di indicare quali sottogruppi saranno esclusi / inclusi.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.