In poche parole
Sia MANOVA unidirezionale e LDA iniziano con decomposizione totale matrice dispersione nella matrice di dispersione all'interno della classe W e tra classe matrice dispersione B , tale che T = W + B . Si noti che questo è completamente analogo a come ANOVA decompone somma dei quadrati T in meno di classe e tra classe somme dei quadrati: T = B + W . In ANOVA viene quindi calcolato un rapporto B / N che viene utilizzato per trovare il valore p: maggiore è questo rapporto, minore è il valore p. MANOVA e LDA compongono un'analoga quantità multivariata W - 1TWBT=W+BTT=B+WB/W .W−1B
Da qui in poi sono diversi. L'unico scopo di MANOVA è verificare se i mezzi di tutti i gruppi sono gli stessi; questa ipotesi nulla significherebbe che dovrebbe essere di dimensioni simili a W . Quindi MANOVA esegue una composizione eigend di W - 1 B e trova i suoi autovalori λ i . L'idea è ora di verificare se sono abbastanza grandi da rifiutare il nulla. Esistono quattro modi comuni per formare una statistica scalare dall'intero insieme di autovalori λ i . Un modo è quello di prendere la somma di tutti gli autovalori. Un altro modo è prendere l'autovalore massimo. In ogni caso, se la statistica scelta è abbastanza grande, l'ipotesi nulla viene respinta.BWW−1Bλiλi
Al contrario, LDA esegue la composizione automatica di e osserva gli autovettori (non gli autovalori). Questi autovettori definiscono le direzioni nello spazio variabile e sono chiamati assi discriminanti . La proiezione dei dati sul primo asse discriminante ha una separazione della classe più alta (misurata come B / N ); sul secondo un secondo più alto; ecc. Quando si utilizza LDA per la riduzione della dimensionalità, i dati possono essere proiettati ad es. sui primi due assi e quelli rimanenti vengono scartati.W−1BB/W
Vedi anche un'eccellente risposta di @ttnphns in un altro thread che copre quasi lo stesso terreno.
Esempio
Consideriamo un caso a senso unico con variabili dipendenti e k = 3 gruppi di osservazioni (cioè un fattore con tre livelli). Prenderò il noto set di dati Iris di Fisher e considererò solo la lunghezza e la larghezza del sepal (per renderlo bidimensionale). Ecco il diagramma a dispersione:M=2k=3
Possiamo iniziare con il calcolo degli ANOVA con lunghezza / larghezza sepal separatamente. Immagina punti dati proiettati verticalmente o orizzontalmente sugli assi xey, e ANOVA a 1 via eseguito per verificare se tre gruppi hanno gli stessi mezzi. Otteniamo e p = 10 - 31 per la lunghezza del sepal e F 2 , 147 = 49 e p = 10 - 17 per la larghezza del sepal. Va bene, quindi il mio esempio è piuttosto negativo in quanto tre gruppi sono significativamente diversi con valori p ridicoli su entrambe le misure, ma mi atterrò comunque.F2,147=119p=10−31F2,147=49p=10−17
Ora possiamo eseguire LDA per trovare un asse che separa al massimo tre cluster. Come descritto in precedenza, calcoliamo matrice completa dispersione , entro classe matrice dispersione W e la matrice di dispersione tra classe B = T - W e trovare autovettori di W - 1 B . Posso tracciare entrambi gli autovettori sullo stesso diagramma a dispersione:TWB=T−WW−1B
Le linee tratteggiate sono assi discriminanti. Li ho tracciati con lunghezze arbitrarie, ma l'asse più lungo mostra l'autovettore con autovalore più grande (4.1) e quello più corto --- quello con autovalore più piccolo (0.02). Si noti che non sono ortogonali, ma la matematica di LDA garantisce che le proiezioni su questi assi abbiano una correlazione zero.
Se ora proiettiamo i nostri dati sul primo (più lungo) asse discriminante e quindi eseguiamo l'ANOVA, otteniamo e p = 10 - 53 , che è più basso di prima ed è il valore più basso possibile tra tutte le proiezioni lineari (che era il punto centrale di LDA). La proiezione sul secondo asse dà solo p = 10 - 5 .F=305p=10−53p=10−5
Se eseguiamo MANOVA sugli stessi dati, calcoliamo la stessa matrice e osserviamo i suoi autovalori per calcolare il valore p. In questo caso l'autovalore più grande è uguale a 4,1, che è pari a B / W per ANOVA lungo la prima discriminante (anzi, F = B / W ⋅ ( N - k ) / ( k - 1 ) = 4,1 ⋅ 147 / 2 = 305 , dove N = 150 è il numero totale di punti dati eW−1BB/WF=B/W⋅(N−k)/(k−1)=4.1⋅147/2=305N=150 è il numero di gruppi).k=3
Esistono diversi test statistici di uso comune che calcolano il valore p dall'eigenspectrum (in questo caso e λ 2 = 0,02 ) e danno risultati leggermente diversi. MATLAB mi dà il test di Wilks, che riporta p = 10 - 55 . Si noti che questo valore è inferiore a quello che avevamo prima con qualsiasi ANOVA e l'intuizione qui è che il valore p di MANOVA "combina" due valori p ottenuti con ANOVA su due assi discriminanti.λ1=4.1λ2=0.02p=10−55
F(8,4)
p=10−55p=0.26p=10−54∼5p≈0.05p
MANOVA vs LDA come apprendimento automatico vs. statistiche
Questo mi sembra ora uno dei casi esemplari di come diverse comunità di apprendimento automatico e comunità statistica si avvicinano alla stessa cosa. Ogni libro di testo sull'apprendimento automatico copre LDA, mostra belle immagini ecc. Ma non menzionerebbe mai MANOVA (ad esempio Bishop , Hastie e Murphy ). Probabilmente perché le persone lì sono più interessate all'accuratezza della classificazione LDA (che corrisponde all'incirca alla dimensione dell'effetto) e non hanno interesse per il significato statistico della differenza di gruppo. D'altra parte, i libri di testo sull'analisi multivariata discuterebbero di MANOVA fino alla nausea, fornirebbero molti dati tabulati (arrrgh) ma menzionano raramente LDA e ancora più raramente mostrano diagrammi (ad es.Anderson o Harris ; tuttavia, Rencher & Christensen do e Huberty & Olejnik sono persino chiamati "MANOVA e analisi discriminanti").
MANOVA fattoriale
La MANOVA fattoriale è molto più confusa, ma è interessante da considerare perché differisce dalla LDA, nel senso che la "LDA fattoriale" non esiste realmente, e la MANOVA fattoriale non corrisponde direttamente a nessuna "normale LDA".
3⋅2=6
Su questa figura tutte e sei le "cellule" (le chiamerò anche "gruppi" o "classi") sono ben separate, cosa che ovviamente accade raramente nella pratica. Si noti che è ovvio che ci sono significativi effetti principali di entrambi i fattori qui, e anche un significativo effetto di interazione (perché il gruppo in alto a destra viene spostato a destra; se lo spostassi nella sua posizione "griglia", allora non ci sarebbe effetto di interazione).
Come funzionano i calcoli MANOVA in questo caso?
WBABAW−1BA
BBBAB
T=BA+BB+BAB+W.
Bnon può essere scomposto in modo univoco in una somma di contributi di tre fattori perché i fattori non sono più ortogonali; questo è simile alla discussione di tipo I / II / III SS in ANOVA.]
BAWA=T−BA
W−1BA