In che modo MANOVA è correlato a LDA?


18

In diversi punti ho visto l'affermazione secondo cui MANOVA è come ANOVA più l'analisi discriminante lineare (LDA), ma è stata sempre fatta in un modo agitando la mano. Vorrei sapere cosa significa esattamente .

Ho trovato vari libri di testo che descrivono tutti i dettagli dei calcoli MANOVA, ma sembra molto difficile trovare una buona discussione generale (figuriamoci le immagini ) accessibile a qualcuno che non è uno statistico.


2
I miei resoconti locali di ANOVA e MANOVA relativi alla LDA sono questo , questo . Forse stanno agitando la mano, ma affrontano il tuo argomento in una certa misura. La chiave dicendo è che "LDA è MANOVA sommerso nella struttura latente". MANOVA è una struttura di verifica delle ipotesi molto ricca; tra l'altro può analizzare la struttura latente delle differenze; questa analisi include LDA.
ttnphns,

1
@ttnphns, temo che il mio commento precedente non sia stato consegnato (ho dimenticato di inserire il tuo nome utente), quindi lasciami ripetere: Wow, grazie mille, le tue risposte collegate sembrano essere molto correlate alla mia domanda e devo averle perse nella mia ricerca prima di pubblicare. Mi ci vorrà del tempo per digerirli e potrei tornare da te dopo quello, ma forse potresti già ora indicarmi alcuni documenti / libri che trattano questi argomenti? Mi piacerebbe vedere una discussione dettagliata di questa roba nello stile delle sue risposte collegate.
ameba dice che ripristini Monica il

Solo un vecchio e classico account webia.lip6.fr/~amini/Cours/MASTER_M2_IAD/TADTI/HarryGlahn.pdf . A proposito, non l'ho letto da solo finora. Un altro articolo correlato dl.acm.org/citation.cfm?id=1890259 .
ttnphns,

@ttnphns: grazie. Ho scritto io stesso una risposta alla mia domanda, sostanzialmente fornendo alcune illustrazioni e un esempio specifico alla tua eccellente risposta collegata su LDA / MANOVA. Penso che si completino bene.
ameba dice di reintegrare Monica il

Risposte:


21

In poche parole

Sia MANOVA unidirezionale e LDA iniziano con decomposizione totale matrice dispersione nella matrice di dispersione all'interno della classe W e tra classe matrice dispersione B , tale che T = W + B . Si noti che questo è completamente analogo a come ANOVA decompone somma dei quadrati T in meno di classe e tra classe somme dei quadrati: T = B + W . In ANOVA viene quindi calcolato un rapporto B / N che viene utilizzato per trovare il valore p: maggiore è questo rapporto, minore è il valore p. MANOVA e LDA compongono un'analoga quantità multivariata W - 1TWBT=W+BTT=B+WB/W .W1B

Da qui in poi sono diversi. L'unico scopo di MANOVA è verificare se i mezzi di tutti i gruppi sono gli stessi; questa ipotesi nulla significherebbe che dovrebbe essere di dimensioni simili a W . Quindi MANOVA esegue una composizione eigend di W - 1 B e trova i suoi autovalori λ i . L'idea è ora di verificare se sono abbastanza grandi da rifiutare il nulla. Esistono quattro modi comuni per formare una statistica scalare dall'intero insieme di autovalori λ i . Un modo è quello di prendere la somma di tutti gli autovalori. Un altro modo è prendere l'autovalore massimo. In ogni caso, se la statistica scelta è abbastanza grande, l'ipotesi nulla viene respinta.BWW1Bλiλi

Al contrario, LDA esegue la composizione automatica di e osserva gli autovettori (non gli autovalori). Questi autovettori definiscono le direzioni nello spazio variabile e sono chiamati assi discriminanti . La proiezione dei dati sul primo asse discriminante ha una separazione della classe più alta (misurata come B / N ); sul secondo un secondo più alto; ecc. Quando si utilizza LDA per la riduzione della dimensionalità, i dati possono essere proiettati ad es. sui primi due assi e quelli rimanenti vengono scartati.W1BB/W

Vedi anche un'eccellente risposta di @ttnphns in un altro thread che copre quasi lo stesso terreno.

Esempio

Consideriamo un caso a senso unico con variabili dipendenti e k = 3 gruppi di osservazioni (cioè un fattore con tre livelli). Prenderò il noto set di dati Iris di Fisher e considererò solo la lunghezza e la larghezza del sepal (per renderlo bidimensionale). Ecco il diagramma a dispersione:M=2k=3

Trama scatter Fisher Iris

Possiamo iniziare con il calcolo degli ANOVA con lunghezza / larghezza sepal separatamente. Immagina punti dati proiettati verticalmente o orizzontalmente sugli assi xey, e ANOVA a 1 via eseguito per verificare se tre gruppi hanno gli stessi mezzi. Otteniamo e p = 10 - 31 per la lunghezza del sepal e F 2 , 147 = 49 e p = 10 - 17 per la larghezza del sepal. Va bene, quindi il mio esempio è piuttosto negativo in quanto tre gruppi sono significativamente diversi con valori p ridicoli su entrambe le misure, ma mi atterrò comunque.F2,147=119p=1031F2,147=49p=1017

Ora possiamo eseguire LDA per trovare un asse che separa al massimo tre cluster. Come descritto in precedenza, calcoliamo matrice completa dispersione , entro classe matrice dispersione W e la matrice di dispersione tra classe B = T - W e trovare autovettori di W - 1 B . Posso tracciare entrambi gli autovettori sullo stesso diagramma a dispersione:TWB=TWW1B

Fisher Iris LDA

Le linee tratteggiate sono assi discriminanti. Li ho tracciati con lunghezze arbitrarie, ma l'asse più lungo mostra l'autovettore con autovalore più grande (4.1) e quello più corto --- quello con autovalore più piccolo (0.02). Si noti che non sono ortogonali, ma la matematica di LDA garantisce che le proiezioni su questi assi abbiano una correlazione zero.

Se ora proiettiamo i nostri dati sul primo (più lungo) asse discriminante e quindi eseguiamo l'ANOVA, otteniamo e p = 10 - 53 , che è più basso di prima ed è il valore più basso possibile tra tutte le proiezioni lineari (che era il punto centrale di LDA). La proiezione sul secondo asse dà solo p = 10 - 5 .F=305p=1053p=105

Se eseguiamo MANOVA sugli stessi dati, calcoliamo la stessa matrice e osserviamo i suoi autovalori per calcolare il valore p. In questo caso l'autovalore più grande è uguale a 4,1, che è pari a B / W per ANOVA lungo la prima discriminante (anzi, F = B / W ( N - k ) / ( k - 1 ) = 4,1 147 / 2 = 305 , dove N = 150 è il numero totale di punti dati eW1BB/WF=B/W(Nk)/(k1)=4.1147/2=305N=150 è il numero di gruppi).k=3

Esistono diversi test statistici di uso comune che calcolano il valore p dall'eigenspectrum (in questo caso e λ 2 = 0,02 ) e danno risultati leggermente diversi. MATLAB mi dà il test di Wilks, che riporta p = 10 - 55 . Si noti che questo valore è inferiore a quello che avevamo prima con qualsiasi ANOVA e l'intuizione qui è che il valore p di MANOVA "combina" due valori p ottenuti con ANOVA su due assi discriminanti.λ1=4.1λ2=0.02p=1055

F(8,4)

Fisher Iris LDA modificato

p=1055p=0.26p=10545p0.05p

MANOVA vs LDA come apprendimento automatico vs. statistiche

Questo mi sembra ora uno dei casi esemplari di come diverse comunità di apprendimento automatico e comunità statistica si avvicinano alla stessa cosa. Ogni libro di testo sull'apprendimento automatico copre LDA, mostra belle immagini ecc. Ma non menzionerebbe mai MANOVA (ad esempio Bishop , Hastie e Murphy ). Probabilmente perché le persone lì sono più interessate all'accuratezza della classificazione LDA (che corrisponde all'incirca alla dimensione dell'effetto) e non hanno interesse per il significato statistico della differenza di gruppo. D'altra parte, i libri di testo sull'analisi multivariata discuterebbero di MANOVA fino alla nausea, fornirebbero molti dati tabulati (arrrgh) ma menzionano raramente LDA e ancora più raramente mostrano diagrammi (ad es.Anderson o Harris ; tuttavia, Rencher & Christensen do e Huberty & Olejnik sono persino chiamati "MANOVA e analisi discriminanti").

MANOVA fattoriale

La MANOVA fattoriale è molto più confusa, ma è interessante da considerare perché differisce dalla LDA, nel senso che la "LDA fattoriale" non esiste realmente, e la MANOVA fattoriale non corrisponde direttamente a nessuna "normale LDA".

32=6

MANOVA fattoriale

Su questa figura tutte e sei le "cellule" (le chiamerò anche "gruppi" o "classi") sono ben separate, cosa che ovviamente accade raramente nella pratica. Si noti che è ovvio che ci sono significativi effetti principali di entrambi i fattori qui, e anche un significativo effetto di interazione (perché il gruppo in alto a destra viene spostato a destra; se lo spostassi nella sua posizione "griglia", allora non ci sarebbe effetto di interazione).

Come funzionano i calcoli MANOVA in questo caso?

WBABAW1BA

BBBAB

T=BA+BB+BAB+W.
Bnon può essere scomposto in modo univoco in una somma di contributi di tre fattori perché i fattori non sono più ortogonali; questo è simile alla discussione di tipo I / II / III SS in ANOVA.]

BAWA=TBA

W1BA


+1, è stato un bel resoconto. Ho cambiato B^-1 Win W^-1 B. La tua immagine con discriminanti come assi è simile alla mia stessa trama ; credo che tu abbia usato lo stesso approccio di "rotazione non ortogonale secondo gli autovettori normalizzati".
ttnphns,

Ho trovato un po 'confuso MANOVA accounts for the fact that we fitted the discriminant axis to get the minimum possible value and corrects for possible false positive. MANOVA ovviamente non sa che facciamo LDA. MANOVA consuma semplicemente più df di ANOVA, perché è un test bidimensionale, ecco perché la potenza del valore p deve essere -54 anziché -55.
ttnphns,

Dubito che dovrebbe parlare in termini di valori p. Invece, il punto chiave che MANOVA analizza la stessa matrice W^-1 Bdi LDA. LDA costruisce variabili latenti (i discriminanti) da esso. MANOVA no; tuttavia, esamina la matrice sopra descritta in modo più completo, calcolando varie statistiche (come la traccia di Pillai, la traccia di Hotteling), per basare i test su di esse.
ttnphns,

La trama che sarà la metafora di MANOVA (e penso che potresti voler aggiungerla alla tua risposta) in contrasto con LDA (la tua seconda foto) sarebbe la trama su cui i 3 centroidi sono collegati al centroide centrale da linee tratteggiate .
ttnphns,

Infine, non credo che tu abbia la giusta ponderazione della differenza nelle statistiche e nell'apprendimento automatico. Ho imparato l'analisi dei dati statistici prima di sentire la parola machine learningla prima volta. E i testi che ho letto hanno poi discusso molto di LDA, insieme a MANOVA.
ttnphns,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.