In che modo l'analisi discriminante lineare riduce le dimensioni?


18

Ci sono parole da "Gli elementi dell'apprendimento statistico" a pagina 91:

I centroidi K nello spazio di input p-dimensionale si estendono nella maggior parte del sottospazio dimensionale K-1 e se p è molto più grande di K, si tratterà di un notevole calo di dimensioni.

Ho due domande:

  1. Perché i centroidi K nello spazio di input p-dimensionale si estendono nella maggior parte del sottospazio dimensionale K-1?
  2. Come si trovano i centroidi K?

Non c'è spiegazione nel libro e non ho trovato la risposta dai documenti correlati.


3
I centroidi trovano in un sottospazio affine al massimo K - 1 dimensionale . Ad esempio, due punti si trovano su una linea, un sottospazio 2 - 1 dimensionale. Questa è solo la definizione di sottospazio affine e algebra lineare elementare. KK-12-1
dal

Una domanda molto simile: stats.stackexchange.com/q/169436/3277 .
ttnphns,

Risposte:


16

mion(K-1,p)

inserisci qui la descrizione dell'immagine

L'algebra di LDA nella fase di estrazione è qui .


Bel grafico, quale software / pacchetto hai usato per crearlo?
Michelle,

SPSS. Macro auto-scritta per SPSS.
ttnphns,

Questo significa che non vedrai una buona separazione delle classi in un LDA con, diciamo, tre classi con sovrapposizione, fino a quando non ridimensionerai l'asse ?? Voglio dire, sto gestendo un LDA, e le mie classi si separano ... ma sono proprio l'uno sopra l'altro in ogni asse discriminante tranne il primo ... e quello è enorme.
donlan,

14

Mentre "The Elements of Statistical Learning" è un libro brillante, richiede un livello relativamente elevato di conoscenza per ottenere il massimo da esso. Ci sono molte altre risorse sul web per aiutarti a comprendere gli argomenti del libro.

Facciamo un esempio molto semplice di analisi lineare discriminante in cui si desidera raggruppare un insieme di punti di dati bidimensionali in gruppi K = 2. Il calo delle dimensioni sarà solo K-1 = 2-1 = 1. Come spiegato da @deinst, il calo delle dimensioni può essere spiegato con una geometria elementare.

Due punti in qualsiasi dimensione possono essere uniti da una linea e una linea è unidimensionale. Questo è un esempio di sottospazio dimensionale K-1 = 2-1 = 1.

Ora, in questo semplice esempio, l'insieme dei punti dati sarà sparso nello spazio bidimensionale. I punti saranno rappresentati da (x, y), quindi ad esempio potresti avere punti dati come (1,2), (2,1), (9,10), (13,13). Ora, usando l'analisi discriminante lineare per creare due gruppi A e B, i punti dati verranno classificati come appartenenti al gruppo A o al gruppo B in modo tale da soddisfare determinate proprietà. L'analisi discriminante lineare tenta di massimizzare la varianza tra i gruppi rispetto alla varianza all'interno dei gruppi.

In altre parole, i gruppi A e B saranno distanti e conterranno punti dati vicini. In questo semplice esempio, è chiaro che i punti saranno raggruppati come segue. Gruppo A = {(1,2), (2,1)} e Gruppo B = {(9,10), (13,13)}.

Ora, i centroidi sono calcolati come i centroidi dei gruppi di punti dati così

Centroid of group A = ((1+2)/2, (2+1)/2) = (1.5,1.5) 

Centroid of group B = ((9+13)/2, (10+13)/2) = (11,11.5)

I Centroidi sono semplicemente 2 punti e si estendono su una linea monodimensionale che li unisce.

Figura 1

Puoi pensare all'analisi discriminante lineare come a una proiezione dei punti dati su una linea in modo che i due gruppi di punti dati siano "separati il ​​più possibile"

Se avessi tre gruppi (e dicessi punti dati tridimensionali), otterrai tre centroidi, semplicemente tre punti e tre punti nello spazio 3D che definiscono un piano bidimensionale. Ancora una volta la regola K-1 = 3-1 = 2 dimensioni.

Ti suggerisco di cercare nel Web risorse che ti aiuteranno a spiegare ed espandere la semplice introduzione che ti ho dato; ad esempio http://www.music.mcgill.ca/~ich/classes/mumt611_07/classifiers/lda_theory.pdf


1
Benvenuti sul nostro sito, Martino!
whuber

grazie @whuber, bel grafico, non avevo tali strumenti a portata di mano :(
martino,

Non pensavo che avessi la reputazione di pubblicare un'immagine comunque, Martino: ecco perché ne ho fatta una per te. Ma ora - o presto - avrai abbastanza rappresentante. Se nulla è utile, è possibile utilizzare software liberamente disponibili con funzionalità di disegno geometrico come R o Geogebra . (
Scoprirai

Perché il downvote? Se c'è un problema con la risposta, sarebbe utile segnalarlo - non riesco a vederne uno
martino,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.