Calcola e traccia il grafico del limite di decisione LDA


19

Ho visto un diagramma LDA (linear discriminant analysis) con limiti di decisione da The Elements of Statistical Learning :inserisci qui la descrizione dell'immagine

Comprendo che i dati vengono proiettati su un sottospazio di dimensione inferiore. Tuttavia, vorrei sapere come ottenere i limiti di decisione nella dimensione originale in modo da poter proiettare i limiti di decisione su un sottospazio di dimensione inferiore (come le linee nere nell'immagine sopra).

Esiste una formula che posso usare per calcolare i confini della decisione nella dimensione originale (superiore)? Se sì, quali input sono necessari per questa formula?


3
Invece di limiti di decisione, probabilmente troverai più utilità nel considerare le probabilità posteriori dell'appartenenza alla classe. Questo può essere fatto con un minor numero di ipotesi utilizzando la regressione logistica politomica (multinomiale), ma può anche essere fatto con LDA (probabilità posteriore).
Frank Harrell,

2
All'interno della LDA, tali confini di classificazione costituiscono ciò che è noto una mappa territoriale . Lavoro con SPSS e lo traccia , anche se in formato testo. Secondo un progettista SPSS, i confini si trovano facilmente con un approccio pratico:
ttnphns,

3
(cont.) ogni punto di una griglia fine è classificato LDA, e quindi se un punto è stato classificato come i suoi vicini, quel punto non viene mostrato. Quindi solo i confini come "bande di ambiguità" sono lasciati alla fine. Citazione: they (bondaries) are never computed. The plot is drawn by classifying every character cell in it, then blanking out all those surrounded by cells classified into the same category.
ttnphns,

Risposte:


22

Questa figura particolare in Hastie et al. è stato prodotto senza calcolare le equazioni dei limiti di classe. Invece, è stato utilizzato l'algoritmo delineato da @ttnphns nei commenti, vedere la nota 2 nella sezione 4.3, pagina 110:

Per questa figura e molte altre figure simili nel libro calcoliamo i confini delle decisioni con un metodo di contornatura completo. Calcoliamo la regola di decisione su un reticolo di punti, quindi utilizziamo algoritmi di contornatura per calcolare i confini.

Tuttavia, procederò con la descrizione di come ottenere equazioni dei limiti della classe LDA.

Cominciamo con un semplice esempio 2D. Ecco i dati dal set di dati di Iris ; Scarto le misure del petalo e considero solo la lunghezza e la larghezza del sepal. Tre classi sono contrassegnate con i colori rosso, verde e blu:

Set di dati dell'iride

Indichiamo medie di classe (centroidi) come . LDA presume che tutte le classi abbiano la stessa covarianza all'interno della classe; dati i dati, questa matrice di covarianza condivisa è stimata (fino al ridimensionamento) come W = i ( xμ1,μ2,μ3 , dove la somma è sopra tutti i punti dati e il centroide del rispettivo la classe viene sottratta da ogni punto.W=i(xiμk)(xiμk)

Per ogni coppia di classi (ad esempio classe e 2 ) c'è un limite di classe tra di loro. È ovvio che il confine deve passare attraverso il punto medio tra i due centroidi classe ( μ 1 + μ 2 ) / 212(μ1+μ2)/2 . Uno dei risultati LDA centrali è che questo limite è una linea retta ortogonale a . Esistono diversi modi per ottenere questo risultato, e anche se non faceva parte della domanda, accennerò brevemente a tre di essi nell'Appendice di seguito.W1(μ1μ2)

Nota che ciò che è scritto sopra è già una specifica precisa del confine. Se si vuole avere un'equazione linea nel modulo standard , quindi coefficienti un e b possono essere calcolati e sarà dato da alcune formule disordinato. Difficilmente riesco a immaginare una situazione in cui ciò sarebbe necessario.y=ax+bab

Ora applichiamo questa formula all'esempio di Iris. Per ogni coppia di classi trovo un punto medio e traccia una linea perpendicolare a :W1(μiμj)

LDA del set di dati di Iris, limiti di decisione

Tre linee si intersecano in un punto, come avrebbe dovuto essere previsto. I limiti di decisione sono dati dai raggi a partire dal punto di intersezione:

LDA del set di dati di Iris, confini delle decisioni finali

Si noti che se il numero di classi è K2K(K1)/2

In dimensioni la formula rimane esattamente la stessa : il confine è ortogonale a W - 1 ( μ 1 - μ 2 ) e passa attraverso ( μ 1D>2W1(μ1μ2)(μ1+μ2)/2D1

Appendice

Come vedere che il confine è una linea retta ortogonale a W1(μ1μ2)

  1. Il modo elegante: W1μ1μ2

  2. xk(xμk)W1(xμk)12xW1(μ1μ2)=const

  3. Wμ1μ2WW=UDUS=D1/2USS(μ1μ2)S1SS(μ1μ2)S


Non ho studiato la tua risposta. Sembra sofisticato e può essere corretto. Che dire dell'approccio pratico e più semplice "cospargere i punti, classificare, quindi dedurre i confini" che ho delineato in un commento? Il tuo approccio è paragonabile ai suoi risultati (che sono ovviamente corretti)? Cosa pensi?
ttnphns

1
@ttnphns: l'unica parte tecnica della mia risposta (un elenco numerato con 3 elementi) sta fornendo alcune prove e può essere tranquillamente saltata. Il resto, credo, non è particolarmente sofisticato! Forse dovrei spostare quella parte "extra" verso il basso, come appendice? Per quanto riguarda i tuoi commenti: penso che questo sia un approccio valido e mi piace l'aspetto ASCII della "mappa territoriale" di SPSS. Forse potresti spostare i tuoi commenti in una risposta separata (e fornire un'immagine esemplare della mappa SPSS lì), penso che sarebbe utile per riferimenti futuri. I risultati dovrebbero ovviamente essere equivalenti.
ameba dice Ripristina Monica il

@ttnphns: risulta che Hastie et al. usato esattamente il metodo che hai descritto qui per tracciare le loro figure, incluso quello riprodotto nel PO. Ho trovato una nota a piè di pagina che dice esattamente questo (e ho aggiornato la mia risposta, citandola all'inizio).
ameba dice Ripristina Monica il

Waouh! risposta eccellente (3 anni dopo!) posso chiederti come hai potuto disegnare i segmenti in questo particolare problema?
Xavier Bourret Sicotte,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.