Perché in questo caso la soluzione meno quadrata offre scarsi risultati?


21

C'è un'immagine nella pagina 204, capitolo 4 di "Riconoscimento di modelli e apprendimento automatico" di Bishop, in cui non capisco perché la soluzione del quadrato minimo dia scarsi risultati qui:

inserisci qui la descrizione dell'immagine

Il paragrafo precedente riguardava il fatto che le soluzioni dei minimi quadrati mancano di robustezza per i valori anomali, come si vede nella seguente immagine, ma non capisco cosa stia succedendo nell'altra immagine e perché LS fornisca anche scarsi risultati.

inserisci qui la descrizione dell'immagine


Sembra che questo sia parte di un capitolo sulla discriminazione tra set. Nella tua prima coppia di grafici, quello a sinistra chiaramente non distingue bene tra le tre serie di punti. Questo risponde alla tua domanda? In caso contrario, puoi chiarirlo?
Peter Flom - Ripristina Monica

@PeterFlom: la soluzione LS offre scarsi risultati per la prima, voglio sapere il motivo. E sì, è l'ultimo paragrafo della sezione sulla classificazione LS in cui l'intero capitolo riguarda le funzioni discriminanti lineari.
Gigili,

Risposte:


6

3

In ESL , Figura 4.2 a pagina 105, il fenomeno è chiamato mascheramento . Vedi anche ESL Figura 4.3. La soluzione dei minimi quadrati si traduce in un predittore per la classe media che è principalmente dominato dai predittori per le altre due classi. LDA o regressione logistica non soffrono di questo problema. Si può dire che è la struttura rigida del modello lineare delle probabilità di classe (che è essenzialmente ciò che si ottiene dai minimi quadrati adatti) che causa il mascheramento.

-

Modifica: il mascheramento è forse più facilmente visualizzabile per un problema bidimensionale, ma è anche un problema nel caso monodimensionale, e qui la matematica è particolarmente semplice da capire. Supponiamo che le variabili di input unidimensionali siano ordinate come

X1<...<XK<y1<...ym<z1<...<zn

Xyz

1...10...00...0TT0...01...10...00...00...01...1XTX1...XKy1...ymz1...zn

TXXzy-classe, la regressione lineare dovrà bilanciare gli zero per le due classi esterne con quelli della classe media risultando in una linea di regressione piuttosto piatta e un adattamento particolarmente scarso delle probabilità della classe condizionale per questa classe. A quanto pare, il massimo delle linee di regressione per le due classi esterne domina la linea di regressione per la classe media per la maggior parte dei valori della variabile di input e la classe media è mascherata dalle classi esterne.

inserisci qui la descrizione dell'immagine

K=m=n(X¯,1/3)

X¯=13K(X1+...+XK+y1+...+ym+z1+...+zn).

2

Sulla base del link fornito di seguito, i motivi per cui il discriminante LS non sta
andando bene nel grafico in alto a sinistra sono i seguenti: -La mancanza di robustezza agli outlier.
- Alcuni set di dati non idonei per la classificazione dei minimi quadrati.
- Il limite di decisione corrisponde alla soluzione ML sotto distribuzione condizionale gaussiana. Ma i valori target binari hanno una distribuzione lontana dal gaussiano.

Guarda pagina 13 in Svantaggi dei minimi quadrati.


1

Credo che il problema nel tuo primo grafico sia chiamato "mascheramento", ed è menzionato in "Gli elementi dell'apprendimento statistico: data mining, inferenza e previsione" (Hastie, Tibshirani, Friedman. Springer 2001), pagine 83-84.

Intuitivamente (che è il massimo che posso fare) credo che ciò sia dovuto al fatto che le previsioni di una regressione OLS non sono vincolate a [0,1], quindi puoi finire con una previsione di -0.33 quando vuoi davvero di più come 0 .. 1, che puoi ottenere nel caso di due classi, ma più classi hai, più è probabile che questa discrepanza causi un problema. Credo.


1

Il minimo quadrato è sensibile alla scala (poiché i nuovi dati sono di scala diversa, inclinerà il limite decisionale), di solito è necessario applicare pesi (significa che i dati da inserire nell'algoritmo di ottimizzazione sono della stessa scala) o eseguire una trasformazione adeguata (centro medio, registro (1 + dati) ... ecc.) sui dati in questi casi. Sembra che Least Square funzionerebbe perfettamente se gli chiedessi di fare un'operazione di classificazione 3 nel qual caso e unire due classi di output alla fine.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.