Come può funzionare una percezione multiclasse?


13

Non ho alcun background in matematica, ma capisco come funziona il semplice Perceptron e penso di afferrare il concetto di un iperpiano (lo immagino geometricamente come un piano nello spazio 3D che separa due nuvole di punti, proprio come una linea separa due nuvole di punti nello spazio 2D).

Ma non capisco come un piano o una linea possano separare tre diverse nuvole di punti nello spazio 3D o nello spazio 2D, rispettivamente - questo non è geometricamente possibile, vero?

Ho cercato di comprendere la sezione corrispondente nell'articolo di Wikipedia , ma ho già fallito miseramente nella frase "Qui, l'ingresso x e l'uscita y sono disegnati da insiemi arbitrari". Qualcuno potrebbe spiegarmi la percezione multiclasse e come va con l'idea dell'iperpiano, o forse indicarmi una spiegazione non così matematica?

Risposte:


8

Supponiamo di avere dati cui x iR n sono vettori di input e y i{ rosso, blu, verde }(x1,y1),,(xk,yk)xiRnyi{red, blue, green} sono le classificazioni.

Sappiamo come creare un classificatore per i risultati binari, quindi lo facciamo tre volte: raggruppiamo i risultati insieme, , { blu, rosso o verde } e { verde, blu o rosso }{red, blue or green}{blue, red or green}{green, blue or red} .

Ogni modello assume la forma di una funzione , li chiamano f R , f B , f G rispettivamente. Questo richiede un vettore di ingresso alla distanza firmata dal iperpiano associato a ciascun modello, dove positive corrisponde a distanza di una predizione di blu se f B , rossa se f R e verde se f G . Fondamentalmente la più positiva f G ( x ) è, più il modello ritiene che xf:RnRfR,fB,fGfBfRfGfG(x)xè verde e viceversa. Non abbiamo bisogno che l'output sia una probabilità, dobbiamo solo essere in grado di misurare la sicurezza del modello.

Dato un input , lo classifichiamo secondo argmax c f c ( x ) , quindi se f G ( x ) è il più grande tra { f G ( x ) , f B ( x ) , f R ( x ) } vorremmo prevedere il verde per x .xargmaxc fc(x)fG(x){fG(x),fB(x),fR(x)}x

Questa strategia si chiama "uno contro tutti", e puoi leggerlo qui .


3

Non riesco affatto a dare un senso a quell'articolo di Wiki. Ecco una pugnalata alternativa per spiegarlo.

Un perceptron con un nodo di output logistico è una rete di classificazione per 2 classi. Produce , la probabilità di essere in una delle classi, con la probabilità di essere nell'altra semplicemente 1 - p .p1p

Un perceptron con due nodi di output è una rete di classificazione per 3 classi. I due nodi generano ciascuno la probabilità di essere in una classe e la probabilità di essere nella terza classe è 1 - i = ( 1 , 2 ) p i .pi1i=(1,2)pi

E così via; un percettrone con nodi di output è un classificatore per classi m + 1 . In effetti, se non esiste uno strato nascosto, un tale percettrone è fondamentalmente lo stesso di un modello di regressione logistica multinomiale , proprio come un percettivo semplice è lo stesso di una regressione logistica.mm+1


Sei sicuro che l'output sia una probabilità effettiva? Ad ogni modo, non so come funzioni la regressione logistica multinomiale, quindi dovrò esaminarlo. Ma non esiste un modo (algoritmico) per spiegare come è costruito un percettrone con due o più nodi di output? Sono incatenati insieme in qualche modo?
wnstnsmth,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.