Per una comprensione visiva, puoi pensare all'addestramento di KNN come a un processo di colorazione delle regioni e di definizione dei confini attorno ai dati di allenamento.
Possiamo prima tracciare i confini attorno a ciascun punto del set di allenamento con l'intersezione delle bisettrici perpendicolari di ogni coppia di punti. (l'animazione bisettrice perpendicolare è mostrata di seguito)
fonte gif
Per scoprire come colorare le regioni all'interno di questi confini, per ogni punto guardiamo al colore del vicino. Quando , per ogni punto dati, , nel nostro set di allenamento, vogliamo trovare un altro punto, , che abbia la minima distanza da . La distanza più breve possibile è sempre , il che significa che il nostro "vicino più vicino" è in realtà il punto dati originale stesso, .K=1xx′x0x=x′
Per colorare le aree all'interno di questi confini, cerchiamo la categoria corrispondente ad ogni . Diciamo che le nostre scelte sono blu e rosse. Con , coloriamo le regioni che circondano i punti rossi con il rosso e le regioni che circondano il blu con il blu. Il risultato sarebbe simile al seguente:xK=1
Si noti come sono presenti punti rossi in regioni blu e viceversa. Questo ci dice che c'è un errore di addestramento di 0.
Nota che i confini delle decisioni sono di solito tracciati solo tra le diverse categorie, (elimina tutti i confini blu-blu rosso-rosso) in modo che i tuoi limiti decisionali possano apparire più simili a questo:
Ancora una volta, tutti i punti blu sono all'interno dei confini blu e tutti i punti rossi sono all'interno dei confini rossi; abbiamo ancora un errore di test pari a zero. D'altra parte, se aumentiamo a , abbiamo il diagramma seguente. Notare che ci sono alcuni punti rossi nelle aree blu e punti blu nelle aree rosse. Ecco come appare un errore di allenamento diverso da zero.KK=20
Quando , coloriamo le regioni attorno a un punto in base alla categoria di quel punto (colore in questo caso) e alla categoria di 19 dei suoi vicini più vicini. Se la maggior parte dei vicini è blu, ma il punto originale è rosso, il punto originale viene considerato un valore anomalo e la regione circostante è di colore blu. Ecco perché puoi avere così tanti punti dati rossi in un'area blu e viceversa. K=20
fonte di immagini