Quale tipo di normalizzazione dei dati dovrebbe essere usato con KNN?


9

So che esistono più di due tipi di normalizzazione.

Per esempio,

1- Trasformazione dei dati utilizzando un punteggio z o un punteggio t. Questo di solito si chiama standardizzazione.

2- Riscalare i dati per avere valori compresi tra 0 e 1.

La domanda ora se ho bisogno di normalizzare

Quale tipo di normalizzazione dei dati dovrebbe essere usato con KNN? e perché?

Risposte:


11

01

x1=(f11,f12,...,f1M)x2=(f21,f22,...,f2M)f1iix1

d(x1,x2)=(f11f21)2+(f12f22)2+...+(f1Mf2M)2

Affinché tutte le funzioni abbiano la stessa importanza nel calcolo della distanza, le caratteristiche devono avere lo stesso intervallo di valori. Ciò è possibile solo attraverso la normalizzazione.

f1[0,1f2[1,10)10

La standardizzazione, d'altra parte, ha molte proprietà utili, ma non può garantire che le caratteristiche siano mappate sullo stesso intervallo. Mentre la standardizzazione può essere più adatta per altri classificatori, questo non è il caso di k-NN o di qualsiasi altro classificatore basato sulla distanza.


4
La tua risposta sarà la stessa se avessi usato una distanza diversa invece della distanza euclidea (ad esempio la distanza di Manhattan o altra distanza anche la distanza frazionaria)? Anche se l'intervallo delle variabili è approssimativamente ravvicinato.
Jeza

7
f1[0,1)f2[0,1.2)f220%f1. Una cosa che ho dimenticato di menzionare è che la standardizzazione, ovviamente, è molto meglio che non eseguire alcun ridimensionamento delle funzionalità; è semplicemente peggio della normalizzazione.
Djib2011,

Ah capisco "è semplicemente peggio della normalizzazione" !?
Jeza
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.