Scegliere K ottimale per KNN


15

Ho eseguito un CV 5 volte per selezionare il K ottimale per KNN. E sembra che più grande diventa K, più piccolo è l'errore ...

inserisci qui la descrizione dell'immagine

Scusa se non avevo una leggenda, ma i diversi colori rappresentano prove diverse. Ce ne sono 5 in totale e sembra che ci sia una piccola variazione tra di loro. L'errore sembra sempre diminuire quando K diventa più grande. Quindi, come posso scegliere la migliore K? K = 3 sarebbe una buona scelta qui perché il tipo di grafico si spegne dopo K = 3?


Che cosa hai intenzione di fare con i cluster dopo averli trovati? In definitiva è quello che hai intenzione di fare con i cluster prodotti dal tuo algoritmo di clustering che ti aiuterà a determinare se vale la pena usare più cluster per ottenere un piccolo errore.
Brian Borchers,

Voglio un alto potere predittivo. In questo caso ... dovrei scegliere K = 20? Dal momento che ha l'errore più basso. Tuttavia, in realtà ho tracciato gli errori per K fino a 100. E 100 ha l'errore più basso di tutti ... quindi sospetto che l'errore diminuirà all'aumentare di K. Ma non so quale sia un buon punto di interruzione.
Adrian,

Risposte:


12

kKKKK rispetto a uno più piccolo, se la differenza nei loro errori CV è trascurabile.

Se l'errore CV non ricomincia a salire, probabilmente significa che gli attributi non sono informativi (almeno per quella metrica di distanza) e fornire risultati costanti è il meglio che può fare.



0

C'è un significato fisico o naturale dietro il numero di cluster? Se non sbaglio, è naturale che all'aumentare di K, l'errore diminuisce, un po 'come un eccesso di adattamento. Invece di cercare la K ottimale, è probabilmente meglio scegliere K in base alla conoscenza del dominio o ad alcune intuizioni?


Penso che questa risposta sarebbe più appropriata per il clustering di k-mean piuttosto che per la classificazione o regressione di k-nn.
Dikran Marsupial,

Se k è troppo grande, lo si sta adattando in modo inadeguato, quindi l'errore ricomparirà.
James,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.