Questo è stato nella mia mente per almeno alcune ore. Stavo cercando di trovare un k ottimale per l'uscita dall'algoritmo k-mean (con una metrica di somiglianza del coseno ), quindi ho finito per tracciare la distorsione in funzione del numero di cluster. Il mio set di dati è una raccolta di 800 documenti in uno spazio di 600 dimensioni.
Da quello che ho capito, trovare il punto del ginocchio o il punto del gomito su questa curva dovrebbe dirmi almeno approssimativamente il numero di cluster in cui devo inserire i miei dati. Ho messo il grafico qui sotto. Il punto in cui è stata tracciata la linea verticale rossa è stato ottenuto utilizzando il secondo massimo test derivativo . Dopo aver fatto tutto questo, ero bloccato in qualcosa di molto più semplice: cosa mi dice questo grafico sul set di dati?
Mi dice che non vale la pena raggruppare e che i miei documenti mancano di struttura o che devo impostare un k molto alto? Una cosa strana però è che anche con un basso k, vedo documenti simili raggruppati insieme, quindi non sono sicuro del motivo per cui sto ottenendo questa curva. qualche idea?

terms x documentottenuto dopo aver eseguito un vettore singolare decomposizione. Per favore, correggimi se sbaglio.