Come devo interpretare le statistiche GAP?


10

Ho usato la statistica GAP per stimare i cluster k in R. Tuttavia non sono sicuro di interpretarla bene. inserisci qui la descrizione dell'immagine

Dalla trama sopra presumo che dovrei usare 3 cluster.

inserisci qui la descrizione dell'immagine

Dalla seconda trama dovrei scegliere 6 cluster. È un'interpretazione corretta della statistica GAP?

Sarei grato per qualsiasi spiegazione.


Due domande: qual è la prima trama che mostra? È una statistica GAP per gli stessi dati? Perché dovrebbe apparire diverso dal secondo (che vedo è un gap). Quali funzioni R hai usato? Seconda domanda: hai usato la regola '1-standard error' per scegliere 6 per la seconda trama?
Deathkill14,

Quindi ci sono due diversi approcci al clustering. Il primo basato su serie temporali: vendite durante 26 settimane e ho raggruppato i dati in base alla distorsione temporale dinamica. Il secondo approccio consisteva nel raggruppare i parametri della curva di crescita, anche in base alla distorsione temporale dinamica. Ho usato clusGapbasato su globalmax, non sapevo come implementare maxSE.
peterpeter,

Risposte:


11

Per ottenere un cluster ideale, è necessario selezionare modo da massimizzare la statistica gap. Ecco l'esempio dato da Tibshirani et al. (2001) nel loro articolo, la trama formata da dati artificiali con 2 cluster. Come puoi vedere, 2 è chiaramente il ideale , poiché la statistica gap è massimizzata in :KKK=2

Statistica del gap

Tuttavia, in molti set di dati del mondo reale, i cluster non sono così ben definiti e vogliamo essere in grado di bilanciare massimizzando la statistica gap con la parsimonia del modello. Caso in questione: la prima immagine di OP. Se stiamo massimizzando la statistica gap da solo , allora dovremmo scegliere il modello con 30 (o anche di più!) Cluster. Supponendo che quella trama continuerà ad aumentare, ovviamente, i risultati sono meno utili. Quindi Tibshirani suggerisce il metodo dell'errore 1 standard :

Scegli la dimensione del cluster in modo che sia la più piccola tale che .K^Kdivario(K)divario(K+1)-SK+1

Che informalmente sta identificando il punto in cui il tasso di aumento della statistica gap inizia a "rallentare".

Quindi, nella prima immagine di OP, se consideriamo le barre di errore rosse come errori standard, allora 3 è il più piccolo che soddisfa questo criterio:K

Immagine annotata 1

Per la seconda immagine di OP, tuttavia, vedrai che la statistica gap diminuisce immediatamente per . Quindi il primo che soddisfa il criterio di errore 1 standard è . Questo è il modo in cui la trama dice che i dati non dovrebbero essere raggruppati.K>1K1

A quanto pare, ci sono altri modi per scegliere ottimale . Il metodo predefinito della funzione R , ad esempio, cerca sempre il massimo locale del grafico e seleziona il più piccolo all'interno di un errore standard del max locale. Usando questo metodo, selezioneremmo e per i grafici 1 e 2 di OP. Come ho detto, tuttavia, questo sembra soffrire di un problema di complessità.KclusGapKfirstSEmaxK=30K=19

Fonte: Robert Tibshirani, Guenther Walther e Trevor Hastie (2001). Stima del numero di cluster in un set di dati tramite la statistica gap.


1
Quando si stima il valore dalla statistica gap, come posso calcolare / stimare la probabilità che sia il numero reale di cluster? O la mia domanda non ha senso? KK
quant_dev,

Grazie per aver sottolineato il compromesso tra massimizzare la statistica gap e ottenere parsimonia del modello
Cloud Computes
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.