Adeguatezza di ANOVA dopo l'analisi dei cluster di k-medie

La notifica dopo la tabella ANOVA dopo l'analisi dei mezzi K indica che i livelli di significatività non devono essere considerati come test di mezzi uguali, poiché la soluzione del cluster è stata derivata in base alla distanza euclidea per massimizzare la distanza. Quale test devo usare per mostrare se i mezzi delle variabili di clustering differiscono tra i cluster? Ho visto questo avviso nella tabella ANOVA fornita dagli output di k-mean, ma in alcuni riferimenti vedo che vengono eseguiti test ANOVA post-hoc. Devo ignorare le uscite ANOVA k-mean ed eseguire ANOVA unidirezionale con test post-hoc e interpretarli in modo tradizionale? Oppure posso solo implicare la grandezza del valore F e quali variabili hanno contribuito maggiormente alla differenza? Un'altra confusione è che le variabili di clustering non sono normalmente distribuite in violazione dell'assunzione di ANOVA, allora potrei usare il test non parametrico di Kruskal-Wallis, ma ha ipotesi circa le stesse distribuzioni. Le distribuzioni inter-cluster per le variabili specifiche non sembrano le stesse, alcune sono distorte positivamente, alcune sono negativamente ... Ho 1275 campioni di grandi dimensioni, 5 cluster, 10 variabili di clustering misurate in punteggi PCA.

anova k-means

— Inga
fonte

Perché è necessario testare l'uguaglianza dei mezzi? Non puoi semplicemente provare come il tuo modello funziona fuori dal campione?

— James,

Volevo determinare quali variabili 'significano differire tra i cluster, vale a dire se la media di v1 nel cluster1 è diversa dalla media di v1 nel cluster, 2, 3, 4, 5. Posso ovviamente vederlo creando un grafico, ma lo fa non dire della differenza statistica. Il test per la differenza statistica mi ha reso confuso, poiché per ANOVA i miei dati non erano conformi alla normale ipotesi di distribuzione, ma per Kruskal Wallis testano la stessa ipotesi di distribuzione della forma tra i gruppi di cluster.

— Inga,

Come ha indicato @James nella sua risposta, stai "curiosando". Quale potrebbe essere un motivo per verificare la rilevanza tra i gruppi che tu (il tuo clustering) hai prescelto per differire il più possibile? Qui non c'è alcun segno di campionamento casuale o proporzionale da popolazioni che sono distinti sulla base di alcune caratteristiche esterne , backgroud.

— ttnphns,

Grazie per le risposte! La mia confusione è apparsa come in alcune fonti vedo che i confronti statistici medi non sono appropriati in questa situazione come hai anche indicato, ma ad esempio una citazione dal capitolo di 1 libro indica l'opposto: "di solito esaminiamo i mezzi per ciascun cluster su ogni dimensione usando ANOVA per valutare quanto siano distinti i nostri cluster. Idealmente, otterremmo mezzi significativamente diversi per la maggior parte, se non tutte le dimensioni, utilizzate nell'analisi. L'entità dei valori F eseguiti su ogni dimensione è un'indicazione di quanto bene la rispettiva dimensione discrimina tra cluster "

— Inga,

Hai il diritto di valutare le differenze tra i cluster in base alle caratteristiche utilizzate per raggruppare, al fine di scoprire quelli più discriminatori. Nel fare ciò, è possibile calcolare differenze relative, valori F e persino valori p. Come indicatori della dimensione dell'effetto. Non come indicatori di rilevanza statistica (che si riferiscono alle popolazioni).

— ttnphns,

Risposte:

No!

Non è necessario utilizzare gli stessi dati per 1) eseguire il clustering e 2) caccia per differenze significative tra i punti nei cluster. Anche se non esiste una struttura effettiva nei dati, il raggruppamento imporrà uno raggruppando i punti vicini. Ciò riduce la varianza all'interno del gruppo e aumenta la varianza tra i gruppi, che ti spinge verso falsi positivi.

$k$

Risultati della simulazione che mostrano una distribuzione uniforme dei valori p per le assegnazioni casuali e una distribuzione altamente distorta (quasi tutti 0,05 o meno) dei valori p dopo il clustering

Non c'è niente di speciale in un ANOVA qui: vedresti effetti simili usando test non parametrici, regressione logistica, qualsiasi cosa. In generale, la convalida delle prestazioni di un algoritmo di clustering è complicata, in particolare se i dati non sono etichettati. Tuttavia, esistono alcuni approcci alla "convalida interna" o alla misurazione della qualità dei cluster senza utilizzare origini dati esterne. In genere si concentrano sulla compattezza e la separabilità dei cluster. Questa recensione di Lui et al. (2010) potrebbe essere un buon punto di partenza.

— Matt Krause
fonte

Il tuo vero problema è lo snooping dei dati. Non è possibile applicare ANOVA o KW se le osservazioni sono state assegnate a gruppi (cluster) in base al set di dati di input stesso. Quello che puoi fare è usare qualcosa come la statistica Gap per stimare il numero di cluster.

D'altra parte, i valori p ficcati sono distorti verso il basso, quindi se il risultato del test ANOVA o KW è insignificante, il valore p "vero" è ancora maggiore e si può decidere di unire i cluster.

— Giacomo
fonte

Penso che potresti applicare un tale approccio (ad esempio utilizzando le statistiche, come le statistiche F o le statistiche t o qualsiasi altra cosa), se lanci le solite distribuzioni null .

Quello che dovresti fare è simulare dalla situazione in cui il tuo null è vero, applicare l'intera procedura (clustering, ecc.), Quindi calcolare ogni volta ogni statistica. Applicato su molte simulazioni, si otterrebbe una distribuzione per la statistica sotto il valore nullo con cui è possibile confrontare il valore del campione. Incorporando lo snooping dei dati nel calcolo si tiene conto del suo effetto.

[In alternativa, si potrebbe forse sviluppare un test basato sul ricampionamento (basato sulla permutazione / randomizzazione o sul bootstrap).]

— Glen_b -Restate Monica
fonte

Bene, questa è l'idea alla base della statistica Gap.

— James,