Utilizzo del test di significatività statistica per convalidare i risultati dell'analisi dei cluster

13

Sto esaminando l'uso del test di significatività statistica (SST) per convalidare i risultati dell'analisi dei cluster. Ho trovato diversi articoli su questo argomento, come ad esempio

" Significato statistico del clustering per dati di dimensioni elevate, dimensioni ridotte del campione " di Liu, Yufeng et al. (2008)
" Su alcuni test di significatività nell'analisi dei cluster ", di Bock (1985)

Ma sono interessato a trovare alcune pubblicazioni che sostengano che SST NON è appropriato per convalidare i risultati dell'analisi dei cluster. L'unica fonte che ho trovato affermando che questa è una pagina web di un fornitore di software

Chiarire:

Sono interessato a verificare se è stata trovata una struttura di cluster significativa a seguito dell'analisi dei cluster, quindi mi piacerebbe conoscere documenti che supportano o confutano la preoccupazione "sulla possibilità di test post-hoc dei risultati dei dati esplorativi analisi utilizzata per trovare i cluster ".

Ho appena trovato un documento del 2003, " Metodi di clustering e classificazione " di Milligan e Hirtle che affermano, ad esempio, che l'uso di ANOVA sarebbe un'analisi non valida poiché i dati non hanno assegnazioni casuali ai gruppi.

hypothesis-testing clustering statistical-significance

— DPS
fonte

Questa è una buona domanda, ma può valere la pena sottolineare che è formulato in modo da far sembrare che ci sia una dicotomia: o puoi verificare il significato del clustering oppure no. La situazione è diversa, tuttavia, perché "analisi dei cluster" significa varie cose. Nei documenti di riferimento l'attenzione è focalizzata sul test se ci sono prove per il clustering. Nel manuale del software, è giustamente espressa preoccupazione per la possibilità di test post-hoc dei risultati dell'analisi dei dati esplorativi utilizzati per trovare i cluster. Non c'è contraddizione qui.

— whuber

Grazie per aver risposto. Hai ragione sul modo in cui ho posto la domanda. Sono interessato a verificare se è stata trovata una struttura di cluster significativa a seguito dell'analisi dei cluster, quindi mi piacerebbe conoscere documenti che supportano o confutano la preoccupazione "sulla possibilità di test post-hoc dei risultati dei dati esplorativi analisi utilizzata per trovare i cluster ". Ho appena trovato un documento del 2003 "Metodi di clustering e classificazione" di Milligan e Hirtle che affermano, ad esempio, che l'uso di ANOVA sarebbe un'analisi non valida poiché i dati non hanno assegnazioni casuali ai gruppi.

— DPS,

Potrebbe essere di aiuto: accecato dalla scienza: le conseguenze gestionali di soluzioni di analisi dei cluster validate in modo inadeguato, mrs.org.uk/ijmr_article/article/78841

— rolando2,

3

È abbastanza ovvio che non è possibile (ingenuamente) verificare la differenza nelle distribuzioni per i gruppi definiti utilizzando gli stessi dati. Questo è noto come "test selettivo", "doppia immersione", "inferenza circolare", ecc.

Un esempio potrebbe essere l'esecuzione di un test t sulle altezze di persone "alte" e "brevi" nei tuoi dati. Il null sarà (quasi) sempre rifiutato.

Detto questo, si potrebbe davvero spiegare la fase di raggruppamento nella fase di test. Non ho familiarità, tuttavia, con un riferimento particolare che lo fa, ma sospetto che avrebbe dovuto essere fatto.

— JohnRos
fonte

Concordo sul fatto che il valore null sarà quasi sempre rifiutato quando si applica un test di significatività sui diversi gruppi di cluster. Tuttavia, questo dovrebbe essere il caso solo se il clustering è effettivamente riuscito a separare i gruppi per tutte le variabili considerate nella CA? Non si potrebbe usare un test di significatività per determinare se ci sono variabili che non sono ben separate tra i gruppi (che significa applicare un test per ogni variabile)? Potresti per favore approfondire il motivo statistico per cui questo non è raccomandato / ragionevole?

— Luca

L'argomento formale è che il termine di errore di ciascuna misurazione non è centrato su zero. Pensa al mio esempio alto / breve: tutte le persone sono tratte dalla stessa distribuzione, ma il gruppo "alto" ha errori con media positiva e media negativa "corta".

— JohnRos,

0

Invece di testare le ipotesi con un determinato test, consiglierei i mezzi di bootstrap o altre stime riassuntive tra i cluster. Ad esempio, puoi fare affidamento sul bootstrap percentile con almeno 1000 campioni. Il punto chiave è applicare il clustering in modo indipendente a ciascun campione bootstrap.

Questo approccio sarebbe piuttosto solido, fornire prove di differenze e supportare la richiesta di differenze significative tra cluster. Inoltre, potresti generare un'altra variabile (diciamo la differenza tra cluster) e le stime bootstrap di tale variabile di differenza sarebbero simili a un test formale di ipotesi.

— Joe_74
fonte