Ipotesi di analisi dei cluster


16

Mi scuso per la questione rudimentale, sono nuovo di questa forma di analisi e finora ho una comprensione molto limitata dei principi.

Mi chiedevo solo se molti dei presupposti parametrici per i test multivariati / univariati si applicano all'analisi del cluster? Molte delle fonti di informazione che ho letto in merito all'analisi dei cluster non specificano alcuna ipotesi.

Sono particolarmente interessato all'ipotesi di indipendenza delle osservazioni. La mia comprensione è che la violazione di questo presupposto (ad esempio in ANOVA e MAVOVA) è grave perché influenza le stime dell'errore. Dalla mia lettura finora, sembra che l'analisi dei cluster sia in gran parte una tecnica descrittiva (che implica l'inferenza statistica solo in alcuni casi specifici). Di conseguenza, sono necessari presupposti come l'indipendenza e i dati normalmente distribuiti?

Eventuali raccomandazioni di testi che trattano questo problema sarebbero molto apprezzate. Grazie molto.

Risposte:


7

Bene, le tecniche di raggruppamento non si limitano ai metodi basati sulla distanza in cui cerchiamo gruppi di unità statistiche insolitamente vicine tra loro, in senso geometrico. Esistono anche una serie di tecniche basate sulla densità (i cluster sono visti come "regioni" nello spazio delle caratteristiche) o sulla distribuzione di probabilità .

Quest'ultimo caso è anche noto come clustering basato su modelli ; gli psicometrici usano il termine Analisi del profilo latente per indicare questo caso specifico del modello di miscela finita , in cui si assume che la popolazione sia composta da diversi gruppi non osservati o classi latenti e che la densità articolare di tutte le variabili manifest sia una miscela di questa classe- densità specifica. Buona implementazione sono disponibili nel Mclust pacchetto o Mplus software. È possibile utilizzare matrici di covarianza invarianti di classe diverse (in effetti, Mclust utilizza il criterio BIC per selezionare quello ottimale variando il numero di cluster).

Il modello di classe latente standard presuppone inoltre che i dati osservati provengano da una miscela di g distribuzioni multinomiali multivariate. Una buona panoramica è disponibile nell'analisi dei cluster basata sul modello: una difesa , di Gilles Celeux.

Dal momento che questi metodi si basano su ipotesi distributive, ciò rende anche possibile utilizzare test formali o indici di bontà di adattamento per decidere il numero di cluster o classi, che rimane un problema difficile nell'analisi dei cluster a distanza, ma vedere i seguenti articoli che ha discusso di questo problema:

  1. Handl, J., Knowles, J. e Kell, DB (2005). Convalida del cluster computazionale nell'analisi dei dati post-genomici. Bioinformatica , 21 (15) , 3201-3212.
  2. Hennig, C. (2007) Valutazione a livello di cluster della stabilità dei cluster. Statistica computazionale e analisi dei dati , 52 , 258-271.
  3. Hennig, C. (2008) Punto di dissoluzione e robustezza dell'isolamento: criteri di robustezza per i metodi generali di analisi dei cluster. Journal of Multivariate Analysis , 99 , 1154-1176.

3

Esiste una grande varietà di metodi di clustering, che sono esplorativi per natura, e non credo che nessuno di essi, sia esso gerarchico o basato su partizioni, si basi sul tipo di ipotesi che si devono soddisfare per analizzare la varianza.

Guardando la documentazione [MV] in Stata per rispondere alla tua domanda, ho trovato questa citazione divertente a pagina 85:

Sebbene alcuni abbiano affermato che esistono tanti metodi di analisi dei cluster quante sono le persone che eseguono l'analisi dei cluster. Questo è un eufemismo grave! Esistono infiniti modi per eseguire un'analisi dei cluster rispetto alle persone che li eseguono.

In tale contesto, dubito che vi siano ipotesi applicabili al metodo di clustering. Il resto del testo stabilisce semplicemente come regola generale che sia necessaria una qualche forma di "misura di dissomiglianza", che non deve nemmeno essere una distanza metrica, per creare cluster.

C'è un'eccezione, tuttavia, che si verifica quando si raggruppano le osservazioni come parte di un'analisi post-stima. In Stata, il vcecomando viene fornito con il seguente avviso, a pagina 86 della stessa fonte:

Se hai familiarità con la vasta gamma di comandi di stima di Stata, fai attenzione a distinguere tra l'analisi del cluster (il comando del cluster) e l'opzione vce (cluster clustvar) consentita con molti comandi di stima. L'analisi del cluster trova gruppi nei dati. L'opzione vce (cluster clustvar) consentita con vari comandi di stima indica che le osservazioni sono indipendenti tra i gruppi definiti dall'opzione ma non sono necessariamente indipendenti all'interno di tali gruppi. Una variabile di raggruppamento prodotta dal comando cluster raramente soddisfa il presupposto dietro l'uso dell'opzione vce (cluster clustvar).

Sulla base di ciò, suppongo che non siano necessarie osservazioni indipendenti al di fuori di quel caso particolare. Intuitivamente, aggiungerei che l'analisi dei cluster potrebbe persino essere utilizzata allo scopo preciso di esplorare la misura in cui le osservazioni sono indipendenti o meno.

Concluderò menzionando che, a pagina 356 di Statistics with Stata , Lawrence Hamilton menziona le variabili standardizzate come un aspetto "essenziale" dell'analisi dei cluster, sebbene non approfondisca la questione.


2

L'analisi dei cluster spaziali utilizza osservazioni geograficamente riferite ed è un sottoinsieme dell'analisi dei cluster che non si limita all'analisi esplorativa.

Esempio 1

Può essere usato per creare distretti elettorali equi.

Esempio 2

Le misure di autocorrelazione spaziale locale sono utilizzate nel metodo di clustering AMOEBA . Aldstadt e Getis utilizzano i cluster risultanti per creare una matrice di pesi spaziali che può essere specificata nelle regressioni spaziali per verificare un'ipotesi.

Vedi Aldstadt, Jared e Arthur Getis (2006) "Utilizzo di AMOEBA per creare una matrice di pesi spaziali e identificare cluster spaziali." Analisi geografica 38 (4) 327-343

Esempio 3

L'analisi dei cluster basata su regioni a crescita casuale in base a una serie di criteri potrebbe essere utilizzata come metodo probabilistico per indicare l'ingiustizia nella progettazione di zone istituzionali come le zone di frequenza scolastica o i distretti elettorali.


Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.