Ho alcuni pensieri da condividere sulla riduzione dimensionale in problemi di apprendimento senza supervisione. Nel rispondere, ho ipotizzato che il tuo interesse sia per il "high-touch", il coinvolgimento umano rispetto all'interpretazione del cluster rispetto a un approccio automatizzato, chiavi in mano, scatola nera e "machine-touch" in cui l'interpretazione è deliberatamente de-enfatizzata . Se fosse quest'ultimo, perché dovresti anche porre la domanda? Inoltre, nel corso degli anni ho avuto una grande esperienza nella gestione di soluzioni cluster in una vasta gamma di ambienti aziendali, tra cui marketing B2C strategico, arene tecnologiche B2B e politiche educative (raggruppamento di studenti e scuole).
Per prima cosa, ho una domanda sul tuo commento riguardante "il raggruppamento di set di dati diversi". Non sapevo cosa intendevi con ciò o come potesse avere un impatto sull'approccio e speravo che tu potessi elaborare.
Vorrei contestare la tua ipotesi al punto 1 sopra che le soluzioni basate su PCA sono "difficili da interpretare". Le ragioni per cui anche l'esecuzione di un PCA come fase preliminare del clustering sono principalmente legate all'igiene della soluzione risultante nella misura in cui molti algoritmi di clustering sono sensibili alla ridondanza delle funzionalità. PCA riduce questa ridondanza in una manciata di componenti gestibile, minimizzando in tal modo le sfide e le difficoltà che si nota riguardo alla selezione delle funzionalità. Sebbene sia vero che i componenti emessi da un PCA offuscano la granularità e la specificità delle singole funzionalità, questo è un problema se si fa affidamento esclusivamentesu tali componenti nell'analisi dei risultati. In altre parole, non si è in alcun modo bloccati a utilizzare solo i componenti per l'interpretazione del cluster. Non solo, non devi nemmeno preoccuparti del significato delle dimensioni del fattore. Sono solo un mezzo intermedio e (alla fine) usa e getta per un fine che facilita una soluzione attuabile. Ma nel fare questo punto differisco da molti praticanti poiché i team possono, lo faranno e passeranno settimane con cura a costruire una soluzione fattoriale "significativa". Per me, questo è uno spreco inefficiente di tempo e denaro dei clienti.
A questo punto ci sarà un carico di considerazioni tecniche da affrontare. Per uno, se il tuo algoritmo PCA non è invariante per il ridimensionamento (ad esempio, OLS vs ML), allora qualsiasi soluzione PCA risultante sarà distorta, caricando più pesantemente sulle funzionalità ad alta varianza. In questi casi le tue funzionalità devono essere preelaborate o trasformate in qualche modo per appiattire questa varianza. Ci sono un gran numero di possibilità qui tra cui standardizzazione media, gamma o standardizzazione IQR, ridimensionamento ipsativo e così via. Sfrutta questa trasformazione offrendo la soluzione migliore e più interpretabile.
Una volta generata una soluzione cluster, l'interpretazione è meglio motivata (nella mia esperienza) ignorando i componenti e ripiegando le funzionalità originali insieme a qualsiasi ulteriore informazione descrittiva non direttamente utilizzata nella soluzione. A questo punto alcune euristiche sono le migliori guide per approfondimenti qualitativi. Questo può essere facile come generare un foglio di calcolo che profila i tuoi cluster in base a medie o mediane per ciascuna funzione (le righe del foglio), per ciascun cluster (le colonne) e una colonna aggiuntiva che rappresenta la media generale per il campione totale . Quindi, indicizzando le medie dei cluster per ciascuna caratteristica rispetto alla media generale (e moltiplicando per 100), viene creato un euristico che è come un punteggio del QI in quanto circa "100" è un QI "normale" o comportamento medio, gli indici di 120+ suggeriscono alte probabilità che una funzione sia "vera" sul comportamento di un cluster e gli indici di 80 o meno sono indicativi di caratteristiche "non vere" di un cluster. Questi indici di 120+ e 80 o meno sono come t-test proxy per il significato di una determinata funzionalità nel guidare la soluzione. Ovviamente, puoi eseguire test di gruppo significativi e, a seconda delle dimensioni del campione, otterrai risposte che variano in base a queste regole pratiche rapide e sporche.
Ok ... dopo tutto ciò, supponiamo che tu sia ancora contrario all'utilizzo di PCA come input diretto in un algoritmo di clustering, il problema rimane su come selezionare un set ridotto di funzionalità. La PCA può ancora essere utile qui poiché i PCA sono come eseguire una regressione senza una variabile dipendente. Le funzioni di caricamento principali su ciascun componente possono diventare input nell'algoritmo del cluster.
Per quanto riguarda il gran numero di funzioni e la dimensione del campione relativamente piccola dei dati, la regola empirica tipica in molte analisi multivariate a "informazione completa" è un minimo di circa 10 osservazioni per funzione. Esistono alcuni metodi specializzati che possono essere sfruttati per aggirare questa sfida. Ad esempio, i minimi quadrati parziali (PLS) sono stati sviluppati per la prima volta da Herman Wold nel suo libro The Emetical Empiricism del 1990 per l'uso in campi come la chemiometria che affrontano questo preciso problema. È di natura analitica dei fattori ma è molto meno rigoroso nel richiedere una grande n per generare le dimensioni. Altre soluzioni includono gli approcci casuali simili a foreste, "dividi e conquista", usati con enormi quantità di informazioni. Questi metodi sono esaminati in questo pdfhttp://www.wisdom.weizmann.ac.il/~harel/papers/Divide%20and%20Conquer.pdf
Ma supponi di aver deciso che non vuoi ancora avere nulla a che fare con l'analisi dei fattori e che sei pronto a eseguire una sorta di processo di selezione "sequenziale" supervisionato. A mio avviso, il problema più importante riguarda meno la ricerca di una metrica delle prestazioni post-hoc (indice di Dunn) e più l'identificazione di un proxy adatto - una variabile dipendente - per rendere possibile questo approccio. Questa decisione è interamente in funzione del tuo giudizio e dello stato delle PMI nei tuoi dati. Non ci sono "buone pratiche", risposte molto meno facili per questo e dato il modo in cui hai descritto i tuoi dati, non è una piccola sfida.
Una volta presa questa decisione, ci sono letteralmente centinaia di possibili soluzioni di selezione variabile tra cui scegliere. La selezione delle variabili è un'area tematica in cui ogni statistico e il loro fratello hanno pubblicato un articolo. Il tuo approccio preferito sembra essere la "selezione sequenziale in avanti" va bene.
Vale la pena notare che esistono modelli di apprendimento supervisionato che si ripiegano in una soluzione cluster come parte dell'algoritmo. Esempi di questo includono gli approcci ampi e altamente flessibili noti come modelli di classe latente. L'essenza dei modelli LC è che sono a due stadi: nella fase uno viene definito un DV e viene costruito un modello di regressione. Nella seconda fase, qualsiasi eterogeneità nell'output residuo del modello - un singolo vettore latente - è suddivisa in "classi" latenti. C'è una panoramica della modellazione LC in questa discussione CV qui ... Dubbio sul modello logit multinomiale di classe latente
Spero che sia di aiuto.