Con i dati categorici, possono esserci cluster senza che le variabili siano correlate?


19

Quando si tenta di spiegare le analisi dei cluster, è comune che le persone fraintendano il processo come correlato alla correlazione delle variabili. Un modo per superare la confusione è una trama come questa:

inserisci qui la descrizione dell'immagine

Questo mostra chiaramente la differenza tra la domanda se ci sono cluster e la questione se le variabili sono correlate. Tuttavia, ciò illustra solo la distinzione per i dati continui. Ho problemi a pensare a un analogo con dati categorici:

ID  property.A  property.B
1   yes         yes
2   yes         yes
3   yes         yes
4   yes         yes
5   no          no
6   no          no
7   no          no
8   no          no

Possiamo vedere che ci sono due cluster chiari: le persone con entrambe le proprietà A e B e quelle senza nessuno dei due. Tuttavia, se osserviamo le variabili (ad esempio, con un test chi-quadrato), sono chiaramente correlate:

tab
#      B
# A     yes no
#   yes   4  0
#   no    0  4
chisq.test(tab)
# X-squared = 4.5, df = 1, p-value = 0.03389

Trovo che non riesco a costruire un esempio con dati categorici analogo a quello con dati continui sopra. È anche possibile avere cluster in dati puramente categorici senza che anche le variabili siano correlate? Cosa succede se le variabili hanno più di due livelli o se hai un numero maggiore di variabili? Se il raggruppamento di osservazioni implica necessariamente relazioni tra le variabili e viceversa, ciò implica che non vale davvero la pena fare un raggruppamento quando si hanno solo dati categorici (vale a dire, invece, si dovrebbero semplicemente analizzare le variabili)?


Aggiornamento: ho lasciato molto fuori dalla domanda originale perché volevo solo concentrarmi sull'idea che potesse essere creato un semplice esempio che sarebbe stato immediatamente intuitivo anche per qualcuno che non aveva familiarità con le analisi dei cluster. Tuttavia, riconosco che un sacco di clustering dipende dalle scelte di distanze e algoritmi, ecc. Potrebbe essere utile specificare più informazioni.

Riconosco che la correlazione di Pearson è davvero appropriata solo per dati continui. Per i dati categorici, potremmo pensare a un test chi-quadrato (per una tabella di contingenza a due vie) o un modello log-lineare (per tabelle di contingenza a più vie) come un modo per valutare l'indipendenza delle variabili categoriche.

Per un algoritmo, potremmo immaginare di usare k-medoids / PAM, che può essere applicato sia alla situazione continua che ai dati categorici. (Si noti che, parte dell'intenzione alla base dell'esempio continuo è che qualsiasi ragionevole algoritmo di clustering dovrebbe essere in grado di rilevare quei cluster e, in caso contrario, dovrebbe essere possibile costruire un esempio più estremo.)

Per quanto riguarda la concezione della distanza. Ho assunto euclideo per l'esempio continuo, perché sarebbe il più elementare per uno spettatore ingenuo. Suppongo che la distanza analoga per i dati categorici (in quanto sarebbe il più immediatamente intuitivo) sarebbe una corrispondenza semplice. Tuttavia, sono aperto a discussioni su altre distanze se ciò porta a una soluzione o solo a una discussione interessante.


2
Mi chiedo se abbiamo qualcosa come grappoli di dati categorici a tutti . Non è come se la varianza tra i cluster fosse maggiore di quella all'interno dei cluster, o se potesse parlare di una differenza di densità tra i cluster. Pertanto, se la corrispondenza più avanzata è costituita da set di elementi frequenti, è necessario correlare le variabili affinché i cluster si formino.
Anony-Mousse -Reststate Monica

@ Anony-Mousse, è interessante. Perché non trasformarlo in una risposta? A proposito, posso creare cluster di immagini attualmente esistenti (ad esempio, in variabili continue latenti che danno origine a probabilità diverse per vari livelli di variabili nominali), ma sospetto che non sia quello che intendevi.
gung - Ripristina Monica

È possibile trasformare una distribuzione categoriale in un vettore i cui componenti sono le frequenze normalizzate. Quindi è possibile applicare la metrica euclidea. Non è l'unica opzione però: math.umn.edu/~garrett/m/fun/notes_2012-13/02_spaces_fcns.pdf e en.m.wikipedia.org/wiki/Normed_vector_space

@ttnphns, sembra che tu abbia aggiunto il [data-association]tag. Non sono sicuro di cosa dovrebbe indicare e non ha estratto / guida all'uso. Abbiamo davvero bisogno di questo tag? Sembra un buon candidato per la cancellazione. Se ne abbiamo davvero bisogno sul CV e sai cosa dovrebbe essere, potresti almeno aggiungere un estratto per questo?
gung - Ripristina Monica

@gung, anche io non capisco a cosa possa riferirsi questo tag. L'ho aggiunto a causa dell'argomento "associazione / correlazione tra attributi" della domanda. Sei libero di eliminare il tag dalla Q o del tutto. D'altra parte, è tempo (penso) di ripensare ai nostri tag che coprono l'intero campo di correlazione / associazione. Ad esempio, la "correlazione" dovrebbe essere mantenuta solo per la correlazione di Pearson? Dovremmo creare un nuovo tag "associazione-variabili" (al posto di "associazione dati")?
ttnphns,

Risposte:


11

Prendi in considerazione il caso del cluster chiaro con variabili di scala non correlate, ad esempio l'immagine in alto a destra nella domanda. E categorizzare i suoi dati.

inserisci qui la descrizione dell'immagine

Abbiamo suddiviso l'intervallo di scala di entrambe le variabili X e Y in 3 contenitori che ora trattiamo come etichette categoriche. Inoltre, li dichiareremo nominali, non ordinali, perché la domanda posta riguarda implicitamente e principalmente i dati qualitativi. La dimensione dei punti è la frequenza in una cella a tabella incrociata di frequenza; tutti i casi nella stessa cella sono considerati identici.

Intuitivamente e più in generale, i "cluster" sono definiti come grumi di punti dati separati da regioni sparse nello "spazio" di dati. Inizialmente era con i dati di scala e rimane la stessa impressione nella tabulazione incrociata dei dati classificati. X e Y ora sono categorici, ma sembrano ancora non correlati: l'associazione chi-quadrato è molto vicina allo zero. E i cluster ci sono.

Ma ricordiamo che abbiamo a che fare con categorie nominali che l'ordine nella tabella è arbitrario. Possiamo riordinare intere righe e / o colonne come preferiamo, senza influire sul valore chi-quadro osservato. Riordina ...

inserisci qui la descrizione dell'immagine

... per incontrare quei cluster appena spariti. Le quattro celle, a1, a3, c1 e c3, potrebbero essere unite in un singolo cluster. Quindi no, in realtà non abbiamo cluster nei dati categorici.

I casi di celle a1 e c3 (o similmente di a3 e c1) sono completamente diversi: non condividono le stesse attribuzioni. Per indurre i cluster nei nostri dati - a1 e c3 per formare i cluster - dobbiamo svuotare, in larga misura, le celle confuse a3 e c1, eliminando questi casi dal set di dati.

inserisci qui la descrizione dell'immagine

Ora esistono cluster. Ma allo stesso tempo abbiamo perso l'incorrelazione. La struttura diagonale che appare nella tabella segnala che la statistica del chi-stare si è allontanata da zero.

Pietà. Cerchiamo di preservare la non correlazione e cluster più o meno chiari allo stesso tempo. Potremmo decidere di svuotare sufficientemente solo la cella a3, per esempio, e quindi considerare a1 + c1 come un cluster che si oppone al cluster c3:

inserisci qui la descrizione dell'immagine

Quell'operazione non portò Chi-quadrato lontano da zero ...

[Indeed, table such as for example
 6   6   1
 6   6   1
 1   1   0
retains about the same very low chi-square association after
dividing 2nd column by 3 and multiplying 2nd row by 3, which gives
 6   2   1
18   6   3
 1  1/3  0
Cell (1,2) got thrice lower frequency. We had, however, to upheave
cell (2,1) frequency thrice, to keep Chi-sq almost as before.]

... ma la situazione con i cluster è confusa. Il cluster a1 + c1 contiene casi in parte identici, in parte semi dissimili. Il fatto che un cluster sia relativamente poco omogeneo non è di per sé una preclusione per una struttura di cluster chiari in un set di dati. Tuttavia, il problema con i nostri dati categorici è che il cluster a1 + c1 non è in alcun modo migliore del cluster c1 + c3, il suo analogo simmetrico. Ciò significa che la soluzione del cluster è instabile , dipenderà dall'ordine dei casi nel set di dati. Una soluzione instabile, anche se è relativamente "chiara", è una cattiva soluzione, inaffidabile.

L'unico modo per superare il problema e rendere la soluzione chiara e stabile sarà quello di sciogliere la cella c3 dalla cella c1 spostando i suoi dati in basso nella cella b3 (o in b2).

inserisci qui la descrizione dell'immagine

Quindi abbiamo cluster chiari a1 + c1 vs b3. Ma guarda, qui di nuovo si presenta il modello diagonale - e il chi-quadrato del tavolo è alto sopra lo zero.

Conclusione . È impossibile avere due variabili nominali chi-quadrato non associate e buoni cluster dei casi di dati contemporaneamente. I cluster chiari e stabili implicano l'induzione dell'associazione variabile.

È anche chiaro che se l'associazione è presente - cioè esiste un modello diagonale o realizzabile riordinando - allora devono esistere i cluster. Questo perché la natura dei dati categorici ("tutto o niente") non consente i mezzitoni e le condizioni limite, quindi un'immagine come quella in basso a sinistra nella domanda del PO non può emergere con dati nominali categorici.

Suppongo che man mano che otteniamo sempre più variabili nominali (anziché solo due) che sono bivariatamente indipendenti dal chi-quadrato, ci avviciniamo alla possibilità di avere cluster. Ma zero chi-quadrato multivariato, mi aspetto che sarà ancora incompatibile con i cluster. Questo deve ancora essere mostrato (non da me o non questa volta).


Infine, un'osservazione sulla risposta di @ Bey (aka user75138) che ho parzialmente supportato. L'ho commentato con il mio consenso sul fatto che si deve prima decidere la metrica della distanza e la misura dell'associazione prima di poter porre la domanda "è l'associazione variabile indipendente dai cluster di casi?". Questo perché non esiste alcuna misura di associazione universale, né una definizione statistica universale di cluster. Aggiungo inoltre che deve anche decidere la tecnica di raggruppamento. Vari metodi di clustering definiscono in modo diverso quali sono i "cluster" che stanno cercando. Quindi, l'intera affermazione potrebbe essere vera.

Detto questo, il punto debole di un tale detto è che è troppo ampio. Si dovrebbe tentare di mostrare concretamente se e dove una scelta sulla metrica della distanza / misura dell'associazione / metodo del cluster apre spazio per conciliare la non correlazione con il clustering, per i dati nominali. Ricorderebbe, in particolare, che non tutti i molti coefficienti di prossimità per i dati binari hanno senso con i dati nominali, poiché per i dati nominali "in entrambi i casi manca questo attributo" non può mai essere la base della loro somiglianza.


Aggiorna , riportando i risultati delle mie simulazioni.

.1

r

I risultati generalmente supportano il ragionamento visualizzato sopra nella risposta. Non ci sono mai stati cluster molto chiari (come potrebbe accadere se l'associazione chi-quadrato fosse forte). E i risultati dei diversi criteri di raggruppamento spesso si contraddicono a vicenda (cosa che non è molto probabile aspettarsi quando i cluster sono davvero chiari).

A volte il clustering gerarchico offrirebbe una soluzione k-cluster che è piuttosto buona, come osservato attraverso un diagramma dei criteri di clustering; tuttavia, testarlo per stabilità non riuscirà a dimostrare che è stabile. Ad esempio, questi 4x4x3dati a 3 variabili

   V1  V2  V3   Count
    1   1   1   21
            2   24
            3   1
        2   1   22
            2   26
            3   1
        3   1   1
            2   1
            3   1
        4   1   17
            2   20
            3   1
    2   1   1   10
            2   12
            3   1
        2   1   10
            2   12
            3   1
        3   1   1
            2   1
            3   1
        4   1   8
            2   9
            3   1
    3   1   1   24
            2   28
            3   1
        2   1   25
            2   30
            3   1
        3   1   1
            2   1
            3   1
        4   1   19
            2   23
            3   1
    4   1   1   24
            2   28
            3   1
        2   1   26
            2   30
            3   1
        3   1   1
            2   1
            3   1
        4   1   19
            2   23
            3   1

quando raggruppato dal metodo completo di ricerca ipertestuale, la somiglianza dei dadi, sembra essere suddiviso - abbastanza ragionevolmente - in 9 cluster - in questo caso in accordo tra i tre giudici di validità interna:

inserisci qui la descrizione dell'immagine

Ma la soluzione non è stabile, come si vede dalla scarsità incompleta della matrice di confusione della soluzione originale rispetto alla soluzione permutata (riordinata sul caso):

inserisci qui la descrizione dell'immagine

Se la soluzione fosse stata stabile (come probabilmente avremmo dati continui) avremmo scelto la soluzione a 9 cluster come sufficientemente convincente.

Il clustering basato sulla distanza di probabilità logaritmica (in contrapposizione alla somiglianza dei dadi) può fornire soluzioni stabili e "non cattive" (internamente abbastanza valide). Questo perché la distanza, almeno com'è nel cluster TwoStep di SPSS, incoraggia e promuove cluster ad alta popolazione e trascura quelli a bassa popolazione. Non richiede che i cluster con una frequenza molto bassa all'interno siano densi all'interno (questa sembra essere la "politica" dell'analisi dei cluster TwoStep, che è stata progettata appositamente per i big data e per fornire pochi cluster; così i cluster piccoli sono visti come se fossero valori anomali) . Ad esempio, questi dati a 2 variabili

inserisci qui la descrizione dell'immagine

sarebbe combinato da TwoStep in 5 cluster come mostrato, stabilmente, e la soluzione a 5 cluster non è affatto male come giudicato da alcuni criteri di clustering. Perché i quattro cluster popolati sono molto densi all'interno (in realtà, tutti i casi identici), e solo un quinto cluster, che include pochi casi, è estremamente entropico. Così evidente in realtà è una soluzione a 12 cluster, non a 5 cluster, ma 12 è il numero totale di celle nella tabella delle frequenze, che, come "soluzione a cluster", è banale e poco interessante.


+1, questo è quello che sospettavo. Il due a due non associati vs multivariata non associati è un punto interessante. Considerando questo problema in modo più ampio, ciò implica che non c'è davvero alcun senso nel cercare di raggruppare dati puramente nominali? Vale a dire, dovremmo solo analizzare sempre le variabili se non abbiamo dati continui?
gung - Ripristina Monica

1
@gung, non conosci la massima che la correlazione tra variabili è l'altra faccia della polarizzazione dei casi ("diagolness")? Questo è vero, come massimo, anche per i dati continui. Ma per il continuo, la polarizzazione potrebbe non implicare cluster. Per categorico, sembra che implica. A causa della natura discreta. Quindi probabilmente sì, se le variabili categoriali sono correlate, ci sono cluster da trovare. Ma devi fare il clustering per ottenere i cluster nel modo migliore. Questa è la mia opinione provvisoria per la tua grande domanda.
ttnphns,

Non ne ho familiarità. Forse te lo chiederò più tardi. Questa è una buona informazione per cui masticare per ora, penso.
gung - Ripristina Monica

3

Come sicuramente sai, la correlazione è una misura della relazione lineare tra due variabili, non quanto i punti siano vicini l'uno all'altro. Questo spiega le prime quattro figure.

Naturalmente, potresti anche creare grafici simili per dati discreti e con valori reali.

X{UN,B,C,D}RXRX

Dovresti definire una metrica per lo spazio categorico prima di poter davvero parlare del raggruppamento in senso geometrico.


Sostenerei questa risposta e la riformulerei, se sia @gung che Bey lo consentano, in termini intuitivi. I dati raggruppati sono definiti da "piccole distanze nel cluster ma lunghe distanze tra i cluster". Nelle sue foto, l'OP ha scelto, implicitamente, la distanza euclidea per illustrare questa idea di aggregazione. Ha anche selezionato la nozione di correlazione di Pearson o qualcosa di simile ad essa - per illustrare l'idea di associazione tra variabili. Queste sono due scelte particolari / arbitrarie tra molte alternative.
ttnphns,

1
(cont.) Potrei persino immaginare che si possa scegliere tale misura di distanza e tale misura di associazione in cui il concetto di "raggruppamento di casi" e il concetto di "associazioni variabili" non sono ortogonali. E ora, per i dati categorici. Prima di poter verificare e mostrare se le due concezioni possono essere indipendenti o correlate, è necessario selezionare una misura di distanza specifica per punti di dati categorici e una misura di associazione specifica per variabili categoriali. Ci sono molte alternative tra cui scegliere! E la risposta dipenderà.
ttnphns,

@ttnphns (+1) Mi piace come hai inquadrato le due scelte principali: distanza e metriche di associazione. Non sono sicuro che la mia spiegazione non fosse intuitiva ... non puoi definire i cluster senza una nozione di distanza.

@ttnphns, penso che dipenda da Bey. Perché non trasformi alcune delle tue idee nella tua risposta? Sarei interessato all'idea che il "raggruppamento dei casi" e le "associazioni variabili" diventino non ortogonali per i dati continui, date alcune scelte. Oltre a & ttnphns, ho aggiunto alcuni chiarimenti alla domanda relativa alle misure di distanza e associazione, ma se preferisci dovresti sentirti libero di andare in una direzione diversa. Fammi sapere se ha bisogno di più. La mia preferenza è che la domanda rimanga il più "libera" possibile per dare ai rispondenti la flessibilità di andare in una direzione diversa.
gung - Ripristina Monica

1
@Bey, ci sono, ovviamente, molte altre possibili misure di distanza e associazione per i dati categorici, quindi sei libero di suggerire qualcosa di esoterico che lo faccia funzionare.
gung - Ripristina Monica

2

Considera la distanza di Hamming : la distanza di Hamming tra due stringhe di uguale lunghezza è il numero di posizioni in cui i simboli corrispondenti sono diversi. Da questa definizione sembra ovvio che possiamo produrre dati per i quali abbiamo cluster basati sulla distanza di Hamming ma nessuna correlazione tra le variabili.

Un esempio segue l'utilizzo di Mathematica.

Crea alcuni dati categorici (lunghe sequenze di 3 simboli di campionamento casuale uniforme di 4 caratteri):

chs = CharacterRange["a", "d"];
words = StringJoin @@@ Union[Table[RandomChoice[chs, 3], 40]];
Length[words]
words

(* 29 *)

(* {"aac", "aad", "abb", "aca", "acb", "acd", "adb", "adc", "baa", "bab", "bac", "bad", "bcc", "bcd", "caa", "cab", "cac", "cad", "cbb", "ccb", "cda", "cdb", "dab", "dba", "dbb", "dbd", "dca", "dcc", "dcd"} *)

Usa i diagrammi a mosaico per la relazione tra le variabili (probabilità condizionate per coppie di valori di colonne diverse):

Import["https://raw.githubusercontent.com/antononcube/MathematicaForPrediction/master/MosaicPlot.m"]
wordSeqs = Characters /@ words;
opts = {ColorRules -> {2 -> ColorData[7, "ColorList"]}, ImageSize -> 400};
Grid[{{MosaicPlot[wordSeqs[[All, {1, 2}]], 
    "ColumnNames" -> {"column 1", "column 2"}, opts],
   MosaicPlot[wordSeqs[[All, {2, 3}]], 
    "ColumnNames" -> {"column 2", "column 3"}, opts],
   MosaicPlot[wordSeqs[[All, {1, 3}]], 
    "ColumnNames" -> {"column 1", "column 3"}, opts]}}, Dividers -> All]

inserisci qui la descrizione dell'immagine

Possiamo vedere che non c'è correlazione.

Trova i cluster:

cls = FindClusters[words, 3, DistanceFunction -> HammingDistance]

(* {{"aac", "aad", "adc", "bac"}, {"abb", "acb", "adb", "baa", "bab", "bad", 
  "caa", "cab", "cac", "cad", "cbb", "ccb", "cda", "cdb", "dab", 
  "dbb"}, {"aca", "acd", "bcc", "bcd", "dba", "dbd", "dca", "dcc", "dcd"}} *)

Se sostituiamo ogni personaggio con un numero intero, da questa trama possiamo vedere come si formano i cluster con la distanza di Hamming:

esrules = Thread[chs -> Range[Length[chs]]]; gr1 = 
 ListPointPlot3D[Characters[cls] /. esrules, 
  PlotStyle -> {PointSize[0.02]}, PlotLegends -> Automatic, 
  FaceGrids -> {Bottom, Left, Back}];
gr2 = Graphics3D[
   Map[Text[#, Characters[#] /. esrules, {1, 1}] &, Flatten[cls]]];
Show[gr1, gr2]

inserisci qui la descrizione dell'immagine

Ulteriore clustering

Facciamo un grafico collegando le parole per le quali la distanza di Hamming è 1:

mat = Clip[Outer[HammingDistance, words, words], {0, 1}, {0, 0}];
nngr = AdjacencyGraph[mat, 
  VertexLabels -> Thread[Range[Length[words]] -> words]]

inserisci qui la descrizione dell'immagine

Ora cerchiamo di trovare i cluster della community:

CommunityGraphPlot[nngr]

inserisci qui la descrizione dell'immagine

Confronta i cluster di grafici con quello trovato FindClusters(che è stato costretto a trovare 3). Possiamo vedere che "bac" è altamente centrale e "aad" può appartenere al cluster verde, che corrisponde al cluster 1 nel grafico 3D.

Dati del grafico

Ecco l'elenco dei bordi di nngr:

{1 <-> 2, 1 <-> 8, 1 <-> 11, 1 <-> 17, 2 <-> 6, 2 <-> 12, 2 <-> 18, 
 3 <-> 5, 3 <-> 7, 3 <-> 19, 3 <-> 25, 4 <-> 5, 4 <-> 6, 4 <-> 27, 
 5 <-> 6, 5 <-> 7, 5 <-> 20, 6 <-> 14, 6 <-> 29, 7 <-> 8, 7 <-> 22, 
 9 <-> 10, 9 <-> 11, 9 <-> 12, 9 <-> 15, 10 <-> 11, 10 <-> 12, 
 10 <-> 16, 10 <-> 23, 11 <-> 12, 11 <-> 13, 11 <-> 17, 12 <-> 14, 
 12 <-> 18, 13 <-> 14, 13 <-> 28, 14 <-> 29, 15 <-> 16, 15 <-> 17, 
 15 <-> 18, 15 <-> 21, 16 <-> 17, 16 <-> 18, 16 <-> 19, 16 <-> 20, 
 16 <-> 22, 16 <-> 23, 17 <-> 18, 19 <-> 20, 19 <-> 22, 19 <-> 25, 
 20 <-> 22, 21 <-> 22, 23 <-> 25, 24 <-> 25, 24 <-> 26, 24 <-> 27, 
 25 <-> 26, 26 <-> 29, 27 <-> 28, 27 <-> 29, 28 <-> 29}

Benvenuti nel sito! Solo un paio di osservazioni: che lingua è il codice? (che non è annotato, inoltre). Come si definisce relationship between the variables (correlation)?
ttnphns,

Questo è interessante. Sfortunatamente, non conosco Mathematica (e ho meno familiarità con la modifica della distanza), quindi devo giocare con questo per essere sicuro di averlo capito. Non ho ancora avuto occasione, ma ho intenzione di farlo presto.
gung - Ripristina Monica

@gung Stavo pensando di farlo in R, ma ho pensato che la parte cruciale fosse la trama 3D e ruotandola nell'angolo / i giusto / i per avere un'idea della formazione dei cluster. Bella domanda, a proposito!
Anton Antonov,

Quindi hai "cluster" qui. Ma sono significativi? Sono meglio di altri cluster? Dalla trama, direi che il cluster 1 è piuttosto casuale. Allora perché è un cluster?
Anony-Mousse -Reststate Monica

1
I dati generati dall'uniforme casuale (!) Chiaramente non dovrebbero avere cluster. La trama della "comunità" è fuorviante perché non conserva le distanze. Il grafico a 1 distanza sottolinea questi problemi. Mostra anche un altro esempio cda,. Spiacenti, non sto "acquistando" questi "cluster". I dati sono uniformi, si suppone che non abbiano cluster.
anony-Mousse -Reinstate Monica

2

Il punto di @ttnphns sull'associazione a coppie vs multivariata è ben preso. A ciò si collega la vecchia visione sull'importanza di dimostrare l'associazione con metriche semplici prima di saltare in un framework multivariato. In altre parole, se semplici misure di associazione a coppie non mostrano alcuna relazione, diventa sempre più improbabile che anche le relazioni multivariate mostrino qualcosa. Dico "sempre più improbabile" a causa della riluttanza a usare la parola "impossibile". Inoltre, sono agnostico riguardo alla metrica impiegata se si tratta di correlazioni monotone di Spearman per dati ordinali, Somer's D , Kendall's Tau, correlazione policorica, MIC di Reshef, correlazione a distanza di Szelkey, qualunque cosa. La scelta della metrica non è importante in questa discussione.

Il lavoro originale svolto sulla ricerca di strutture latenti in informazioni categoriche risale ai primi anni '50 e Paul Lazersfeld, il sociologo della Columbia. In sostanza, ha inventato una classe di modelli variabili latenti che da allora ha visto ampi sviluppi e modifiche. In primo luogo, con il lavoro degli anni '60 di James Coleman, l'economista politico U of C, sulle propensioni elettorali degli elettori latenti, seguito dai contributi del defunto Clifford Clogg, anche un sociologo, il cui software MELISSA è stato il primo freeware di classe latente disponibile pubblicamente.

Negli anni '80, i modelli di classe latente sono stati estesi da informazioni puramente categoriche a modelli di miscele finite con lo sviluppo di strumenti come Latent Gold di Statistical Innovations. Inoltre, Bill Dillon, uno scienziato di marketing, ha sviluppato un programma Gauss per il montaggio di modelli latenti discriminanti di miscele finite. La letteratura su questo approccio per adattare miscele di informazioni categoriche e continue è in realtà piuttosto ampia. Non è altrettanto noto al di fuori dei campi in cui è stato maggiormente applicato, ad esempio, la scienza del marketing in cui questi modelli sono utilizzati per la segmentazione dei consumatori e il clustering.

Tuttavia, questi approcci basati su modelli di miscele finiti al clustering latente e all'analisi delle tabelle di contingenza sono considerati vecchia scuola nel mondo odierno di dati di massa. Lo stato dell'arte nel trovare un'associazione tra un'enorme serie di tabelle di contingenza sono le decomposizioni disponibili dall'implementazione di modelli di tensore come quelli sviluppati da David Dunson e altri bayesiani a Duke. Ecco l'abstract di uno dei loro articoli e un link:

L'analisi della tabella di contingenza si basa abitualmente su modelli log lineari, con l'analisi della struttura latente che fornisce un'alternativa comune. I modelli a struttura latente portano a una bassa fattorizzazione tensoriale della funzione di massa di probabilità per dati categoriali multivariati, mentre i modelli lineari di registro ottengono una riduzione della dimensionalità attraverso la scarsità. Poco si sa sulla relazione tra queste nozioni di riduzione della dimensionalità nei due paradigmi. Deriviamo diversi risultati relativi al supporto di un modello log-lineare al rango non negativo del tensore di probabilità associato. Motivati ​​da questi risultati, proponiamo una nuova classe collassata di decomposizioni tensoriali di Tucker, che collega le decomposizioni PARAFAC e Tucker esistenti, fornendo un quadro più flessibile per la caratterizzazione parsimoniosa di dati categorici multivariati.

https://arxiv.org/pdf/1404.0396.pdf


Questa è un'informazione interessante. Non sono così chiaro su come si collega alla domanda.
gung - Ripristina Monica

gung Data l'ampia discussione e le domande fondamentali sollevate sul fatto che esistano "gruppi di dati categorici", la tua mancanza di chiarezza sulla pertinenza del mio contributo è sconcertante. A mio avviso, le informazioni fornite illuminano aree di metodologia e scoperta della conoscenza precedentemente ignorate. Vorrei anche sottolineare la mia osservazione iniziale - esplicitamente indirizzata alla domanda dei PO - in merito al fatto che il passaggio dall'associazione a coppie a quella multivariata è altamente improbabile in assenza di associazione a livello più semplice.
Mike Hunter,

Non intendevo nessuna offesa, @DJohnson. Sono (in qualche modo) familiare con modelli latenti per il raggruppamento di dati categorici (ad esempio, analisi di classe latente). Ho accennato ad esso nel mio commento sopra. Non ero così familiare con la storia, i ricercatori e il software. È interessante. Non vedo come risponda alla domanda se ci possono essere cluster rilevabili nei dati nominali in cui le variabili non mostrano alcuna associazione. Se è quello che stai ottenendo, un esempio sarebbe utile. Puoi fornirne uno?
gung - Ripristina Monica

@gung Certo che no e nessuno preso.
Mike Hunter,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.