Iniziare con il ciclismo


9

Ho fatto delle ricerche casuali su Internet sui ciclisti. (Ho letto l'articolo Wiki diverse volte.) Finora sembra che ci siano poche definizioni o terminologie standard.

  1. Mi chiedevo se ci fossero documenti o libri standard che chiunque fosse interessato agli algoritmi per trovare i ciclisti dovrebbe leggere.

  2. È possibile dire qual è lo stato dell'arte nel campo? Sono stato incuriosito dall'idea di trovare i ciclisti utilizzando algoritmi genetici, quindi apprezzerei i commenti su tale approccio, in particolare nel contesto di altri approcci.

  3. Di solito nel clustering, l'obiettivo è di partizionare il set di dati in gruppi in cui ogni elemento si trova in un gruppo. Gli algoritmi di bicluster cercano anche di mettere tutti gli elementi in un particolare gruppo?

Risposte:


16

Non l'ho mai usato direttamente, quindi posso solo condividere alcuni documenti che ho avuto e pensieri generali su quella tecnica (che riguardano principalmente le tue domande 1 e 3).

La mia comprensione generale del ciclismo deriva principalmente da studi genetici (2-6) in cui cerchiamo di spiegare gruppi di geni e gruppi di individui: in breve, stiamo cercando di raggruppare campioni che condividano insieme un profilo simile dell'espressione genica (questo potrebbe essere correlato allo stato di malattia, ad esempio) e ai geni che contribuiscono a questo modello di profilazione genetica. Un sondaggio sullo stato dell'arte dei set di dati biologici "massicci" è disponibile nelle diapositive di Pardalos, Biclustering . Si noti che esiste un pacchetto R, biclust , con applicazioni ai dati di microarray.

In effetti, la mia idea iniziale era quella di applicare questa metodologia alla diagnosi clinica, perché consente di inserire caratteristiche o variabili in più di un cluster, il che è interessante dal punto di vista semeiologico perché i sintomi che raggruppano insieme consentono di definire la sindrome , ma alcuni sintomi possono si sovrappongono in diverse malattie. Una buona discussione può essere trovata in Cramer et al., Comorbidità: una prospettiva di rete (Behavioral and Brain Sciences 2010, 33, 137-193).

Una tecnica in qualche modo correlata è il filtro collaborativo . Una buona recensione è stata resa disponibile da Su e Khoshgoftaar ( Advances in Artificial Intelligence , 2009): A Survey of Collaborative Filtering Techniques . Altri riferimenti sono elencati alla fine. Forse anche l'analisi di articoli frequenti , come esemplificato nel problema del paniere di mercato , è collegata ad esso, ma non ho mai studiato questo. Un altro esempio di co-clustering è quando vogliamo raggruppare simultaneamente parole e documenti, come nel text mining, ad esempio Dhillon (2001). Raggruppamento di documenti e parole mediante il partizionamento grafico spettrale bipartito . Proc. KDD , pagg. 269–274.

A proposito di alcuni riferimenti generali, ecco un elenco non molto esaustivo che spero potresti trovare utile:

  1. Jain, AK (2010). Clustering dei dati: 50 anni oltre K-mean . Lettere di riconoscimento del modello , 31 , 651–666
  2. Carmona-Saez et al. (2006). Biclustering dei dati di espressione genica mediante fattorizzazione a matrice non negativa non uniforme . BMC Bioinformatics , 7 , 78.
  3. Prelic et al. (2006). Un confronto sistematico e una valutazione dei metodi di ciclismo per i dati di espressione genica . Bioinformatica , 22 (9) , 1122-1129. www.tik.ee.ethz.ch/sop/bimax
  4. DiMaggio et al. (2008). Ciclismo attraverso un riordinamento ottimale delle matrici di dati nella biologia dei sistemi: metodi rigorosi e studi comparativi . BMC Bioinformatics , 9 , 458.
  5. Santamaria et al. (2008). BicOverlapper: uno strumento per la visualizzazione ciclistica . Bioinformatica , 24 (9) , 1212-1213.
  6. Madeira, SC e Oliveira, AL (2004) Algoritmi Bicluster per l'analisi dei dati biologici: un sondaggio . IEEE Trans. Comput. Biol. Bioinform. , 1 , 24–45.
  7. Badea, L. (2009). Clustergrammi generalizzati per ciclomotori sovrapposti . IJCAI
  8. Symeonidis, P. (2006). Filtro collaborativo per ciclisti più vicino . WEBKDD

1
Bella risposta. Se avessi un altro voto, voterei di nuovo per questa risposta.
Henry B.

@chl Il primo link alle diapositive Pardalos sembra essere morto. Qualcuno sa di una posizione alternativa?
Erik

@Erik La maggior parte del materiale delle diapositive può essere trovato in Biclustering coerente tramite la programmazione frazionaria 0–1 dello stesso autore. (Ho controllato il contenuto delle diapositive con la mia copia del link morto.)
chl

4

Ecco un buon sondaggio / recensione:

Stanislav Busygin, Oleg Prokopyev e Panos M. Pardalos. Ciclismo nel data mining . Computers & Operations Research, 35 (9): 2964–2987, settembre 2008.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.