Set di dati classici di analisi di rete


10

Esistono diversi set di dati classici per le attività di classificazione / regressione di apprendimento automatico. I più popolari sono:

Ma qualcuno conosce set di dati simili per l'analisi di reti / teoria dei grafi? Più concreto - Sto cercando set di dati standard Gold per il confronto / valutazione / apprendimento:

  1. misure di centralità;
  2. algoritmi di clustering di rete.

Non ho bisogno di un vasto elenco di reti / grafici disponibili pubblicamente, ma un paio di set di dati realmente indispensabili.

MODIFICARE:

È abbastanza difficile fornire funzionalità esatte per "set di dati standard", ma ecco alcuni pensieri. Penso che il vero set di dati classico dovrebbe soddisfare questi criteri:

  • Riferimenti multipli in articoli e libri di testo;
  • Inclusione in noti pacchetti software di analisi di rete;
  • Tempo sufficiente di esistenza;
  • Utilizzo in numerosi corsi sull'analisi dei grafici.

Per quanto riguarda il mio campo di interesse, ho anche bisogno di classi etichettate per vertici e / o "punteggi di autorità" precompilati (o predefiniti) (ovvero stime di centralità). Dopo aver fatto questa domanda ho continuato a cercare, ed ecco alcuni esempi adatti:

  • Zachary's Karate Club : introdotto nel 1977, citato più di 1,5k volte (secondo Google Scholar), i vertici hanno l'attributo Faction (che può essere utilizzato per il clustering).
  • Rete di collaborazione Erdos : sfortunatamente, non ho trovato questa rete in forma di file di dati, ma è piuttosto famosa e se qualcuno arricchirà la rete con i dati di specializzazione dei matematici, potrebbe anche essere usato per testare algoritmi di clustering.

1
Penso che potresti migliorare questa domanda definendo il "set di dati standard" in modo più obiettivo. Cosa lo rende "da sapere"? Dovrebbe essere referenziato in numerosi libri di testo? Utilizzato in numerosi modelli pubblicati? Ecc. Altrimenti le risposte saranno soggettive E cambieranno col passare del tempo. Una brutta combinazione qui.
Air

Risposte:


5

Quello che stai cercando può essere trovato in KONECT (il sito è inattivo mentre sto scrivendo questo, ma dovrebbe essere risolto presto!). È quasi la raccolta di dati più completa per l'analisi della rete. Ma la domanda è quale è più standard da usare?

Bene, non esiste una risposta chiara se non quella del Karate Club di Zachary!

Se esegui una revisione della letteratura negli algoritmi di rilevamento della community, vedrai che quasi tutti i documenti brillanti utilizzano reti diverse. Il mio suggerimento è quello che hanno fatto Andrea Lancichinetti e Santo Fortunato per i grafici di benchmarking. Hanno proposto alcuni algoritmi di generazione di grafici di riferimento, ad esempio questo .

Spero che sia d'aiuto :)


puoi trovarlo tramite la macchina del ritorno, è il tuo migliore amico web.archive.org/web/20150402165739/http://konect.uni-koblenz.de/…
albert,


1

L'unica cosa che so sono i dati di riferimento per i database Graph, come Neo4j.

Puoi trovare collegamenti simili a questo: http://istc-bigdata.org/index.php/benchmarking-graph-d Database/

dove puoi trovare dati per testare l'analisi di rete e la teoria dei grafi.

Inoltre, potresti giocare con l'API di Twitter / Facebook per raccogliere i tuoi dati. Questo è anche un suggerimento nel caso in cui non trovi i dati che stai cercando.


Grazie, ma non è esattamente quello che sto cercando. Vedi aggiornamento per maggiori dettagli.
Sobach,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.