Set di dati gratuito per classificazione dimensionale molto elevata [chiuso]


35

Quali sono i set di dati disponibili gratuitamente per la classificazione con più di 1000 funzioni (o punti campione se contiene curve)?

Esiste già una wiki della comunità sui set di dati gratuiti: individuazione di campioni di dati disponibili gratuitamente

Ma qui, sarebbe bello avere un elenco più mirato che può essere utilizzato in modo più conveniente , inoltre propongo le seguenti regole:

  1. Un post per set di dati
  2. Nessun collegamento al set di set di dati
  3. ogni set di dati deve essere associato

    • un nome (per capire di cosa si tratta) e un collegamento al set di dati (i set di dati R possono essere nominati con il nome del pacchetto)

    • il numero di funzionalità (supponiamo che sia p ) la dimensione del set di dati (supponiamo che sia n ) e il numero di etichette / classe (supponiamo che sia k )

    • un tipico tasso di errore derivante dalla tua esperienza (indica l'algoritmo usato in parole) o dalla letteratura (in quest'ultimo caso collega il documento)


+1, ma quelli di NIPS2003 hanno solo train.labels - il documento NIPS2003 dice chiaramente "le etichette di convalida e set di test sono trattenute".
denis,

Grazie. Il commento su NIPS è per la risposta di @mbq.
Robin Girard,

Qualcuno qui ha un set di dati ad alta dimensione con più di due etichette di classe?
hlin117,

Risposte:


3

Dorothea
n = 1950
p = 100000 (0,1 M, la metà è un rumore aggiunto artificialmente)
k = 2 (~ 10 volte sbilanciato)
Da NIPS2003 .


Puoi spiegare come sono 100000 funzioni? Guardo i dati di allenamento e ogni riga ha forse 2500 numeri interi per riga.
JeremyKun,

Si tratta di una matrice sparsa, il numero intero N indica che il valore dell'attributo N è 1.


3

Dexter
n = 2600
p = 20000 (10k + 53 è rumore artificiale)
k = 2 (bilanciato)
Da NIPS2003 .


Non capisco ... un set per persona?

@robin & @mbq Suggerirei di mantenerlo un set di dati per post. Questo in modo che le persone possano indicare con voti quali delle proposte suggerite suggeriscono / sostengono
Peter Smit,

@Peter, OK, seguo la tua idea, ho modificato la domanda di conseguenza.
Robin Girard,


2

Prostata (matrice di espressione genica)

  • k = 2
  • n = 48 + 52
  • p = 6033

Disponibile tramite (tra l'altro) il pacchetto R suddivide il nome del set di dati: prostata

tasso di errore = 3/102 (vedi qui ) anche io penso che ci sia carta che mostra il tasso di errore 1/102. Direi che questo è un semplice test case.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.