Set di dati gratuito per classificazione dimensionale molto elevata [chiuso]

35

Quali sono i set di dati disponibili gratuitamente per la classificazione con più di 1000 funzioni (o punti campione se contiene curve)?

Esiste già una wiki della comunità sui set di dati gratuiti: individuazione di campioni di dati disponibili gratuitamente

Ma qui, sarebbe bello avere un elenco più mirato che può essere utilizzato in modo più conveniente , inoltre propongo le seguenti regole:

Un post per set di dati
Nessun collegamento al set di set di dati
ogni set di dati deve essere associato
- un nome (per capire di cosa si tratta) e un collegamento al set di dati (i set di dati R possono essere nominati con il nome del pacchetto)
- il numero di funzionalità (supponiamo che sia p ) la dimensione del set di dati (supponiamo che sia n ) e il numero di etichette / classe (supponiamo che sia k )
- un tipico tasso di errore derivante dalla tua esperienza (indica l'algoritmo usato in parole) o dalla letteratura (in quest'ultimo caso collega il documento)

— pettirosso
fonte

+1, ma quelli di NIPS2003 hanno solo train.labels - il documento NIPS2003 dice chiaramente "le etichette di convalida e set di test sono trattenute".

— denis,

Grazie. Il commento su NIPS è per la risposta di @mbq.

— Robin Girard,

Qualcuno qui ha un set di dati ad alta dimensione con più di due etichette di classe?

— hlin117,

3

Dorothea
n = 1950
p = 100000 (0,1 M, la metà è un rumore aggiunto artificialmente)
k = 2 (~ 10 volte sbilanciato)
Da NIPS2003 .

— utente88
fonte

Puoi spiegare come sono 100000 funzioni? Guardo i dati di allenamento e ogni riga ha forse 2500 numeri interi per riga.

— JeremyKun,

Si tratta di una matrice sparsa, il numero intero N indica che il valore dell'attributo N è 1.

3

Gisette
n = 13500
p = 5000 (metà è il rumore aggiunto artificialmente)
k = 2 (bilanciato)
Da NIPS2003 .

— user88
fonte

3

Dexter
n = 2600
p = 20000 (10k + 53 è rumore artificiale)
k = 2 (bilanciato)
Da NIPS2003 .

— utente88
fonte

Non capisco ... un set per persona?

@robin & @mbq Suggerirei di mantenerlo un set di dati per post. Questo in modo che le persone possano indicare con voti quali delle proposte suggerite suggeriscono / sostengono

— Peter Smit,

@Peter, OK, seguo la tua idea, ho modificato la domanda di conseguenza.

— Robin Girard,

3

Arcene
n = 900
p = 10000 (3k è il rumore aggiunto artificialmente)
k = 2 (~ bilanciato)
Da NIPS2003 .

— utente88
fonte

2

Prostata (matrice di espressione genica)

k = 2
n = 48 + 52
p = 6033

Disponibile tramite (tra l'altro) il pacchetto R suddivide il nome del set di dati: prostata

tasso di errore = 3/102 (vedi qui ) anche io penso che ci sia carta che mostra il tasso di errore 1/102. Direi che questo è un semplice test case.

— 4 giri
fonte