Apprendimento in streaming all'avanguardia


25

Ultimamente ho lavorato con set di dati di grandi dimensioni e ho trovato molti documenti sui metodi di streaming. Per dirne alcuni:

Tuttavia, non sono stato in grado di trovare alcuna documentazione su come si confrontano tra loro. Ogni articolo che leggo sembra condurre esperimenti su diversi set di dati.

Conosco sofia-ml, vowpal wabbit, ma sembrano implementare pochissimi metodi, rispetto all'enorme quantità di metodi esistenti!

Gli algoritmi meno comuni non sono abbastanza performanti? Esiste un documento che tenta di esaminare il maggior numero possibile di metodi?


7
In caso contrario, dovresti scriverlo tu stesso :)
Chris C

1
capisci che le persone del mondo accademico devono scrivere articoli / elaborare nuovi algoritmi e cercheranno i set di dati su cui il loro algoritmo funziona meglio. Ti consiglio di assicurarti di capire come funziona una libreria come vowpal-wabbit (cioè tutti i parametri ecc.).
seanv507,

1
In realtà è il contrario! Ho capito che le persone hanno scelto il miglior set di dati e sono generalmente relativamente silenziose su come hanno convalidato in modo incrociato gli algoritmi (sia i loro che i metodi concorrenti). Sto piuttosto cercando una versione in streaming di jmlr.org/papers/volume15/delgado14a/delgado14a.pdf
RUser4512

1
Mi piace molto il documento JMLR che hai collegato. Io stesso quindi non conosco un confronto simile per gli algoritmi di streaming. Probabilmente perché lo streaming è più di nicchia e anche perché mentre è già difficile confrontare i classificatori per i set di dati statici, è ancora più complicato fare un confronto equo per i dati di streaming.
stats0007,

1
Sebbene questi non rispondano specificamente alla tua domanda, due risorse correlate sono: Algoritmi di valutazione che apprendono dai flussi di dati di Gama et al., Che discute le tecniche di valutazione, e MOA (Massive Online Analysis) , un framework open source per il mining di flussi di dati che incorpora la capacità di valutare le prestazioni.
user77876

Risposte:


1

Un sondaggio rigoroso di più algoritmi simili al documento Delgado che hai collegato non è disponibile per quanto ne so, ma ci sono stati sforzi per raccogliere risultati per le famiglie di algoritmi.

Ecco alcune fonti che trovo utili (dichiarazione di non responsabilità: pubblico nella zona, quindi è probabile che io sia di parte nella mia selezione):

Alcuni pacchetti software:

Posso aggiungere più informazioni e fonti se necessario. Come altri hanno già detto, il campo potrebbe utilizzare un sondaggio completo.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.