Set di dati di benchmark per il filtro collaborativo

9

Vorrei testare un nuovo algoritmo per il filtro collaborativo . Un caso d'uso tipico è di raccomandare i film in base alle preferenze degli utenti simili all'utente specifico.

Quali sono alcuni set di dati di riferimento comuni che i ricercatori utilizzano spesso per testare i loro algoritmi? So che all'interno di Computer Vision le persone usano spesso MNIST o CIFAR, ma non ho trovato set di dati simili per il filtro collaborativo.

dataset recommender-system

— pir
fonte

1

Hai dato un'occhiata al set di dati del premio Netflix? Sì, la competizione è finita da tempo ed è stata estratta dal sito ufficiale per motivi di privacy. Puoi ancora provare a trovarlo in altre posizioni.

— Vladislavs Dovgalecs,

Kaggle.com ha un sacco. Basta cercare "raccomandazione in: set di dati" o "raccomandazione in: concorrenza".

— corse

8

La risposta ovvia sarebbe il set di dati del premio Netflix, ci sono molte ricerche su di esso e la maggior parte degli algoritmi CF ha punteggi noti in esso.

Esistono altri set di dati disponibili che vengono generalmente utilizzati come benchmark:

Set di dati di obiettivi cinematografici : un set di dati di 20 milioni di rating utilizzato per l'analisi comparativa degli algoritmi CF;
Jester Dataset : un set di dati di consigli di battute con oltre 6 milioni di voti;
Puoi trovare molti altri set di dati in questo link

— João Almeida
fonte

1

Ho un repository che potrebbe aiutarti.

https://github.com/ArthurFortes/Datasets-for-Recommneder-Systems/

— Arthur Fortes
fonte

3

Si prega di non pubblicare risposte solo link, le risposte devono essere autosufficienti. Raccomando di modificare la risposta per aggiungere almeno alcune delle informazioni fornite dal collegamento, quindi fornire il collegamento per ulteriori esplorazioni.

— Mephy,