È molto comune raccomandare che abbiamo dati sui prodotti degli utenti che hanno un'etichetta come ad esempio un "clic". Per apprendere il modello, ho bisogno di dati click e no-click.
L'approccio più semplice da generare è quello di prendere coppie utente-prodotti che non si trovano nei dati sui clic. Tuttavia, ciò può essere fuorviante. Esempio:
user1, product1 (click)
user2, product2 (click)
user2, product3 (click)
user3, product2 (click)
Posso prendere user1 con tutti i prodotti tranne product1 ed etichettarli come "no_click" e così via. Ma questo potrebbe non essere vero. Forse user1 avrebbe fatto clic su product2 se gli fosse stato mostrato product2. Ma solo perché gli sono stati mostrati altri set di prodotti - non ha avuto l'opportunità di decidere di fare clic / no-click product2.
Quindi, come affrontare il problema dei dati unari?