Positivo utente-prodotto (dati sui clic) disponibile. Come generare negativi (dati senza clic)?


10

È molto comune raccomandare che abbiamo dati sui prodotti degli utenti che hanno un'etichetta come ad esempio un "clic". Per apprendere il modello, ho bisogno di dati click e no-click.

L'approccio più semplice da generare è quello di prendere coppie utente-prodotti che non si trovano nei dati sui clic. Tuttavia, ciò può essere fuorviante. Esempio:

user1, product1 (click) user2, product2 (click) user2, product3 (click) user3, product2 (click)

Posso prendere user1 con tutti i prodotti tranne product1 ed etichettarli come "no_click" e così via. Ma questo potrebbe non essere vero. Forse user1 avrebbe fatto clic su product2 se gli fosse stato mostrato product2. Ma solo perché gli sono stati mostrati altri set di prodotti - non ha avuto l'opportunità di decidere di fare clic / no-click product2.

Quindi, come affrontare il problema dei dati unari?


1
Penso che tu ti sia risposto da solo. Dovresti registrare il concetto di un'impressione o di uno spettacolo. Se hai mostrato un prodotto e il loro non è stato un clic, questo è quello che stai cercando.

Ma in realtà questo non è disponibile nei dati registrati. Questo è quello che ho menzionato. I dati contengono solo quale coppia utente-prodotto ha un'etichetta clic. Ciò che è stato mostrato e ciò che è stato fatto clic non viene registrato.
p.paliwal,

Inoltre, anche se diciamo - all'utente1 è stato mostrato prod1, prod2, prod3 (e ha fatto clic su prod1) - Quindi user1 con prod2 e prod3 avrà un'etichetta senza clic. Ma per quanto riguarda il resto dei prodotti (prod4, prod5, ...). Solo perché non sono stati mostrati, l'utente non ha avuto l'opportunità di decidere clic / no-click. Questo non dice se l'utente sarebbe interessato a prodotti non mostrati, quindi etichettare tutte le altre combinazioni come no-click potrebbe non essere vero nella realtà. Questo è ciò che ho anche spiegato in questione.
p.paliwal,

Risposte:


6

Quindi, ci sono due problemi.

  1. Registrazione di impressioni (spettacoli)
  2. Come gestire le non impressioni

Per (1) tu dovresti registrare queste informazioni. Se non è attualmente in fase di registrazione, è necessario iniziare a registrare queste informazioni. Dato che non si dispone di queste informazioni, si desidera fornire consigli. Fortunatamente, con un semplice clic dei dati è ancora possibile creare una matrice di utilità, vedere 9.1.1.

http://i.stanford.edu/~ullman/mmds/ch9.pdf

È quindi possibile utilizzare il filtro collaborativo basato sull'utente o sull'elemento come descritto nel documento. Questo è fondamentalmente un esercizio per popolare la matrice di utilità e provare a trovare "punteggi" per gli oggetti non cliccati. La tua raccomandazione sarebbe un articolo non cliccato con il punteggio più alto.

Per (2) farai comunque raccomandazioni su articoli non cliccati. Quindi, questo da solo non è un problema. Tuttavia, vorrai ottimizzare le tue impressioni. Inoltre, non è possibile avere una conoscenza completa in cui un utente può visualizzare tutte le opzioni possibili. Devi registrare le impressioni e comprendere una serie di cose.

  • mostra la velocità di un articolo
  • percentuale di clic di un articolo
  • come incorporare nuovi articoli
  • come ottimizzare quali elementi mostrare

Questo è un argomento enorme e fondamentalmente questo è il dominio problematico della pubblicità online. Tuttavia, un motore di raccomandazione cerca di trovare elementi di interesse nella coda lunga, che è un po 'diverso dall'ottimizzazione degli annunci. Questo è un ciclo di feedback per valutare la tua raccomandazione. I test A / B sono comuni. Ti consigliamo di testare la percentuale di clic e gli errori di raccomandazione tra il tuo sistema attuale e il nuovo sistema.

Vedi anche qui

http://cs.brynmawr.edu/Courses/cs380/fall2006/Herlocker2004.pdf

http://www.cs.umd.edu/~samir/498/Amazon-Recommendations.pdf

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.