Per il nostro progetto del corso finale in Data Science, abbiamo proposto quanto segue-
Dai il set di dati di Amazon Reviews , prevediamo di elaborare un algoritmo (basato approssimativamente sul PageRank personalizzato) che determina una posizione strategica per la pubblicazione di annunci su Amazon. Ad esempio, ci sono milioni di prodotti su Amazon. E il set di dati ti dà un'idea di quali prodotti sono correlati, quali prodotti sono stati riuniti, visualizzati insieme ecc. (Possiamo costruire un grafico con queste informazioni anche visualizzate e anche acquistate) Ti dà anche le recensioni associate a ciascun prodotto 14 anni. Utilizzando tutte queste informazioni, valuteremo / classificheremo i prodotti su Amazon. Ora sei un fornitore su Amazon che desidera migliorare il traffico verso la sua pagina di prodotto. Il nostro algoritmo ti aiuta a identificare le posizioni strategiche nel grafico in cui puoi posizionare il tuo annuncio in modo da ottenere il massimo traffico.
Ora, la domanda del nostro professore è: come convaliderai il tuo algoritmo senza utenti reali? Abbiamo detto-
Possiamo modellare un set fisso di utenti. Alcuni utenti seguono
also_bought
e sialso_viewed
collegano al terzo hop più spesso del primo o del quinto hop. Lì il comportamento degli utenti è normalmente distribuito. Alcuni altri utenti difficilmente navigano oltre il primo hop. Questo insieme di comportamenti degli utenti è distribuito esponenzialmente.
Il nostro professore ha detto: qualunque sia la distribuzione seguita dagli utenti, gli utenti navigano utilizzando i collegamenti per prodotti simili. Il tuo algoritmo di classificazione considera anche la somiglianza tra i prodotti 2 per classificare i prodotti. Quindi usare questo algoritmo di validazione è un po ' cheating
. Vieni con qualche altro comportamento dell'utente, qualcosa di più realistico e ortogonale all'algoritmo.
Qualche idea su come modellare il comportamento degli utenti? Sono felice di fornire maggiori dettagli sull'algo.