Probabilità che a qualcuno piacerà l'immagine


11

Ho il seguente problema:
- Abbiamo impostato N persone
- Abbiamo impostato K immagini
- Ogni persona valuta un certo numero di immagini. Ad una persona potrebbe piacere o meno un'immagine (queste sono le uniche due possibilità). - Il problema è come calcolare la probabilità che ad una persona piaccia un'immagine particolare.

Darò un esempio presentando il mio intuito.
N = 4
K = 5
+ significa che a una persona piace l'immagine
- significa che a una persona non piace l'immagine
0 significa che a una persona non è stata chiesta l'immagine e che tale valore dovrebbe essere previsto

x 1 2 3 4 5    
1 + - 0 0 +   
2 + - + 0 +  
3 - - + + 0  
4 - 0 - - -

Alla persona 1 probabilmente piacerà l'immagine 3 perché, alla persona 2 hanno preferenze simili e alla persona 2 piace l'immagine 3.
Alla persona 4 probabilmente non piacerà l'immagine 2 perché a nessun altro piace e inoltre alla persona 4 non piacciono la maggior parte delle immagini.

Esiste un metodo ben noto, che può essere utilizzato per calcolare tale probabilità?


Data la mia esperienza limitata, non posso dare una risposta esatta. Tuttavia, credo che tu possa usare un panel di dati (perché consideri nel tuo esempio le variazioni tra individui e tra individui) con logit. Forse altri possono approfondire questo ...
teucer

Il tuo piccolo esempio è molto utile, ma suppongo che il tuo set di dati reale sia più grande. Quanto più grande, cioè (approssimativamente) quanto è grande la tua vera N e k ?
onestop

N e k possono essere enormi, ma il potere computazionale non è un problema.
Tomek Tarczynski,

Risposte:



6

Sembra un buon problema per l'apprendimento automatico, quindi mi concentrerò su questo gruppo di metodi.

La prima e l'idea più ovvia è l'algoritmo kNN. Lì calcoli prima la somiglianza tra gli spettatori e quindi prevedi i voti mancanti con il voto medio su questa immagine cast di utenti simili. Per dettagli vedi Wikipedia .

Un'altra idea è quella di far crescere una foresta casuale senza supervisione su questi dati (in entrambi i casi, con attributi in immagini o persone, qualunque cosa sia meglio) e imputare i dati mancanti in base alla struttura della foresta; l'intero metodo è implementato e descritto nel randomForestpacchetto R , cerca la rfImputefunzione.

Infine, è possibile ristrutturare il problema in una semplice attività di classificazione, ad esempio creare un oggetto di ogni zero nella matrice e provare a pensare ad alcuni descrittori ragionevoli (come il voto medio degli spettatori, il voto medio dell'immagine, il voto di un massimo, il secondo di più, .. visualizzatore simile, lo stesso con l'immagine, forse alcuni dati esterni (tonalità media dell'immagine, età del votante, ecc.) E quindi provare vari classificatori su questi dati (SVM, RF, NB, ...).

Ci sono anche alcune possibilità più complesse; per una panoramica puoi cercare le soluzioni per la sfida del premio Netflix (che era un problema simile).

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.