Macchine per la fattorizzazione consapevoli sul campo

11

Qualcuno può spiegare in che modo le macchine per la fattorizzazione consapevoli sul campo (FFM) sono paragonabili alle macchine per la fattorizzazione standard (FM)?

Standard: http://www.ismll.uni-hildesheim.de/pub/pdfs/Rendle2010FM.pdf

"Field Aware": http://www.csie.ntu.edu.tw/~r01922136/kaggle-2014-criteo.pdf

machine-learning recommender-system

— B_Miner
fonte

2

Sembra che tu stia chiedendo una descrizione di alto livello. Se ti riferisci alle diapositive collegate all'interno delle diapositive del tuo post originale, c'è un confronto tra FM (diapositiva 11) e FFM (diapositiva 12).

Ad esempio, se stai imparando informazioni su utenti e film, FM potrebbe avere il seguente fattore:

w_{user_1}*w_{movie_1}*... + w{user_1}*w_{genre_1}*...

FFM avrebbe:

w_{user_1, movies}*w_{movie_1, users}*... + w{user_1, genres}*w_{genre_1, users}*...

La differenza fondamentale è che in FM il w_{user_1}coefficiente è lo stesso in entrambi i termini: esiste un'unica nozione dell'utente. In FFM, impari w_{user_1}qualcosa di diverso per ogni contesto, ad esempio se interagisce con film o generi. Nota che non viene appreso separatamente per ciascun film o genere, ma generalmente per film e generi. Cioè, impara separatamente il contesto dell'utente per ogni tipo di interazione.

Si noti inoltre che è w_{movie_1}andato a w_{movie_1, users}quando quel termine sta interagendo con w_{user_1}un utente.

— ZakJ
fonte

2

Supponiamo (prima della codifica one-hot) di avere predittori / campi da un set (ad esempio genere di film, sesso dell'utente e razza dell'utente). Supponiamo inoltre che ogni predittore possa assumere uno dei valori di . Dopo la codifica one-hot, avrai una nuova serie di funzioni binarie di dimensione . $Z$ $z \in Z$ $k_z$ $X$ $K := \sum_{z \in Z}k_z$

In un modello con tutte le interazioni, è necessario stimare una matrice di coefficienti di interazione , che ha termini unici. $Q$ $K\times (K+1) / 2$

La macchina di fattorizzazione mette la struttura sulla matrice e presuppone che , dove è di dimensione , con un numero specificato dall'utente. Stimiamo invece di . $Q$ $Q \equiv W^{T} W$ $W$ $l \times K$ $1\le l \le K$ $W$ $Q$

La struttura mette macchina fattorizzazione campo-aware su pure. Partiziona in blocchi basati su (le caratteristiche originali). Se indica la blocco di , assumiamo che viene dal blocco di , dove è di dimensione $Q$ $Q$ $z$ $q_{z_i, z_j}$ $z_i,z_j$ $Q$ $q_{z_i,z_j}$ $z_i,z_j$ $W_j^{T} W_i$ $W_i$ . Come con l'FM, si stima la invece di . $l \times K$ $W_i$ $Q$

La fattorizzazione FM di ha parametri . La FM "consapevole della febbre" ha parametri. Un modello con tutte le interazioni ha i parametri . $Q$ $K \times l$ $K\times l\times |Z|$ $K \times (K+1)/2$

— Kalu
fonte

1

Anche le macchine di fattorizzazione standard hanno dei campi. La "novità" qui sembra essere l'uso delle funzionalità GBDT e l'applicazione dei trucchi di hashing. Non di grande effetto, a quanto pare: controlla l'intervallo di minuti in termini di prestazioni nell'ultima diapositiva.

— Emre
fonte

Secondo gli autori, esiste effettivamente una caratteristica del campo sensibile al modello, relativa all'implementazione standard - è indicata nei forum di Kaggle. Non ero in grado di seguire cosa significasse e quale fosse effettivamente la differenza.

— B_Miner

kaggle.com/c/criteo-display-ad-challenge/forums/t/10555/…

— B_Miner

Sulla base dello slie 14, sembra che abbiano basato la loro soluzione su questo documento ( Ensemble di filtri collaborativi e modelli ingegnerizzati per la previsione della percentuale di clic ).

— Emre,