Macchine per la fattorizzazione consapevoli sul campo


Risposte:


2

Sembra che tu stia chiedendo una descrizione di alto livello. Se ti riferisci alle diapositive collegate all'interno delle diapositive del tuo post originale, c'è un confronto tra FM (diapositiva 11) e FFM (diapositiva 12).

Ad esempio, se stai imparando informazioni su utenti e film, FM potrebbe avere il seguente fattore:

w_{user_1}*w_{movie_1}*... + w{user_1}*w_{genre_1}*...

FFM avrebbe:

w_{user_1, movies}*w_{movie_1, users}*... + w{user_1, genres}*w_{genre_1, users}*...

La differenza fondamentale è che in FM il w_{user_1}coefficiente è lo stesso in entrambi i termini: esiste un'unica nozione dell'utente. In FFM, impari w_{user_1}qualcosa di diverso per ogni contesto, ad esempio se interagisce con film o generi. Nota che non viene appreso separatamente per ciascun film o genere, ma generalmente per film e generi. Cioè, impara separatamente il contesto dell'utente per ogni tipo di interazione.

Si noti inoltre che è w_{movie_1}andato a w_{movie_1, users}quando quel termine sta interagendo con w_{user_1}un utente.


2

Supponiamo (prima della codifica one-hot) di avere predittori / campi da un set (ad esempio genere di film, sesso dell'utente e razza dell'utente). Supponiamo inoltre che ogni predittore z Z possa assumere uno dei valori di k z . Dopo la codifica one-hot, avrai una nuova serie di funzioni binarie X di dimensione K : = z Z k z .ZzZkzXK:=zZkz

In un modello con tutte le interazioni, è necessario stimare una matrice di coefficienti di interazione , che ha K × ( K + 1 ) / 2 termini unici.QK×(K+1)/2

La macchina di fattorizzazione mette la struttura sulla matrice e presuppone che Q W T W , dove W è di dimensione l × K , con 1 l K un numero specificato dall'utente. Stimiamo W invece di Q .QQWTWWl×K1lKWQ

La struttura mette macchina fattorizzazione campo-aware su pure. Partiziona Q in blocchi basati su z (le caratteristiche originali). Se q z i , z j indica la z i , z j blocco di Q , assumiamo che q z i , z j viene dal z i , z j blocco di W T j W i , dove W i è di dimensione l ×QQzqzi,zjzi,zjQqzi,zjzi,zjWjTWiWi . Come con l'FM, si stima la W i invece di Q .l×KWiQ

La fattorizzazione FM di ha parametri K × l . La FM "consapevole della febbre" ha K × l × | Z | parametri. Un modello con tutte le interazioni ha i parametri K × ( K + 1 ) / 2 . QK×lK×l×|Z|K×(K+1)/2


1

Anche le macchine di fattorizzazione standard hanno dei campi. La "novità" qui sembra essere l'uso delle funzionalità GBDT e l'applicazione dei trucchi di hashing. Non di grande effetto, a quanto pare: controlla l'intervallo di minuti in termini di prestazioni nell'ultima diapositiva.


Secondo gli autori, esiste effettivamente una caratteristica del campo sensibile al modello, relativa all'implementazione standard - è indicata nei forum di Kaggle. Non ero in grado di seguire cosa significasse e quale fosse effettivamente la differenza.
B_Miner


Sulla base dello slie 14, sembra che abbiano basato la loro soluzione su questo documento ( Ensemble di filtri collaborativi e modelli ingegnerizzati per la previsione della percentuale di clic ).
Emre,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.