Significato delle caratteristiche latenti?


15

Sto cercando di capire i modelli di fattorizzazione a matrice per i sistemi di raccomandazione e leggo sempre "caratteristiche latenti", ma cosa significa? So cosa significa una funzionalità per un set di dati di training, ma non sono in grado di comprendere l'idea di funzionalità latenti. Ogni articolo sull'argomento che posso trovare è troppo superficiale.

Modificare:

se almeno puoi indicarmi alcuni documenti che spiegano l'idea.


Ecco un semplice esempio che potrebbe aiutarti quuxlabs.com/blog/2010/09/…
Akavall,

Risposte:


9

Latente significa non direttamente osservabile. L'uso comune del termine in PCA e Analisi fattoriale è quello di ridurre la dimensione di un gran numero di funzioni osservabili direttamente in un insieme più piccolo di caratteristiche osservabili indirettamente.


quindi le dimensioni ridotte sono quindi le caratteristiche latenti? Nel caso della PCA, gli autovettori della matrice di covarianza, cioè i componenti principali, giusto?
Jack Twain,

Corretto @AlexTwain
samthebest

Potete fornirmi un tutorial / documento che lo menziona? Non riesco a trovare alcun tutorial / documento sistematico!
Jack Twain,

Bene, la pagina della wiki è abbastanza buona, puoi seguire i riferimenti lì se vuoi davvero en.wikipedia.org/wiki/Latent_variable
samthebest

1
@JackTwain l'analogia PCA corretta è che le caratteristiche latenti sono gli autovettori. I componenti principali sono i pesi assegnati a ciascuna osservazione per i principali autovettori. In altri modelli di fattorizzazione a matrice le caratteristiche latenti svolgono il ruolo di autovettori. Questo può sembrare pedante, ma l'errore non crea fine alla confusione per le persone.
congetture il

3

Nel contesto del Metodo di fattorizzazione, le funzionalità latenti sono generalmente intese a caratterizzare gli elementi lungo ciascuna dimensione. Lasciami spiegare con l'esempio.

RRuipuTqipuuqii

puqi


Ho letto documenti in cui le funzioni latenti (ad esempio il "vettore utente") vengono utilizzate per prevedere alcune variabili target, usiamo il genere come esempio. "Funziona" in quanto un modello predittivo può essere costruito in questo modo. La mia domanda è qual è la differenza tra il "vettore utente" e, diciamo, la media dei "vettori oggetto" per tutti gli oggetti che un utente ha "visitato"? IOW, ti aspetteresti che il modello predittivo di cui sopra sia migliore o peggiore con l'uno contro l'altro? Grazie (se mai lo vedi).
thecity2

@ thecity2, puoi fare la media degli articoli degli utenti, e questo potrebbe effettivamente essere utile quando hai a che fare con i nuovi arrivati ​​per i quali non hai precaricati i vettori degli utenti (anche se dovrebbe essere difficile eseguire alcune iterazioni di ottimizzazione per calcolarlo). C'è anche un problema con la media semplice: più oggetti ha consumato l'utente - più vicino a zero è probabile che sia il loro vettore medio (a causa del tipico regolarizzatore L2 e forse di altre cattive proprietà degli spazi ad alta dimensione). Infine, avere un vettore separato è più flessibile: il tuo modello può apprendere tale media.
Artem Sobolev,

Detto questo, ci sono tentativi di utilizzare la cronologia dell'utente per modellare il vettore dell'utente. Ad esempio, vedi l'articolo "Costruisci il tuo raccomandatore di musica modellando i flussi radio su Internet"
Artem Sobolev,

0

Direi che i fattori sono più rappresentativi dei componenti principali per ottenere una percezione di "latenza" / occultamento di una variabile. La latenza è uno dei motivi per cui gli scienziati comportamentali misurano costrutti percettivi come sentimento, tristezza in termini di più elementi / misure e derivano un numero per tali variabili nascoste che non possono essere misurate direttamente.


0

Qui i tuoi dati sono classificazioni fornite da vari utenti a vari film. Come altri hanno sottolineato, i mezzi latenti non sono direttamente osservabili.

Per un film, le sue caratteristiche latenti determinano la quantità di azione, romanticismo, trama, un attore famoso, ecc. Allo stesso modo, per un altro set di dati composto da cifre scritte a mano, le variabili latenti possono essere angolo dei bordi, inclinazione, ecc.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.