Qual è il significato degli autovettori di una matrice di informazione reciproca?


14

Quando si osservano gli autovettori della matrice di covarianza, si ottengono le direzioni della massima varianza (il primo autovettore è la direzione in cui i dati variano maggiormente, ecc.); questo si chiama analisi dei componenti principali (PCA).

Mi chiedevo cosa significherebbe guardare gli autovettori / i valori della matrice delle informazioni reciproche, avrebbero puntato nella direzione della massima entropia?


4
Non lo so, ma ho appena imparato che le matrici di informazioni reciproche non sono sempre semi-definite positive : arxiv.org/abs/1307.6673 .
ameba dice Ripristina Monica il

3
Ricorda qualcosa su cui abbiamo lavorato: people.eng.unimelb.edu.au/baileyj/papers/frp0038-Vinh.pdf
Simone

Risposte:


3

Sebbene non sia una risposta diretta (poiché si tratta di informazioni reciproche puntuali ), guarda il documento relativo a word2vec con una scomposizione del valore singolare della matrice PMI:

Analizziamo skip-gram con negative-sampling (SGNS), un metodo di incorporamento delle parole introdotto da Mikolov et al., E mostriamo che sta implicitamente fattorizzando una matrice di contesto di parole, le cui celle sono l'informazione reciproca puntuale (PMI) dei rispettivi coppie di parole e contesto, spostate da una costante globale. Scopriamo che un altro metodo di incorporamento, NCE, sta implicitamente fattorizzando una matrice simile, in cui ogni cella è la probabilità condizionata (spostata) del log di una parola dato il suo contesto. Mostriamo che l'uso di una matrice di contesto di parole PMI spostata positiva positiva per rappresentare le parole migliora i risultati su due compiti di somiglianza di parole e uno di due compiti di analogia. Quando si preferiscono densi vettori a bassa dimensione, la fattorizzazione esatta con SVD può ottenere soluzioni almeno buone quanto quelle di SGNS per i compiti di somiglianza di parole. Per quanto riguarda l'analogia, SGNS rimane superiore a SVD. Noi ipotizziamo che ciò derivi dalla natura ponderata della fattorizzazione di SGNS.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.