Il teorema di Mercer funziona al contrario?


11

Un collega ha una funzione e per i nostri scopi è un black-box. La funzione misura la somiglianza di due oggetti.ss(a,b)

Sappiamo per certo che ha queste proprietà:s

  1. I punteggi di somiglianza sono numeri reali compresi tra 0 e 1, inclusi.
  2. Solo gli oggetti identici a se stessi hanno punteggi di 1. Quindi implica e viceversa.s(a,b)=1a=b
  3. Ci viene garantito che .s(a,b)=s(b,a)

Ora vuole lavorare con algoritmi che richiedono distanze come input e dipendono dagli input che soddisfano gli assiomi della distanza.

Il mio pensiero era che potevamo trattare i punteggi di somiglianza come se fossero il risultato del kernel RBF con una certa distanza (potrebbe essere una norma euclidea o un'altra distanza), cioè possiamo semplicemente riorganizzare con l'algebra e supporre che i punteggi di somiglianza si riferiscano a il kernel RBF per una coppia di punti in un sistema di coordinate (sconosciuto).

S(Xio,Xj)=exp(-d(mio,mj)2r)-rlogS(Xio,Xj)=d(mio,mj)

Dove è un vettore sconosciuto e è l'oggetto di interesse e è una certa distanza.mαRnXαd

Le ovvie proprietà funzionano, in termini di rispetto degli assiomi di distanza. I risultati devono essere non negativi e le distanze sono solo 0 per oggetti identici. Ma non è ovvio che questo insieme piuttosto generale di circostanze sia sufficiente per implicare che la disuguaglianza del triangolo sia rispettata.

D'altra parte, sembra un po 'folle.

Quindi la mia domanda è "esiste una tale che per qualche metrica di distanza date queste proprietà su , e che cos'è quella ?"f ( s ( a , b ) ) = d ( a , b ) d s fff(S(un',B))=d(un',B)dSf

Se non esiste in queste circostanze generali su , esiste un insieme aggiuntivo di requisiti per cui esiste?s ffSf


3
Si noti che anche se si è data l'insieme delle distanze a due a due che soddisfano gli assiomi di distanza, è non è garantito che ci sia uno spazio euclideo con punti realizzando queste distanze. Un tale incorporamento non è sempre possibile. Vedi ad esempio math.stackexchange.com/questions/1000006 . d(un',B)
ameba dice di reintegrare Monica

Questa è una discussione molto interessante! Grazie per averlo condiviso. Non era mia intenzione limitarmi a una distanza particolare. (Dato che, muovendosi nella direzione opposta, si potrebbe usare il kernel RBF con una distanza non euclidea.)
Sycorax dice Reinstate Monica

Quindi la tua domanda è solo su come convertire in modo che soddisfi la disuguaglianza del triangolo? Se questa matrice di distanze sia integrabile in uno spazio euclideo, non importa per te. Corretta? La mia intuizione è che per un arbitrario non sarà possibile. d ( a , b ) = f ( s ( a , b ) ) d sS(un',B)d(un',B)=f(S(un',B))dS
ameba dice che ripristini Monica

Questo è corretto. Ho il sospetto che ciò non sia possibile, almeno non senza ulteriori restrizioni su . S
Sycorax dice di reintegrare Monica

f:f(x)=Ix>0 porta sempre alla metrica discreta ( en.wikipedia.org/wiki/Discrete_space ), ma questo probabilmente non è previsto, quindi è necessario aggiungere alcune condizioni (?)
Juho Kokkala

Risposte:


6

Il teorema di Mercer funziona al contrario?

Non in tutti i casi

Wikipedia: "In matematica, in particolare nell'analisi funzionale, il teorema di Mercer è una rappresentazione di una funzione simmetrica definita positiva su un quadrato come somma di una sequenza convergente di funzioni del prodotto. Questo teorema, presentato in (Mercer 1909), è uno dei risultati più notevoli del lavoro di James Mercer: è un importante strumento teorico nella teoria delle equazioni integrali; viene utilizzato nella teoria spaziale di Hilbert dei processi stocastici, ad esempio il teorema di Karhunen – Loève; e viene anche utilizzato per caratterizzare un kernel semi-definito positivo simmetrico.

È una " mappatura da molti a uno " su uno spazio di Hilbert . - una grave semplificazione sarebbe quello di descrivere come una hash o checksum che è possibile testare contro un file per determinare l'identità o meno.

Spiegazione più tecnica: teorema di disintegrazione

"In matematica, il teorema di disintegrazione è un risultato nella teoria della misura e nella teoria della probabilità. Definisce rigorosamente l'idea di una " restrizione "non banale di una misura a un sottoinsieme zero della misura dello spazio di misura in questione. È correlato al esistenza di misure di probabilità condizionate. In un certo senso, la "disintegrazione" è il processo opposto alla costruzione di una misura di prodotto ".

Vedi anche: " Il teorema di Fubini-Tonelli ", " Perdita di cerniera ", " Funzione di perdita " e " Quanto è buono un kernel se usato come misura di somiglianza? " (Giugno 2007) di Nathan Srebro, l'abstract:

" Riassunto. Recentemente, Balcan e Blum hanno suggerito una teoria dell'apprendimento basata su funzioni di somiglianza generale, anziché su kernel semi-definiti positivi. Studiamo il divario tra le garanzie di apprendimento basate sull'apprendimento basato sul kernel e quelle che possono essere ottenute usando il kernel come funzione di somiglianza, che è stato lasciato aperto da Balcan e Blum. Forniamo un limite significativamente migliorato su quanto è buona una funzione del kernel quando viene usata come una funzione di somiglianza ed estendiamo il risultato anche alla perdita di cerniera più rilevante dal punto di vista pratico quindi zero-one-error-rate. Inoltre, mostriamo che questo limite è stretto, e quindi stabiliamo che esiste in realtà un vero divario tra la nozione tradizionale di margine basata sul kernel e la nuova nozione basata sulla somiglianza ".

Un collega ha una funzione e per i nostri scopi è un black-box.S

Vedi: kernel e somiglianza (in R)

È una scatola nera, quindi non sai con certezza quale kernel viene utilizzato, se è basato sul kernel, e non conosci i dettagli dell'implementazione del kernel una volta che pensi di sapere quale sia. Vedi: L' equazione di rbfKernel in kernlab è diversa dallo standard? .

D'altra parte, sembra un po 'folle.

È rapido ed efficace, in circostanze ristrette. Come un martello, se porti un martello con te la gente ti farà impazzire?

" I metodi del kernel devono il loro nome all'uso delle funzioni del kernel, che consentono loro di operare in uno spazio di caratteristiche implicito ad alta dimensione senza mai calcolare le coordinate dei dati in quello spazio, ma piuttosto semplicemente calcolando i prodotti interni tra le immagini di tutte le coppie di dati nello spazio delle funzionalità. Questa operazione è spesso più computazionalmente più economica del calcolo esplicito delle coordinate. Questo approccio è chiamato "trucco del kernel". Le funzioni del kernel sono state introdotte per dati di sequenza, grafici, testo, immagini, come così come i vettori ".

Lezione: a volte ottieni ciò per cui paghi.

Quindi la mia domanda è "Esiste una tale che per una metrica della distanza date queste proprietà su , e che cos'è quella ?"f ( s ( a , b ) ) = d ( a , b ) d s fff(S(un',B))=d(un',B)dSf

Molti, vedi i link sopra, " Funzioni del kernel popolari ", RBF , ed ecco un esempio (costoso): " Una misura della distanza del rapporto di verosimiglianza per la somiglianza tra la trasformata di Fourier della serie temporale " (2005), di Janacek, Bagnall e Powell.

Se non esiste in queste circostanze generali su , esiste un insieme aggiuntivo di requisiti per cui esiste?s ffSf

Spazi e metodi diversi possono indirizzare meglio il confronto (e la disintegrazione) di problemi specifici, ci sono molti metodi per il solo spazio di Hilbert .

Sì, l'elenco è grande, vedere i collegamenti sopra e (per un esempio): riprodurre lo spazio del kernel Hilbert .


-1

Ma non è ovvio che questo insieme piuttosto generale di circostanze sia sufficiente per implicare che la disuguaglianza del triangolo sia rispettata.

In realtà, non è sufficiente. Lavoriamo con . Se ci sono tre punti con , e , quindi la disuguaglianza del triangolo fallisce, perché .x , y , z d ( x , y ) = 1d(un',B)=1-S(un',B)X,y,z d(y,z)=1d(X,y)=13 d(x,z)=1d(x,z)>d(x,y)+d(y,z)d(y,z)=13d(X,z)=1d(X,z)>d(X,y)+d(y,z)


1
Non vedo come questo provi qualcosa.
ameba dice di reintegrare Monica

@amoeba Non si vede come si dimostra che necessità di non soddisfare la disuguaglianza triangolare? d
Kodiologo

2
f(α)=1-α

1
SfdfmSdf

1
m1-S(un',B)XαmαS
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.