Il teorema di Mercer funziona al contrario?
Non in tutti i casi
Wikipedia: "In matematica, in particolare nell'analisi funzionale, il teorema di Mercer è una rappresentazione di una funzione simmetrica definita positiva su un quadrato come somma di una sequenza convergente di funzioni del prodotto. Questo teorema, presentato in (Mercer 1909), è uno dei risultati più notevoli del lavoro di James Mercer: è un importante strumento teorico nella teoria delle equazioni integrali; viene utilizzato nella teoria spaziale di Hilbert dei processi stocastici, ad esempio il teorema di Karhunen – Loève; e viene anche utilizzato per caratterizzare un kernel semi-definito positivo simmetrico.
È una " mappatura da molti a uno " su uno spazio di Hilbert . - una grave semplificazione sarebbe quello di descrivere come una hash o checksum che è possibile testare contro un file per determinare l'identità o meno.
Spiegazione più tecnica: teorema di disintegrazione
"In matematica, il teorema di disintegrazione è un risultato nella teoria della misura e nella teoria della probabilità. Definisce rigorosamente l'idea di una " restrizione "non banale di una misura a un sottoinsieme zero della misura dello spazio di misura in questione. È correlato al esistenza di misure di probabilità condizionate. In un certo senso, la "disintegrazione" è il processo opposto alla costruzione di una misura di prodotto ".
Vedi anche: " Il teorema di Fubini-Tonelli ", " Perdita di cerniera ", " Funzione di perdita " e " Quanto è buono un kernel se usato come misura di somiglianza? " (Giugno 2007) di Nathan Srebro, l'abstract:
" Riassunto. Recentemente, Balcan e Blum hanno suggerito una teoria dell'apprendimento basata su funzioni di somiglianza generale, anziché su kernel semi-definiti positivi. Studiamo il divario tra le garanzie di apprendimento basate sull'apprendimento basato sul kernel e quelle che possono essere ottenute usando il kernel come funzione di somiglianza, che è stato lasciato aperto da Balcan e Blum. Forniamo un limite significativamente migliorato su quanto è buona una funzione del kernel quando viene usata come una funzione di somiglianza ed estendiamo il risultato anche alla perdita di cerniera più rilevante dal punto di vista pratico quindi zero-one-error-rate. Inoltre, mostriamo che questo limite è stretto, e quindi stabiliamo che esiste in realtà un vero divario tra la nozione tradizionale di margine basata sul kernel e la nuova nozione basata sulla somiglianza ".
Un collega ha una funzione e per i nostri scopi è un black-box.S
Vedi: kernel e somiglianza (in R)
È una scatola nera, quindi non sai con certezza quale kernel viene utilizzato, se è basato sul kernel, e non conosci i dettagli dell'implementazione del kernel una volta che pensi di sapere quale sia. Vedi: L' equazione di rbfKernel in kernlab è diversa dallo standard? .
D'altra parte, sembra un po 'folle.
È rapido ed efficace, in circostanze ristrette. Come un martello, se porti un martello con te la gente ti farà impazzire?
" I metodi del kernel devono il loro nome all'uso delle funzioni del kernel, che consentono loro di operare in uno spazio di caratteristiche implicito ad alta dimensione senza mai calcolare le coordinate dei dati in quello spazio, ma piuttosto semplicemente calcolando i prodotti interni tra le immagini di tutte le coppie di dati nello spazio delle funzionalità. Questa operazione è spesso più computazionalmente più economica del calcolo esplicito delle coordinate. Questo approccio è chiamato "trucco del kernel". Le funzioni del kernel sono state introdotte per dati di sequenza, grafici, testo, immagini, come così come i vettori ".
Lezione: a volte ottieni ciò per cui paghi.
Quindi la mia domanda è "Esiste una tale che per una metrica della distanza date queste proprietà su , e che cos'è quella ?"f ( s ( a , b ) ) = d ( a , b ) d s fff( s ( a , b ) ) = d( a , b )dSf
Molti, vedi i link sopra, " Funzioni del kernel popolari ", RBF , ed ecco un esempio (costoso): " Una misura della distanza del rapporto di verosimiglianza per la somiglianza tra la trasformata di Fourier della serie temporale " (2005), di Janacek, Bagnall e Powell.
Se non esiste in queste circostanze generali su , esiste un insieme aggiuntivo di requisiti per cui esiste?s ffSf
Spazi e metodi diversi possono indirizzare meglio il confronto (e la disintegrazione) di problemi specifici, ci sono molti metodi per il solo spazio di Hilbert .
Sì, l'elenco è grande, vedere i collegamenti sopra e (per un esempio): riprodurre lo spazio del kernel Hilbert .