Dato che sei confuso, vorrei iniziare affermando il problema e rispondendo alle tue domande una alla volta. Hai una dimensione del campione di 10.000 e ogni campione è descritto da un vettore caratteristica . Se si desidera eseguire la regressione utilizzando le funzioni di base radiale gaussiana, si sta cercando una funzione della forma f ( x ) = ∑ j w j ∗ g j ( x ; μ j , σ j ) , j = 1 .. m dove il g ix∈R31
f(x)=∑jwj∗gj(x;μj,σj),j=1..m
gisono le tue funzioni di base. Specificamente, è necessario trovare le
pesi
w j modo che per determinati parametri
u j e
σ j si minimizzano l'errore tra
y ed il corrispondente predizione
y =
f ( x ) - tipicamente si ridurrà al minimo l'errore minimi quadrati.
mwjμjσjyy^f(x^)
Qual è esattamente il parametro j del pedice Mu?
È necessario trovare le funzioni di base g j . (È ancora necessario determinare il numero m ) Ogni funzione di base avrà un μ j e un σ j (anche sconosciuto). Il pedice j varia da 1 a m .mgjmμjσjj1m
È la un vettore?μj
Sì, è un punto in . In altre parole, è un punto da qualche parte nello spazio delle caratteristiche e un μ deve essere determinato per ciascuna delle funzioni di base m .R31μm
Ho letto che questo regola le posizioni delle funzioni di base. Quindi questo non è il significato di qualcosa?
La funzione base è centrata su μ j . Dovrai decidere dove si trovano queste posizioni. Quindi no, non è necessariamente la media di nulla (ma vedi più in basso per i modi per determinarlo)jthμj
Ora per il sigma che "governa la scala spaziale". Che cos'è esattamente?
è più facile da capire se ci rivolgiamo alle funzioni di base stesse.σ
Aiuta a pensare alle funzioni della base radiale gaussiana nei dimensoni inferiori, diciamo o R 2 . In R 1 la funzione di base radiale gaussiana è solo la ben nota curva a campana. Naturalmente la campana può essere stretta o larga. La larghezza è determinata da σ - più grande σ è più stretta la forma della campana. In altre parole, σ ridimensiona la larghezza della forma della campana. Quindi per σ = 1 non abbiamo ridimensionamento. Per σ di grandi dimensioni abbiamo un ridimensionamento sostanziale.R1R2R1σσσσσ
Puoi chiedere qual è lo scopo di questo. Se pensi alla campana che copre una parte dello spazio (una linea in ) - una campana stretta coprirà solo una piccola parte della linea *. I punti x vicini al centro della campana avranno un valore g j ( x ) maggiore . I punti lontani dal centro avranno un valore g j ( x ) più piccolo . Il ridimensionamento ha l'effetto di spingere i punti più lontano dal centro - poiché i punti di campana si restringono saranno posizionati più lontano dal centro - riducendo il valore di g j ( x )R1xgj(x)gj(x)gj(x)
Ogni funzione di base converte il vettore di input x in un valore scalare
Sì, stai valutando le funzioni di base in qualche punto .x∈R31
exp(−∥x−μj∥222∗σ2j)
Di conseguenza, si ottiene uno scalare. Il risultato scalare dipende dalla distanza del punto dal centro dato dae lo scalare .μ σ jxμj∥x−μj∥σj
Ho visto alcune implementazioni che provano valori come .1, .5, 2.5 per questo parametro. Come vengono calcolati questi valori?
Questo ovviamente è uno degli aspetti interessanti e difficili dell'uso delle funzioni di base radiale gaussiana. se cerchi nel web troverai molti suggerimenti su come vengono determinati questi parametri. Descriverò in termini molto semplici una possibilità basata sul raggruppamento. Puoi trovare questo e molti altri suggerimenti online.
Inizia raggruppando i tuoi 10000 campioni (puoi prima usare PCA per ridurre le dimensioni seguito dal clustering k-Means). Puoi lasciare che sia il numero di cluster che trovi (tipicamente impiegando la validazione incrociata per determinare la migliore ). Ora, crea una funzione base radiale per ciascun cluster. Per ogni funzione di base radiale, essere il centro (es. Media, centroide, ecc.) Del cluster. Lascia che rifletta la larghezza del cluster (ad es. Raggio ...) Ora vai avanti ed esegui la tua regressione (questa semplice descrizione è solo una panoramica - ha bisogno di molto lavoro ad ogni passo!)m g j μ j σ jmmgjμjσj
* Naturalmente, la curva della campana è definita da - a quindi avrà un valore ovunque sulla linea. Tuttavia, i valori lontani dal centro sono trascurabili∞∞∞