Approssimazione della funzione universale


15

È noto tramite il teorema di approssimazione universale che una rete neurale con persino un singolo strato nascosto e una funzione di attivazione arbitraria può approssimare qualsiasi funzione continua.

Quali altri modelli ci sono anche approssimatori di funzioni universali


Ho aderito a questo sito per votare questa domanda e alcune delle risposte.
Prasad Raghavendra,

Risposte:


20

Questo è ampiamente trattato nella letteratura statistica, sotto l'argomento della regressione. Due riferimenti standard qui sono il libro di Wasserman "tutte le statistiche non parametriche" e la "introduzione alla stima non parametrica" ​​di Tsybakov. Parlerò brevemente di alcune delle cose standard e proverò a fornire indicazioni al di fuori delle statistiche (questo è un argomento comune e campi diversi hanno culture diverse: dimostrare diversi tipi di teoremi, fare ipotesi diverse).

  1. (I regressori del kernel, a volte chiamati Nadaraya-Watson Estimator.) Qui scrivi la funzione in qualsiasi momento come una combinazione ponderata di valori vicini. Più concretamente, dal momento che questo è nella letteratura statistica, in genere supponi di avere alcuni esempi tratto da una distribuzione e sistemare alcuni kernel K (puoi pensare a questo come una gaussiana, ma media nulla è ciò che conta di più), e scrivere f ( x ) : = Σ i f ( x i((Xio,f(Xio)))io=1nK dovecn(siete più sensibili a piccole distanze comenaumenta). La garanzia è che, comen, un criterio probilistico di distorsione (aspettativa di super-norma, alta probabilità, qualunque cosa) va a zero. (Poco importa comeappareK--- importa di più come si scegliecn.)

    f^(X): =Σiof(Xio)(K(cn(X-Xio))ΣjK(cn(X-Xj))),
    cnnnKcn
  2. L2f^f. Per avere un'idea della diversità degli approcci qui, un articolo accurato è "l'approssimazione uniforme delle funzioni di Rahimi & Recht con basi casuali". Forse dovrei dire che il nonno di tutti questi è l'espansione di Fourier; c'è molto materiale buono su questo nel libro di Wavat di Mallat.

  3. (Metodi dell'albero.) Un altro modo è quello di guardare una funzione come un albero; ad ogni livello, stai lavorando con alcune partizioni del dominio e restituisci, ad esempio, il punto medio. (Ogni potatura dell'albero fornisce anche una partizione.) Nel limite, la finezza di questa partizione non discretizza più la funzione e l'hai ricostruita esattamente. Il modo migliore per scegliere questa partizione è un problema difficile. (Puoi cercarlo su "albero di regressione").

  4. (Metodi polinomiali; vedi anche spline e altre tecniche di interpolazione). Secondo il teorema di Taylor, sai che puoi avvicinarti arbitrariamente a funzioni ben comportate. Questo può sembrare un approccio molto semplice (cioè, basta usare il polinomio interpolante di Lagrange), ma dove le cose diventano interessanti è decidere qualepunta a interpolare. Questo è stato ampiamente studiato nel contesto dell'integrazione numerica; puoi trovare alcuni incredibili calcoli sugli argomenti di "quadratura di clenshaw-curtis" e "quadratura gaussiana". Lo inserisco qui perché i tipi di ipotesi e garanzie qui sono così drasticamente diversi da quelli che appaiono sopra. Mi piace questo campo, ma questi metodi soffrono molto della maledizione della dimensione, almeno penso che sia per questo che sono meno discussi di prima (se si fa l'integrazione numerica con la matematica, penso che faccia quadratura per domini univariati, ma tecniche di campionamento per domini multivariati).

Considerando varie restrizioni alla classe di funzioni, è possibile creare un'istanza di quanto sopra per ottenere tutti i tipi di altri scenari ampiamente utilizzati. Ad esempio, con funzioni con valori booleani, il valore soglia (1.) assomiglierà molto a uno stimatore del vicino più vicino o a un SVM con un kernel locale (gaussiano). Molte delle cose sopra menzionate soffrono della maledizione della dimensione (i limiti mostrano una dipendenza esponenziale dalla dimensione). Nell'apprendimento automatico ci si aggira o vincolando esplicitamente la propria classe ad una famiglia (ad es. "Metodi parametrici) o mediante un vincolo implicito, di solito qualcosa che mette in relazione la qualità degli approssimativi con la complessità della funzione target (cioè un analogo del presupposto di apprendimento debole nel potenziamento).

f:RdR

f(X)=Σj=02dhj(Σio=1dgj,io(Xio)),
gj,io:RRhj:RRghΘ(d2)

(Hai solo chiesto informazioni sulle classi di funzioni, ma ho pensato che ti interessassero anche i metodi .. se non .. oops)


"Dal 1957!", È quello esponenziale del 1957, quindi viene dal futuro ?! :)
nbro,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.