Premetto questo dicendo che non è sempre chiaro cosa si intende per "non parametrico" o "semiparametrico" ecc. Nei commenti, sembra probabile che whuber abbia in mente una definizione formale (forse qualcosa come scegliere un modello da qualche famiglia { M θ : θ ∈ Θ } dove Θ è di dimensione infinita), ma sarò abbastanza informale. Alcuni potrebbero sostenere che un metodo non parametrico è quello in cui il numero effettivo di parametri che usi aumenta con i dati. Penso che ci sia un video su videolectures.net in cui (penso) Peter Orbanz fornisce quattro o cinque interpretazioni diverse su come definire "non parametrico".Mθ{ Mθ: θ ∈ Θ }Θ
Dato che penso di sapere che tipo di cose hai in mente, per semplicità suppongo che tu stia parlando dell'uso dei processi gaussiani per la regressione, in un modo tipico: abbiamo dati di allenamento e siamo interessati a modellare la media condizionale E ( Y | X = x ) : = f ( x ) . Scriviamo
Y i = f ( X i )( Yio, Xio) , I = 1 , . . . , nE(Y|X= x ) : = f( x )
e forse siamo così audaci da supporre che ϵ i sia iid e normalmente distribuito, ϵ i ∼ N ( 0 , σ 2 ) . X i sarà unidimensionale, ma tutto porta verso dimensioni superiori.
Yio= f( Xio) + ϵio
εioεio∼ N( 0 , σ2)Xio
Se la nostra può assumere valori in un continuum, allora f ( ⋅ ) può essere considerato un parametro di (infinito) dimensione infinita. Quindi, nel senso che stiamo stimando un parametro di dimensione infinita , il nostro problema è non parametrico. È vero che l'approccio bayesiano ha alcuni parametri che fluttuano qua e là. Ma in realtà, si chiama non parametrico perché stiamo stimando qualcosa di dimensione infinita. I priori GP che utilizziamo assegnano la massa a ogni quartiere di ogni funzione continua, in modo che possano stimare arbitrariamente qualsiasi funzione continua.Xiof( ⋅ )
Le cose nella funzione di covarianza stanno giocando un ruolo simile ai parametri di livellamento nel solito stimatori frequentista - in modo che il problema di non essere assolutamente senza speranza dobbiamo presumere che ci sia qualche struttura che ci aspettiamo di vedere mostre. I bayesiani ottengono questo risultato usando un priorato nello spazio di funzioni continue sotto forma di un processo gaussiano. Da una prospettiva bayesiana, stiamo codificando le convinzioni su f assumendo che f sia tratto da un GP con tale funzione di covarianza. Il precedente penalizza efficacemente le stime di f per essere troppo complicate.ffff
Modifica per problemi computazionali
La maggior parte (tutte?) Di queste cose è nel libro Gaussian Process di Rasmussen e Williams.
O ( N2)O ( N3)v( K+ σ2io) v = YKO ( N3)KO ( k N2)K
O ( N3)O ( k N2)Nmm × mYNmO ( m2N)
KK= Q QTQn × qqK+ σ2ioQTQ + σ2io