Nell'apprendimento automatico, un modello con parametri e iperparametri appare come,M
Y≈MH(Φ|D)
dove sono parametri e H sono iperparametri. D indica i dati di allenamento e Y i dati di output (etichette di classe in caso di attività di classificazione).ΦHDY
L'obiettivo durante l'allenamento è quello di trovare stima dei parametri Φ che ottimizza qualche funzione di perdita L abbiamo specificato. Poiché, modello M e la perdita di funzione L si basano su H , quindi le conseguenti parametri Φ dipendono anch'esse dalla iper-parametri H .Φ^LMLHΦH
Gli iperparametri non vengono "appresi" durante l'allenamento, ma non significa che i loro valori siano immutabili. Tipicamente, i iper-parametri sono fissi e pensiamo semplicemente del modello M , invece di M H . Qui, gli iperparametri possono anche essere considerati parametri a priori.HMMH
La fonte di confusione deriva dall'uso di e modifica dei parametri iper- H durante l'allenamento di routine in aggiunta a, ovviamente, i parametri Phi . Esistono potenzialmente diverse motivazioni per modificare l' H durante l'allenamento. Un esempio potrebbe essere quello di modificare il tasso di apprendimento durante l'allenamento per migliorare la velocità e / o la stabilità della routine di ottimizzazione.MHHΦ^H
Il punto importante di distinzione è che, il risultato, per esempio etichetta predizione, è basato su parametri del modello Φ e non le iper-parametri H .YpredΦH
La distinzione tuttavia ha avvertenze e di conseguenza le linee sono sfocate. Si consideri ad esempio il compito del clustering, in particolare Gaussian Mixture Modeling (GMM). I parametri qui impostati sono , dove ˉ μ è impostato su N cluster significa e ˉ σ è impostato su N deviazioni standard, per N kernel gaussiani.Φ={μ¯,σ¯}μ¯Nσ¯NN
Potresti aver intuitivamente riconosciuto l'iperparametro qui. E 'il numero di cluster . Quindi H = { N } . Tipicamente, convalida dei cluster viene utilizzato per determinare N priori, utilizzando un piccolo sottocampione dei dati D . Tuttavia, potrei anche modificare il mio algoritmo di apprendimento dei modelli di miscele gaussiane per modificare il numero di kernel N durante l'allenamento, sulla base di alcuni criteri. In questo scenario, l'iperparametro, N diventa parte dell'insieme di parametri Φ = { ˉ μ , ˉ σ , N } .NH={N}NDNNΦ={μ¯,σ¯,N}
dDGMM(μ¯,σ¯)NNddμσN
ML