Cosa c'è in un nome: iperparametri

19

Quindi in una distribuzione normale, abbiamo due parametri: mean e variance . Nel libro Pattern Recognition and Machine Learning , appare improvvisamente un iperparametro nei termini di regolarizzazione della funzione di errore. $\mu$ $\sigma^2$ $\lambda$

Cosa sono gli iperparametri? Perché sono nominati come tali? E in che modo sono intuitivamente diversi dai parametri in generale?

— CGO
fonte

3

Personalmente penso solo che sia un'epidemia di persone che diventano iper. Hyper questo, hyper quello. Ipersfera: è una sfera, d @ manit, smetti di diventare così iper solo perché la dimensione supera 3. Iperparametro: è un parametro, d @ mnit, smetti di diventare iper solo perché ne hai diversi, e in qualche modo sembra che pensi di dover indica il livello gerarchico o qualcosa del genere. In ogni caso, se si riscontra un problema di ottimizzazione, precisare chiaramente su quali parametri vengono ottimizzati e su eventuali vincoli (se si tratta di ottimizzazione a più livelli, precisarlo). Spero di non essere diventato troppo iper in questo commento.

— Mark L. Stone,

2

Ho sempre usato "ipersfera" per indicare "co-dimensione di una sfera", quindi almeno in matematica, sembra significare qualcosa. O almeno quando parlo di matematica. Mi calmerò ora.

— Matthew Drury,

18

Il termine iperparametro è piuttosto vago. Lo userò per fare riferimento a un parametro che si trova in un livello superiore della gerarchia rispetto agli altri parametri. Per un esempio, considera un modello di regressione con una varianza nota (1 in questo caso)

y \sim N (X β, I)

$y \sim N(X\beta,I)$

e poi un precedente sui parametri, ad es

β \sim N (0, λ I)

$\beta \sim N(0,\lambda I)$

Qui determina la distribuzione di e determina la distribuzione per . Quando voglio solo fare riferimento a posso chiamarlo parametro e quando voglio fare riferimento a , posso chiamarlo iperparametro. $\lambda$ $\beta$ $\beta$ $y$ $\beta$ $\lambda$

La denominazione diventa più complicata quando i parametri vengono visualizzati su più livelli o quando ci sono più livelli gerarchici (e non si desidera utilizzare il termine iperiperparametro). È meglio se l'autore specifica esattamente cosa si intende quando usano il termine iperparametro o parametro per quella materia.

— jaradniemi
fonte

Questa è una bella spiegazione Lo sto immaginando come una "composizione di funzioni-ish". Per tradurre ciò che si inserisce nei simboli, è normalmente distribuito con media , ma è a sua volta, normalmente distribuito così e così. Grazie

y

$y$

X β

$X\beta$

b e t a

$beta$

— cgo

10

Un iperparametro è semplicemente un parametro che influenza, in tutto o in parte, altri parametri. Non risolvono direttamente il problema di ottimizzazione che affronti, ma piuttosto ottimizzano i parametri che possono risolvere il problema (quindi l' hyper , perché non fanno parte del problema di ottimizzazione, ma piuttosto sono "componenti aggiuntivi"). Per quello che ho visto, ma non ho alcun riferimento, questa relazione è unidirezionale (un iperparametro non può essere influenzato dai parametri su cui ha influenza, quindi anche l' iper ). Di solito sono introdotti in schemi di regolarizzazione o meta-ottimizzazione.

Ad esempio, il parametro può influenzare liberamente e per adeguarsi al costo di regolarizzazione (ma e non hanno influenza su ). Pertanto, è un iperparametro per e . Se avessi un parametro aggiuntivo che influenza , sarebbe un iperparametro per e un iperiperparametro per e (ma non ho mai visto questa nomenclatura, ma non penserei che sarebbe sbagliato se lo vedessi). $\lambda$ $\mu$ $\sigma$ $\mu$ $\sigma$ $\lambda$ $\lambda$ $\mu$ $\sigma$ $\tau$ $\lambda$ $\lambda$ $\mu$ $\sigma$

Ho trovato il concetto di iperparametro molto utile per la convalida incrociata, perché ti ricorda la gerarchia dei parametri, ricordandoti anche che se stai ancora modificando i parametri (iper), stai ancora effettuando la convalida incrociata e non generalizzando, quindi devi stai attento alle tue conclusioni (per evitare il pensiero circolare).

— gaborous
fonte

7

Le altre spiegazioni sono un po 'vaghe; ecco una spiegazione più concreta che dovrebbe chiarirla.

Gli iperparametri sono parametri del solo modello , non del processo fisico che viene modellato. Li introduci "artificialmente" per far "funzionare" il tuo modello in presenza di dati finiti e / o tempi di calcolo finiti . Se avessi il potere infinito di misurare o calcolare qualcosa, gli iperparametri non esisterebbero più nel tuo modello, dal momento che non descriverebbero alcun aspetto fisico del sistema reale.

I parametri regolari, d'altra parte, sono quelli che descrivono il sistema fisico e non si limitano a modellare artefatti.

— Mehrdad
fonte

6

Non è un termine definito in modo preciso, quindi andrò avanti e ti darò ancora un'altra definizione che sembra essere coerente con l'uso comune.

Un iperparametro è una quantità stimata in un algoritmo di apprendimento automatico che non partecipa alla forma funzionale della funzione predittiva finale.

Vorrei spiegarlo con un esempio, la regressione della cresta. Nella regressione della cresta risolviamo il seguente problema di ottimizzazione:

β^{*} (λ) = {argmin}_{β} ((y - X β)^{t} (y - X β) + λ β^{t} β)

$\beta^*(\lambda) = \text{argmin}_{\beta} \left( (y - X\beta)^t (y - X\beta) + \lambda \beta^t \beta \right)$

β^{*} = {argmin}_{λ} (y^{'} - X^{'} β (λ))^{t} (y^{'} - X^{'} β (λ))

$\beta^* = \text{argmin}_{\lambda} (y' - X'\beta(\lambda))^t (y' - X'\beta(\lambda))$

$X, y$ $X', y'$

f (X) = X β^{*}

$f(X) = X \beta^*$

$\lambda$ $\beta$ $\lambda$

— Matthew Drury
fonte

3

Come sottolineato da @jaradniemi, un uso del termine iperparametro deriva dalla modellazione gerarchica o multilivello, in cui si ha una cascata di modelli statistici, uno costruito sopra / sotto gli altri, usando dichiarazioni di probabilità generalmente condizionate.

Ma la stessa terminologia emerge anche in altri contesti con significati diversi. Ad esempio, ho visto il termine iperparametro usato per riferirsi ai parametri della simulazione (lunghezza di corsa, numero di repliche indipendenti, numero di particelle interagenti in ciascuna replica ecc.) Di un modello stocastico, che non risultava da un multilivello modellazione.

— Marcelo Ventura
fonte

1

FWIW In genere vorrei riferirmi alla lunghezza di corsa, al numero di particelle interagenti, ecc. Come parametri di ottimizzazione.

— Jaradniemi,

Sono d'accordo. Per me, sembra una scelta più adeguata rispetto agli iperparametri. Tuttavia, ad altri, in altre aree di conoscenza, sembrava ancora abbastanza ragionevole.

— Marcelo Ventura,