Motivo per non ridurre il termine del bias (intercetta) nella regressione

21

Per un modello lineare $y=\beta_0+x\beta+\varepsilon$ , il termine di restringimento è sempre $P(\beta)$ .

Qual è la ragione per cui non restringiamo il termine bias (intercetta) $\beta_0$ ? Dovremmo ridurre il termine di distorsione nei modelli di rete neurale?

— yliueagle
fonte

La libreria liblinear per la regressione logistica usata in scikit-learn penalizza il termine bias (penso che questo sia un artefatto dell'implementazione, il bias è gestito come variabile di input extra)

— seanv507,

33

Gli elementi dell'apprendimento statistico di Hastie et al. definire regressione ridge come segue (Sezione 3.4.1, equazione cioè escludere esplicitamente il termine di intercettazione dalla penalità della cresta.

\hat{β}^{r i d g e} = \underset{β}{a r g m i n} {\sum_{i = 1}^{N} (y_{i} - β_{0} - \sum_{j = 1}^{p} x_{i j} β_{j})^{2} + λ \sum_{j = 1}^{p} β_{j}^{2}},

$\hat \beta{}^\mathrm{ridge} = \underset{\beta}{\mathrm{argmin}}\left\{\sum_{i=1}^N(y_i - \beta_0 - \sum_{j=1}^p x_{ij}\beta_j)^2 + \lambda \sum_{j=1}^p \beta_j^2\right\},$

β_{0}

$\beta_0$

Quindi scrivono:

[...] notare che l'intercetta è stata esclusa dalla pena. La penalizzazione dell'intercettazione renderebbe la procedura dipendente dall'origine scelta per ; cioè, aggiungendo una costante per ciascuno degli obiettivi non sarebbe semplicemente provocare uno spostamento delle previsioni della stessa quantità . $\beta_0$ $Y$ $c$ $y_i$ $c$

Infatti, in presenza del termine intercetta, aggiungendo a tutti sarà semplicemente portare a aumentando di come valori bene e corrispondentemente tutti previsti aumenterà anche da . Questo non è vero se l'intercettazione è penalizzata: dovrà aumentare di meno di . $c$ $y_i$ $\beta_0$ $c$ $\hat y_i$ $c$ $\beta_0$ $c$

In effetti, ci sono diverse proprietà piacevoli e convenienti della regressione lineare che dipendono dal fatto che esiste un termine di intercettazione corretto (non aperto). Ad esempio il valore medio di ed il valore medio di sono uguali, e (di conseguenza) il quadrato multipla coefficiente di correlazione è uguale al coefficiente di determinazione : $y_i$ $\hat y_i$ $R$ $R^2$ vedere ad esempio questa discussione per una spiegazione:Interpretazione geometrica del coefficiente di correlazione multipla e coefficiente di determinazione .

(R)^{2} = \cos^{2} (\hat{y}, y) = \frac{‖ \hat{y} ‖^{2}}{‖ y ‖^{2}} = R^{2},

$(R)^2 = \cos^2(\hat {\mathbf y}, \mathbf y) = \frac{\|\hat{\mathbf y}\|^2}{\|\mathbf y\|^2} = R^2,$

R

$R$

R^{2}

$R^2$

Penalizzare l'intercettazione significherebbe che tutto ciò non è più vero.

— ameba dice Reinstate Monica
fonte

2

Richiama lo scopo del restringimento o della regolarizzazione. Serve a impedire all'algoritmo di apprendimento di sovrautilizzare i dati di allenamento o in modo equivalente - impedire di selezionare valori di parametri arbitrariamente grandi. Ciò è più probabile per i set di dati con più di pochi esempi di formazione in presenza di rumore (una discussione molto interessante sulla presenza del rumore e il suo impatto è discussa in "Imparare dai dati" di Yaser Abu-Mustafa). Un modello appreso su dati rumorosi senza regolarizzazione probabilmente funzionerà male su alcuni punti dati invisibili.

Con questo in mente, immagina di avere punti dati 2D che desideri classificare in due classi. Avendo tutti i parametri di polarizzazione tranne quelli fissi, variando il termine di polarizzazione si sposta semplicemente il limite verso l'alto o verso il basso. Puoi generalizzare questo in uno spazio dimensionale superiore.

L'algoritmo di apprendimento non può inserire valori arbitrariamente grandi per il termine di polarizzazione poiché ciò comporterà un valore di perdita lordo (il modello non si adatta ai dati di addestramento). In altre parole, dato un set di addestramento, tu (o un algoritmo di apprendimento) non puoi spostare il piano arbitrariamente lontano da quello vero.

Quindi, non c'è motivo di ridurre il termine di errore, l'algoritmo di apprendimento troverà quello buono senza il rischio di un eccesso di adattamento.

Un'ultima nota: ho visto in alcuni articoli che quando si lavora in spazi ad alta dimensione per la classificazione, non è necessario modellare il termine bias. Questo potrebbe funzionare per dati separabili linearmente poiché con l'aggiunta di più dimensioni, ci sono più possibilità di separare le due classi.

— Vladislavs Dovgalecs
fonte

Puoi fornire riferimenti per alcuni articoli che dicono "quando si lavora in spazi ad alta dimensione per la classificazione, non è necessario modellare il termine di errore"?

— chandresh,

1

Il termine di intercettazione non è assolutamente immune al restringimento. La formulazione generale di "restringimento" (cioè di regolarizzazione) inserisce il termine di regolarizzazione nella funzione di perdita, ad esempio:

$RSS(\beta) = \|y_i - X_i \beta \|^2$

$RegularizedLoss(\beta) = RSS(\beta) - \lambda f(\beta)$

$f(\beta)$ $\lambda$

$\beta$ $P(\beta)$ $\beta_0$ $y = X \beta + \epsilon$ $X$ $1's$

Ora, non posso parlare di regolarizzazione per le reti neurali. È possibile che per le reti neurali si desideri evitare il restringimento del termine di polarizzazione o altrimenti progettare la funzione di perdita regolarizzata in modo diverso dalla formulazione che ho descritto sopra. Solo che non lo so. Ma sospetto fortemente che pesi e termini di polarizzazione siano regolarizzati insieme.

— David Marx
fonte

2

Dipende dalla convenzione, ma ad esempio The Elements of Statistical Learning di Hastie et al. definire la regressione della cresta in modo tale che l'intercettazione non sia penalizzata (vedere la mia risposta). Ho il sospetto che questo potrebbe essere più standard di altrimenti.

— ameba dice Ripristina Monica il

1

Non sono sicuro che la risposta di David Marx sopra sia del tutto corretta; secondo Andrew Ng, per convenzione il coefficiente di distorsione / intercettazione non è tipicamente regolarizzato in una regressione lineare, e in ogni caso se è regolarizzato o no non fa una differenza significativa.

— xenocyon
fonte

1

Darò la spiegazione più semplice, quindi espanderò.

y_{t} = ε_{t}

$y_t=\varepsilon_t$

E [ε_{t}] = E [y_{t}] \neq 0

$E[\varepsilon_t]=E[y_t]\ne 0$

$\beta$

$\beta$ $\beta_0$

y_{t} = β_{0} + ε_{t}

$y_t=\beta_0+\varepsilon_t$

E [y_{t}] = β_{0} + E [ε_{t}]

$E[y_t]=\beta_0+E[\varepsilon_t]$

E [ε_{t}] = 0

$E[\varepsilon_t]=0$

β_{0} = μ = E [y_{t}]

$\beta_0=\mu=E[y_t]$

Questo modello non è sexy come il modello originale, è piuttosto sciocco, in effetti. Tuttavia, è un modello legittimo. Ad esempio, potresti eseguire ANOVA su di esso.

$\beta_0=E[y_t]$

— Aksakal
fonte