Per un modello lineare , il termine di restringimento è sempre .
Qual è la ragione per cui non restringiamo il termine bias (intercetta) ? Dovremmo ridurre il termine di distorsione nei modelli di rete neurale?
Per un modello lineare , il termine di restringimento è sempre .
Qual è la ragione per cui non restringiamo il termine bias (intercetta) ? Dovremmo ridurre il termine di distorsione nei modelli di rete neurale?
Risposte:
Gli elementi dell'apprendimento statistico di Hastie et al. definire regressione ridge come segue (Sezione 3.4.1, equazione cioè escludere esplicitamente il termine di intercettazione β 0 dalla penalità della cresta.
Quindi scrivono:
[...] notare che l'intercetta è stata esclusa dalla pena. La penalizzazione dell'intercettazione renderebbe la procedura dipendente dall'origine scelta per Y ; cioè, aggiungendo una costante c per ciascuno degli obiettivi y io non sarebbe semplicemente provocare uno spostamento delle previsioni della stessa quantità c .
Infatti, in presenza del termine intercetta, aggiungendo a tutti y i sarà semplicemente portare a ß 0 aumentando di c come valori bene e corrispondentemente tutti previsti y i aumenterà anche da c . Questo non è vero se l'intercettazione è penalizzata: β 0 dovrà aumentare di meno di c .
In effetti, ci sono diverse proprietà piacevoli e convenienti della regressione lineare che dipendono dal fatto che esiste un termine di intercettazione corretto (non aperto). Ad esempio il valore medio di ed il valore medio di y i sono uguali, e (di conseguenza) il quadrato multipla coefficiente di correlazione R è uguale al coefficiente di determinazione R 2 : ( R ) 2 = cos 2 ( y , y ) = ‖ y ‖ 2vedere ad esempio questa discussione per una spiegazione:Interpretazione geometrica del coefficiente di correlazione multiplaRe coefficiente di determinazioneR2.
Penalizzare l'intercettazione significherebbe che tutto ciò non è più vero.
Richiama lo scopo del restringimento o della regolarizzazione. Serve a impedire all'algoritmo di apprendimento di sovrautilizzare i dati di allenamento o in modo equivalente - impedire di selezionare valori di parametri arbitrariamente grandi. Ciò è più probabile per i set di dati con più di pochi esempi di formazione in presenza di rumore (una discussione molto interessante sulla presenza del rumore e il suo impatto è discussa in "Imparare dai dati" di Yaser Abu-Mustafa). Un modello appreso su dati rumorosi senza regolarizzazione probabilmente funzionerà male su alcuni punti dati invisibili.
Con questo in mente, immagina di avere punti dati 2D che desideri classificare in due classi. Avendo tutti i parametri di polarizzazione tranne quelli fissi, variando il termine di polarizzazione si sposta semplicemente il limite verso l'alto o verso il basso. Puoi generalizzare questo in uno spazio dimensionale superiore.
L'algoritmo di apprendimento non può inserire valori arbitrariamente grandi per il termine di polarizzazione poiché ciò comporterà un valore di perdita lordo (il modello non si adatta ai dati di addestramento). In altre parole, dato un set di addestramento, tu (o un algoritmo di apprendimento) non puoi spostare il piano arbitrariamente lontano da quello vero.
Quindi, non c'è motivo di ridurre il termine di errore, l'algoritmo di apprendimento troverà quello buono senza il rischio di un eccesso di adattamento.
Un'ultima nota: ho visto in alcuni articoli che quando si lavora in spazi ad alta dimensione per la classificazione, non è necessario modellare il termine bias. Questo potrebbe funzionare per dati separabili linearmente poiché con l'aggiunta di più dimensioni, ci sono più possibilità di separare le due classi.
Il termine di intercettazione non è assolutamente immune al restringimento. La formulazione generale di "restringimento" (cioè di regolarizzazione) inserisce il termine di regolarizzazione nella funzione di perdita, ad esempio:
Ora, non posso parlare di regolarizzazione per le reti neurali. È possibile che per le reti neurali si desideri evitare il restringimento del termine di polarizzazione o altrimenti progettare la funzione di perdita regolarizzata in modo diverso dalla formulazione che ho descritto sopra. Solo che non lo so. Ma sospetto fortemente che pesi e termini di polarizzazione siano regolarizzati insieme.
Non sono sicuro che la risposta di David Marx sopra sia del tutto corretta; secondo Andrew Ng, per convenzione il coefficiente di distorsione / intercettazione non è tipicamente regolarizzato in una regressione lineare, e in ogni caso se è regolarizzato o no non fa una differenza significativa.