Se la statistica si basa sulla massimizzazione della probabilità, l'apprendimento automatico si basa sulla riduzione al minimo delle perdite. Dal momento che non si conosce la perdita che si dovrà sostenere su dati futuri, si minimizza un'approssimazione, cioè la perdita empirica.
Ad esempio, se si dispone di un'attività di previsione e vengono valutati in base al numero di classificazioni errate, è possibile addestrare i parametri in modo che il modello risultante produca il minor numero di classificazioni errate sui dati di training. "Numero di classificazioni errate" (ad es., Perdita 0-1) è una funzione di perdita grave su cui lavorare perché non è differenziabile, quindi la si approssima con un "surrogato" regolare. Ad esempio, la perdita di log è un limite superiore alla perdita di 0-1, quindi è possibile minimizzarla e ciò si rivelerà lo stesso della massimizzazione della probabilità condizionale dei dati. Con il modello parametrico questo approccio diventa equivalente alla regressione logistica.
In un'attività di modellazione strutturata e approssimazione di perdita di log di perdita 0-1, ottieni qualcosa di diverso dalla massima probabilità condizionale, massimizzerai invece il prodotto delle probabilità marginali (condizionate).
Per ottenere una migliore approssimazione della perdita, le persone hanno notato che il modello di addestramento per minimizzare la perdita e l'utilizzo di tale perdita come stima della perdita futura è una stima eccessivamente ottimistica. Quindi, per una minimizzazione più accurata (vera perdita futura), aggiungono un termine di correzione della distorsione alla perdita empirica e la minimizzano, ciò è noto come minimizzazione strutturata del rischio.
In pratica, capire il termine corretto per la correzione del bias può essere troppo difficile, quindi aggiungi un'espressione "nello spirito" del termine per la correzione del bias, ad esempio la somma dei quadrati dei parametri. Alla fine, quasi tutti gli approcci di classificazione supervisionata dell'apprendimento automatico parametrico finiscono per addestrare il modello per minimizzare quanto segue
∑iL(m(xi,w),yi)+P(w)
dove è il tuo modello parametrizzata vettore w , i è ripreso tutti datapoints { x i , y i } , L è un po 'computazionalmente bel approssimazione della vostra vera perdita e P ( w ) è qualche termine bias di correzione / regolarizzazionemwi{xi,yi}LP(w)
Ad esempio, se , y ∈ { - 1 , 1 } , un approccio tipico sarebbe quello di lasciare m ( x ) = segno ( w ⋅ x ) , L ( m ( x ) , y ) = - log ( y × ( x ⋅ w ) ) , P (x∈{−1,1}dy∈{−1,1}m(x)=sign(w⋅x)L(m(x),y)=−log(y×(x⋅w)) e scegli q per convalida incrociataP(w)=q×(w⋅w)q