Molti algoritmi di apprendimento imparano un singolo peso per funzione o usano le distanze tra i campioni. Il primo è il caso di modelli lineari come la regressione logistica, che sono facili da spiegare.
Supponiamo di avere un set di dati con un'unica caratteristica categorica "nazionalità", con i valori "Regno Unito", "Francese" e "Stati Uniti". Supponiamo, senza perdita di generalità, che questi siano codificati come 0, 1 e 2. Avrai quindi un peso w per questa funzione in un classificatore lineare, che prenderà una sorta di decisione basata sul vincolo w × x + b> 0 o equivalentemente w × x <b.
Il problema ora è che il peso w non può codificare una scelta a tre vie. I tre valori possibili di w × x sono 0, w e 2 × w. O tutti e tre portano alla stessa decisione (sono tutti <b oppure ≥b) o "UK" e "French" portano alla stessa decisione, oppure "French" e "US" danno la stessa decisione. Non c'è alcuna possibilità per il modello di apprendere che "UK" e "US" dovrebbero avere la stessa etichetta, con "French" quello strano fuori.
Con una codifica a caldo, si espande efficacemente lo spazio delle funzioni su tre funzioni, ognuna delle quali avrà i propri pesi, quindi la funzione decisionale è ora w [UK] x [UK] + w [FR] x [FR] + w [US] x [US] <b, dove tutte le x sono booleane. In questo spazio, una tale funzione lineare può esprimere qualsiasi somma / disgiunzione delle possibilità (es. "UK o US", che potrebbe essere un predittore per qualcuno che parla inglese).
Allo stesso modo, qualsiasi studente basato su metriche di distanza standard (come k-vicini più vicini) tra i campioni verrà confuso senza una codifica a caldo. Con la codifica ingenua e la distanza euclidea, la distanza tra francese e USA è 1. La distanza tra Stati Uniti e Regno Unito è 2. Ma con la codifica one-hot, le distanze a coppie tra [1, 0, 0], [0, 1 , 0] e [0, 0, 1] sono tutti uguali a √2.
Questo non è vero per tutti gli algoritmi di apprendimento; alberi decisionali e modelli derivati come foreste casuali, se abbastanza profondi, possono gestire variabili categoriche senza codifica a caldo.