Attualmente sto insegnando a me stesso come fare la classificazione, e in particolare sto esaminando tre metodi: supportare macchine vettoriali, reti neurali e regressione logistica. Quello che sto cercando di capire è il motivo per cui la regressione logistica avrebbe mai funzionato meglio degli altri due.
Dalla mia comprensione della regressione logistica, l'idea è di adattare una funzione logistica a tutti i dati. Quindi, se i miei dati sono binari, tutti i miei dati con etichetta 0 dovrebbero essere mappati sul valore 0 (o vicino ad esso) e tutti i miei dati con valore 1 dovrebbero essere mappati sul valore 1 (o vicino ad esso). Ora, poiché la funzione logistica è continua e fluida, eseguire questa regressione richiede che tutti i miei dati si adattino alla curva; non viene applicata maggiore importanza ai punti dati vicini al limite decisionale e tutti i punti dati contribuiscono alla perdita di importi diversi.
Tuttavia, con macchine vettoriali di supporto e reti neurali, sono importanti solo quei punti dati vicini al limite decisionale; fintanto che un punto dati rimane dallo stesso lato del limite decisionale, contribuirà alla stessa perdita.
Pertanto, perché la regressione logistica supererebbe mai le macchine vettoriali o le reti neurali di supporto, dato che "spreca risorse" nel tentativo di adattare una curva a molti dati non importanti (facilmente classificabili), piuttosto che concentrarsi solo sui dati difficili intorno alla decisione confine?