I problemi di classificazione del testo tendono ad essere di dimensione piuttosto elevata (molte funzionalità) e i problemi di dimensione elevata sono probabilmente separabili linearmente (poiché è possibile separare qualsiasi punto d + 1 in uno spazio d-dimensionale con un classificatore lineare, indipendentemente da come i punti sono etichettati). Quindi i classificatori lineari, sia che si tratti di regressione della cresta o SVM con un kernel lineare, probabilmente faranno bene. In entrambi i casi, il parametro ridge o C per SVM (come tdc menziona +1) controlla la complessità del classificatore e aiuta a evitare un eccesso di adattamento separando i modelli di ogni classe da ampi margini (cioè la superficie di decisione passa metà del divario tra le due raccolte di punti). Tuttavia, per ottenere buone prestazioni, i parametri di cresta / regolarizzazione devono essere opportunamente sintonizzati (utilizzo la convalida incrociata "one-out-one" poiché è economica).
Tuttavia, la ragione per cui la regressione della cresta funziona bene è che i metodi non lineari sono troppo potenti ed è difficile evitare un adattamento eccessivo. Potrebbe esserci un classificatore non lineare che offre migliori prestazioni di generalizzazione rispetto al miglior modello lineare, ma è troppo difficile stimare quei parametri usando il campione finito di dati di addestramento che abbiamo. In pratica, più semplice è il modello, minore è il problema che abbiamo nella stima dei parametri, quindi c'è meno tendenza a sovra-adattarsi, in modo da ottenere risultati migliori nella pratica.
Un altro problema è la selezione delle caratteristiche, la regressione della cresta evita l'adattamento eccessivo regolarizzando i pesi per mantenerli piccoli e la selezione del modello è semplice in quanto devi solo scegliere il valore di un singolo parametro di regressione. Se si tenta di evitare un eccesso di adattamento selezionando l'insieme ottimale di funzioni, la selezione del modello diventa difficile in quanto esiste un grado di libertà (una sorta di) per ogni caratteristica, che consente di sovra-adattarsi al criterio di selezione delle caratteristiche e l'utente finiscono con un set di funzionalità che è ottimale per questo particolare campione di dati, ma che offre scarse prestazioni di generalizzazione. Pertanto, non eseguire la selezione delle funzionalità e utilizzare la regolarizzazione può spesso fornire prestazioni predittive migliori.
Uso spesso il Bagging (forma un comitato di modelli addestrati su campioni bootstraped dal set di training) con modelli di regressione della cresta, che spesso danno un miglioramento delle prestazioni, e poiché tutti i modelli sono lineari è possibile combinarli per formare un singolo modello lineare , quindi non vi è alcun impatto sulle prestazioni durante il funzionamento.