Perché il classificatore di regressione della cresta funziona abbastanza bene per la classificazione del testo?

Durante un esperimento per la classificazione del testo, ho scoperto che il classificatore di cresta genera risultati che completano costantemente i test tra quei classificatori che sono più comunemente citati e applicati per attività di estrazione del testo, come SVM, NB, kNN, ecc. Tuttavia, non ho elaborato sull'ottimizzazione di ogni classificatore in questa specifica attività di classificazione del testo, tranne alcune semplici modifiche ai parametri.

Tale risultato è stato menzionato anche Dikran Marsupial .

Non venendo dallo sfondo delle statistiche, dopo aver letto alcuni materiali online, non riesco ancora a capire i motivi principali di questo. Qualcuno potrebbe fornire alcuni spunti su tale risultato?

— Fiocco
fonte

Risposte:

I problemi di classificazione del testo tendono ad essere di dimensione piuttosto elevata (molte funzionalità) e i problemi di dimensione elevata sono probabilmente separabili linearmente (poiché è possibile separare qualsiasi punto d + 1 in uno spazio d-dimensionale con un classificatore lineare, indipendentemente da come i punti sono etichettati). Quindi i classificatori lineari, sia che si tratti di regressione della cresta o SVM con un kernel lineare, probabilmente faranno bene. In entrambi i casi, il parametro ridge o C per SVM (come tdc menziona +1) controlla la complessità del classificatore e aiuta a evitare un eccesso di adattamento separando i modelli di ogni classe da ampi margini (cioè la superficie di decisione passa metà del divario tra le due raccolte di punti). Tuttavia, per ottenere buone prestazioni, i parametri di cresta / regolarizzazione devono essere opportunamente sintonizzati (utilizzo la convalida incrociata "one-out-one" poiché è economica).

Tuttavia, la ragione per cui la regressione della cresta funziona bene è che i metodi non lineari sono troppo potenti ed è difficile evitare un adattamento eccessivo. Potrebbe esserci un classificatore non lineare che offre migliori prestazioni di generalizzazione rispetto al miglior modello lineare, ma è troppo difficile stimare quei parametri usando il campione finito di dati di addestramento che abbiamo. In pratica, più semplice è il modello, minore è il problema che abbiamo nella stima dei parametri, quindi c'è meno tendenza a sovra-adattarsi, in modo da ottenere risultati migliori nella pratica.

Un altro problema è la selezione delle caratteristiche, la regressione della cresta evita l'adattamento eccessivo regolarizzando i pesi per mantenerli piccoli e la selezione del modello è semplice in quanto devi solo scegliere il valore di un singolo parametro di regressione. Se si tenta di evitare un eccesso di adattamento selezionando l'insieme ottimale di funzioni, la selezione del modello diventa difficile in quanto esiste un grado di libertà (una sorta di) per ogni caratteristica, che consente di sovra-adattarsi al criterio di selezione delle caratteristiche e l'utente finiscono con un set di funzionalità che è ottimale per questo particolare campione di dati, ma che offre scarse prestazioni di generalizzazione. Pertanto, non eseguire la selezione delle funzionalità e utilizzare la regolarizzazione può spesso fornire prestazioni predittive migliori.

Uso spesso il Bagging (forma un comitato di modelli addestrati su campioni bootstraped dal set di training) con modelli di regressione della cresta, che spesso danno un miglioramento delle prestazioni, e poiché tutti i modelli sono lineari è possibile combinarli per formare un singolo modello lineare , quindi non vi è alcun impatto sulle prestazioni durante il funzionamento.

— Dikran Marsupial
fonte

d - 1

$d-1$

d

$d$

Si presume normalmente che i punti siano in "posizione generale", in modo che (per esempio) non si trovino su una linea retta, nel qual caso in uno spazio 2-d è possibile separare 3 punti. Se tutti i punti si trovano in una linea retta, in realtà abitano in un sottospazio 1-d incorporato in uno spazio 2-d.

— Dikran Marsupial,

Su Wikipedia c'è la frase "dato che il metodo fa una media di diversi predittori, non è utile per migliorare i modelli lineari" anche se non sono sicuro del perché questo dovrebbe essere vero?

— TCD

Non vedo nemmeno perché dovrebbe essere vero. Ho il sospetto che un modello lineare insaccato possa essere rappresentato esattamente da un singolo modello lineare, tuttavia il problema è la stima dei parametri del singolo modello, non la forma del modello. Ho scoperto che il bagging migliora la generalizzazione, ma il guadagno è generalmente ridotto a meno che tu non abbia molte più funzioni rispetto alle osservazioni (quindi la stima del modello è instabile e una piccola modifica nei dati produce un grande cambiamento nel modello).

— Dikran Marsupial,

Forse dovresti aggiornare la pagina di Wikipedia! Sembri ben informato sulla questione ...

— TC

La regressione della cresta, come suggerisce il nome, è un metodo di regressione piuttosto che di classificazione. Presumibilmente stai usando una soglia per trasformarla in un classificatore. In ogni caso, stai semplicemente imparando un classificatore lineare definito da un iperpiano. Il motivo per cui funziona è perché l'attività a portata di mano è essenzialmente separabile linearmente, ovvero è sufficiente un semplice iperpiano per separare le classi. Il parametro "ridge" consente di operare in casi che non sono completamente linearmente separabili o problemi che sono carenti di rango (nel qual caso l'ottimizzazione sarebbe degenerata).

In questo caso, non vi è alcun motivo per cui anche altri classificatori non dovrebbero funzionare bene, supponendo che siano stati implementati correttamente. Ad esempio, SVM trova l '"iperpiano di separazione ottimale" (cioè l'iperpiano che massimizza il margine, o gap, tra le classi). Il Cparametro dell'SVM è un parametro di controllo della capacità analogo al parametro ridge, che consente alcune classificazioni errate (valori anomali). Supponendo che il processo di selezione dei parametri sia stato eseguito diligentemente, mi aspetto che i due metodi producano quasi esattamente gli stessi risultati su un set di dati di questo tipo.

— tdc
fonte

Ricordo di aver letto che si può dimostrare che la classificazione binaria LS-SVM equivale alla regressione di Ridge su -1,1 etichette, la loro formulazione è la stessa.

— Firebug,

Penso che potresti avere ragione su quello

— tdc