(la risposta di Hamner è ottima, quindi basta postare in croce la mia risposta da MetaOptimize per completezza.)
Penso agli algoritmi generativi come a fornire un modello di come vengono effettivamente generati i dati (penso a loro come a darti un modello di e , piuttosto che di , anche se immagino che sia equivalente) e algoritmi discriminatori che forniscono semplicemente divisioni di classificazione (e non necessariamente in modo probabilistico).P(X|Y)P(Y)P(X,Y)
Confronta, ad esempio, i modelli di miscele gaussiane e il clustering k-mean. Nel primo, abbiamo un bel modello probabilistico per come vengono generati i punti (scegli un componente con una certa probabilità, quindi emetti un punto campionando dalla distribuzione gaussiana del componente), ma non c'è nulla che possiamo davvero dire su quest'ultimo.
Nota che gli algoritmi generativi hanno proprietà discriminatorie, poiché puoi ottenere una volta che hai e (secondo il teorema di Bayes), sebbene gli algoritmi discriminativi non abbiano realmente proprietà generative.P(Y|X)P(X|Y)P(Y)
1: algoritmi discriminatori consentono di classificare i punti, senza fornire un modello di come i punti vengono effettivamente generati. Quindi questi potrebbero essere:
- gli algoritmi probabilistici tentano di apprendere (ad es. regressione logistica);P(Y|X)
- o algoritmi non probabilistici che provano ad apprendere le mappature direttamente dai punti alle classi (ad esempio, percettrone e SVM semplicemente forniscono un iperpiano di separazione, ma nessun modello per generare nuovi punti).
Quindi sì, i classificatori discriminatori sono classificatori che non sono generativi.
Un altro modo di pensare a questo è che gli algoritmi generativi fanno una sorta di ipotesi di struttura sul tuo modello , ma gli algoritmi discriminatori fanno meno ipotesi. Ad esempio, Naive Bayes assume l'indipendenza condizionale delle tue caratteristiche, mentre la regressione logistica (la "controparte" discriminante di Naive Bayes) no.
2: Sì, Naive Bayes è generativo perché cattura e . Ad esempio, se sappiamo che e , insieme alle probabilità di parola inglese e francese, ora possiamo generare un nuovo documento scegliendo prima la lingua del documento ( Inglese con probabilità 0,7, francese con probabilità 0,3), quindi generazione di parole in base alla probabilità di parola della lingua scelta.P(X|Y)P(Y)P(Y=English)=0.7P(Y=French)=0.3
Sì, suppongo che potresti rendere generativa la regressione logistica in quel modo, ma è solo perché stai aggiungendo qualcosa alla regressione logistica che non è già lì. Cioè, quando esegui una classificazione Naive Bayes, stai calcolando direttamente (i termini a destra, e , sono ciò che ti consente di generare un nuovo documento); ma quando stai calcolando nella regressione logistica, non stai calcolando queste due cose, stai solo applicando una funzione logistica a un prodotto punto.P(Y|X)∝P(X|Y)P(Y)P(X|Y)P(Y)P(Y|X)
3: I modelli generativi spesso sovraperformano i modelli discriminatori su insiemi di dati più piccoli perché i loro presupposti generativi posizionano una struttura sul modello che impedisce l'adattamento eccessivo . Ad esempio, consideriamo Naive Bayes contro la regressione logistica. Il presupposto di Naive Bayes è ovviamente raramente soddisfatto, quindi la regressione logistica tenderà a sovraperformare Naive Bayes man mano che il set di dati cresce (poiché può catturare dipendenze che Naive Bayes non può). Ma quando hai solo un piccolo set di dati, la regressione logistica potrebbe riprendersi da schemi spuri che in realtà non esistono, quindi Naive Bayes agisce come una sorta di regolarizzatore sul tuo modello che impedisce l'adattamento eccessivo. C'è un articolo di Andrew Ng e Michael Jordan sui classificatori discriminatori e generativi che ne parla di più.
4: Penso che ciò significhi che i modelli generativi possono effettivamente apprendere la struttura sottostante dei dati se specifichi correttamente il tuo modello e il modello è effettivamente valido, ma i modelli discriminanti possono sovraperformare nel caso in cui i tuoi presupposti generativi non siano soddisfatti (poiché gli algoritmi discriminatori sono meno legato a una particolare struttura, e il mondo reale è disordinato e le assunzioni raramente sono comunque perfettamente soddisfatte). (Probabilmente ignorerei solo queste citazioni se sono confuse.)