Come suggerisce AdamO nel commento sopra, non puoi davvero fare di meglio che leggere il capitolo 4 di The Elements of Statistical Learning (che chiamerò HTF) che confronta LDA con altri metodi di classificazione lineare, fornendo molti esempi, e discute anche dell'uso della LDA come tecnica di riduzione dimensionale nella vena della PCA che, come sottolinea ttnphns, è piuttosto popolare.
Dal punto di vista della classificazione, penso che la differenza chiave sia questa. Immagina di avere due classi e di volerle separare. Ogni classe ha una funzione di densità di probabilità. La migliore situazione possibile sarebbe se conoscessi queste funzioni di densità, perché in questo modo potresti prevedere a quale classe appartiene un punto valutando le densità specifiche della classe in quel punto.
Alcuni tipi di classificatore funzionano trovando un'approssimazione alle funzioni di densità delle classi. LDA è uno di questi; presuppone che le densità siano multivariate normali con la stessa matrice di covarianza. Questo è un presupposto forte, ma se è approssimativamente corretto, ottieni un buon classificatore. Anche molti altri classificatori adottano questo tipo di approccio, ma cercano di essere più flessibili di assumere la normalità. Ad esempio, vedere pagina 108 di HTF.
D'altra parte, a pagina 210, HTF avvisa:
Se la classificazione è l'obiettivo finale, allora imparare bene le densità di classe separate potrebbe non essere necessario e in realtà può essere fuorviante.
Un altro approccio è semplicemente quello di cercare un confine tra le due classi, che è ciò che fa il percettrone. Una versione più sofisticata di questo è la macchina vettoriale di supporto. Questi metodi possono anche essere combinati con l'aggiunta di funzionalità ai dati usando una tecnica chiamata kernelization. Questo non funziona con LDA perché non preserva la normalità, ma non è un problema per un classificatore che sta solo cercando un iperpiano di separazione.
La differenza tra LDA e un classificatore che cerca un iperpiano di separazione è come la differenza tra un test t e un'alternativa non parametrica nelle statistiche ordinarie. Il secondo è più robusto (per i valori anomali, per esempio) ma il primo è ottimale se i suoi presupposti sono soddisfatti.
Un'ultima osservazione: potrebbe valere la pena ricordare che alcune persone potrebbero avere ragioni culturali per l'utilizzo di metodi come LDA o regressione logistica, che possono rivelare in modo obbligatorio tabelle ANOVA, test di ipotesi e cose rassicuranti del genere. LDA è stata inventata da Fisher; il percettrone era originariamente un modello per un neurone umano o animale e non aveva alcuna connessione con le statistiche. Funziona anche nell'altro modo; alcune persone potrebbero preferire metodi come le macchine di supporto vettoriale perché hanno il tipo di credito hipster all'avanguardia che i metodi del ventesimo secolo non riescono a eguagliare. Non significa che stanno meglio. (Un buon esempio di questo è discusso in Machine Learning for Hackers , se ricordo bene.)