Il merito di questa risposta va a @ttnphns che ha spiegato tutto nei commenti sopra. Tuttavia, vorrei fornire una risposta estesa.
Alla tua domanda: i risultati LDA su funzionalità standardizzate e non standardizzate saranno esattamente gli stessi? --- la risposta è Sì . Per prima cosa fornirò una discussione informale, quindi procederò con un po 'di matematica.
Immagina un set di dati 2D mostrato come un diagramma a dispersione su un lato di un palloncino (immagine del palloncino originale presa da qui ):
Qui i punti rossi sono una classe, i punti verdi sono un'altra classe e la linea nera è il limite della classe LDA. Ora riscalandox o ygli assi corrispondono allo stiramento del palloncino in orizzontale o in verticale. È intuitivamente chiaro che anche se la pendenza della linea nera cambierà dopo tale allungamento, le classi saranno esattamente separabili come prima e la posizione relativa della linea nera non cambierà. Ogni osservazione di prova verrà assegnata alla stessa classe di prima dello stretching. Quindi si può dire che lo stretching non influenza i risultati della LDA.
Ora, matematicamente, LDA trova una serie di assi discriminanti calcolando gli autovettori di W−1B, dove W e Bsono matrici di dispersione all'interno e tra le classi. Equivalentemente, si tratta di autovettori generalizzati del problema degli autovalori generalizzatiBv=λWv.
Considera una matrice di dati centrata X con variabili in colonne e punti dati in righe, in modo che la matrice di dispersione totale sia data da T=X⊤X. Standardizzare gli importi dei dati per ridimensionare ogni colonna diXcon un certo numero, ovvero sostituendolo con , dove è una matrice diagonale con coefficienti di scala (inversa delle deviazioni standard di ogni colonna) sulla diagonale. Dopo tale riscalaggio, la matrice scatter cambierà come segue: e la stessa trasformazione avverrà con e .Xnew=XΛΛTnew=ΛTΛWnewBnew
Sia un autovettore del problema originale, ovveroSe moltiplichiamo questa equazione con a sinistra e inseriamo su entrambi i lati prima di , otteniamo ovvero che significa chev
Bv=λWv.
ΛΛΛ−1vΛBΛΛ−1v=λΛWΛΛ−1v,
BnewΛ−1v=λWnewΛ−1v,
Λ−1vè un autovettore dopo il ridimensionamento esattamente con lo stesso autovalore di prima.
λ
Quindi l'asse discriminante (dato dall'autovettore) cambierà, ma il suo autovalore, che mostra quanto sono separate le classi, rimarrà esattamente lo stesso. Inoltre, la proiezione su questo asse, originariamente data da , sarà ora data da , ovvero rimarrà esattamente lo stesso (forse fino a un fattore di ridimensionamento).XvXΛ(Λ−1v)=Xv
in general a "Z-score normalization" (or standardization) of features won't be necessary, even if they are measured on completely different scales
No, questa affermazione non è corretta. Il problema della standardizzazione con LDA è lo stesso di qualsiasi metodo multivariato. Ad esempio, PCA. La distanza di Mahalanobis non ha nulla a che fare con questo argomento.