Supponiamo di avere variabili misurabili, , facciamo un numero di misurazioni e quindi desideriamo eseguire una decomposizione di valore singolare sui risultati per trovare gli assi con la varianza più alta per i punti nello spazio N- dimensionale. ( Nota: supponiamo che i mezzi di a_i siano già stati sottratti, quindi \ langle a_i \ rangle = 0 per tutti i .)M > NN ⟨ un i ⟩ = 0 i
Supponiamo ora che una (o più) delle variabili abbia una grandezza caratteristica significativamente diversa dalle altre. Ad esempio potrebbe avere valori nell'intervallo mentre il resto potrebbe essere circa . Questo inclinerà molto l'asse della più alta varianza verso l'asse di .
La differenza di magnitudo potrebbe semplicemente essere dovuta a una sfortunata scelta di unità di misura (se stiamo parlando di dati fisici, ad esempio chilometri vs metri), ma in realtà le diverse variabili potrebbero avere dimensioni totalmente diverse (ad esempio peso vs volume), quindi potrebbe non esserci alcun modo ovvio per scegliere unità "comparabili" per loro.
Domanda: Vorrei sapere se esistono metodi standard / comuni per normalizzare i dati per evitare questo problema. Sono più interessato alle tecniche standard che producono magnitudini comparabili per per questo scopo piuttosto che inventare qualcosa di nuovo.
EDIT: una possibilità è quella di normalizzare ogni variabile con la sua deviazione standard o qualcosa di simile. Tuttavia, appare il seguente problema: interpretiamo i dati come una nuvola di punti nello spazio -dimensionale. Questa nuvola di punti può essere ruotata e questo tipo di normalizzazione fornirà risultati finali diversi (dopo SVD) a seconda della rotazione. (Ad esempio, nel caso più estremo, immagina di ruotare i dati con precisione per allineare gli assi principali con gli assi principali.)
Mi aspetto che non ci sia alcun modo invariante di rotazione per farlo, ma apprezzerei se qualcuno potesse indicarmi qualche discussione su questo problema in letteratura, specialmente riguardo alle avvertenze nell'interpretazione dei risultati.