Questi termini compaiono in alcuni libri sulle statistiche multivariate. Supponiamo di avere n
individui per p
matrice di dati di caratteristiche quantitative. Quindi puoi tracciare gli individui come punti nello spazio in cui gli assi sono le caratteristiche. Sarà un classico diagramma a dispersione, noto anche come grafico a spazio variabile . Diciamo che la nuvola di individui abbraccia lo spazio definito dalle caratteristiche degli assi.
Potresti anche concepire il diagramma a dispersione con i punti come variabili e gli assi come individui. Assolutamente come il precedente, solo turbolento. Quello sarà il diagramma dello spazio soggetto (o diagramma dello spazio di osservazione) con le variabili che lo attraversano, gli individui che lo definiscono.
Si noti che se (come spesso) n>p
quindi, nel secondo caso, solo alcune p
dimensioni fuori dalle n
dimensioni non sono ridondanti; ciò significa che puoi e puoi disegnare i p
punti variabili sul p
diagramma tridimensionale . Inoltre, per tradizione i punti variabili sono generalmente collegati all'origine e quindi appaiono come vettori (frecce). Usiamo la rappresentazione dello spazio soggetto principalmente per mostrare le relazioni tra le variabili, quindi lasciamo cadere gli assi-soggetti e descriviamo i punti come frecce, per comodità.1
Se le caratteristiche (colonne della matrice di dati) erano centrate prima di disegnare il diagramma dello spazio soggetto, i coseni degli angoli tra i vettori variabili sono uguali alle loro correlazioni di Pearson, mentre le lunghezze vettoriali sono uguali alle norme delle variabili (somma radice dei quadrati ) o deviazioni standard (se divise per df ).
Lo spazio variabile e lo spazio soggetto sono due facce della stessa medaglia, sono lo stesso spazio analitico euclideo, presentati solo speculari l'uno all'altro. Condividono le stesse proprietà, come gli autovalori e gli autovettori diversi da zero. È quindi possibile tracciare sia soggetti che variabili fianco a fianco come punti nello spazio degli assi principali (o altre basi ortogonali) di quello spazio analitico, - questo diagramma congiunto è chiamato biplot . Non so esattamente cosa significhi "spazio dati": se significa qualcosa di specifico, suppongo che sia lo spazio analitico comune di cui lo spazio soggetto e lo spazio variabile sono le due ipostasi.
Alcuni collegamenti locali:
1 Immagina di avere n=5
individui e p=2
variabili e in qualche modo sei riuscito magicamente a disegnare i 2 punti nello spazio 5-dimensionale. Quindi puoi ruotare il sottospazio definito da qualsiasi 2 degli assi in modo tale da incorporare i 2 punti (che da quel momento in poi si estendono su quel piano); dopo di ciò, si lasciano cadere in sicurezza gli altri 3 assi (dimensioni) poiché non sono più necessari. La posizione dei due punti variabili l'uno rispetto all'altro è stata preservata.