Spazio dati, spazio variabile, spazio di osservazione, spazio modello (ad es. In regressione lineare)


9

Supponiamo di avere la matrice di dati , che è -by- , e il vettore dell'etichetta , che è -by-one. Qui, ogni riga della matrice è un'osservazione e ogni colonna corrisponde a una dimensione / variabile. (assume )Xp Y n n > pnpYnn>p

Allora che cosa fare data space, variable space, observation space, model spacesignificare?

Lo spazio è espanso dal vettore di colonna, uno spazio -D (degenerato) poiché ha coordinate mentre si trova al livello , chiamato spazio variabile poiché è espanso da vettore variabile? O si chiama spazio di osservazione poiché ogni dimensione / coordinata corrisponde a un'osservazione?n pnnp

E lo spazio attraversato dai vettori di riga?


5
Questi non sono termini universalmente conosciuti. Hai un riferimento? In caso contrario, potremmo indovinare cosa intendono significare.
whuber

1
Non ho un riferimento Una volta ho sentito il mio professore raccontarlo qualche tempo fa.
user3813057,

3
Sono abbastanza sicuro, quindi, che il tuo professore abbia definito questi termini ad un certo punto. Forse sono nelle tue note di classe ...
whuber

Risposte:


14

Questi termini compaiono in alcuni libri sulle statistiche multivariate. Supponiamo di avere nindividui per pmatrice di dati di caratteristiche quantitative. Quindi puoi tracciare gli individui come punti nello spazio in cui gli assi sono le caratteristiche. Sarà un classico diagramma a dispersione, noto anche come grafico a spazio variabile . Diciamo che la nuvola di individui abbraccia lo spazio definito dalle caratteristiche degli assi.

Potresti anche concepire il diagramma a dispersione con i punti come variabili e gli assi come individui. Assolutamente come il precedente, solo turbolento. Quello sarà il diagramma dello spazio soggetto (o diagramma dello spazio di osservazione) con le variabili che lo attraversano, gli individui che lo definiscono.

Si noti che se (come spesso) n>pquindi, nel secondo caso, solo alcune pdimensioni fuori dalle ndimensioni non sono ridondanti; ciò significa che puoi e puoi disegnare i ppunti variabili sul pdiagramma tridimensionale . Inoltre, per tradizione i punti variabili sono generalmente collegati all'origine e quindi appaiono come vettori (frecce). Usiamo la rappresentazione dello spazio soggetto principalmente per mostrare le relazioni tra le variabili, quindi lasciamo cadere gli assi-soggetti e descriviamo i punti come frecce, per comodità.1

Se le caratteristiche (colonne della matrice di dati) erano centrate prima di disegnare il diagramma dello spazio soggetto, i coseni degli angoli tra i vettori variabili sono uguali alle loro correlazioni di Pearson, mentre le lunghezze vettoriali sono uguali alle norme delle variabili (somma radice dei quadrati ) o deviazioni standard (se divise per df ).

Lo spazio variabile e lo spazio soggetto sono due facce della stessa medaglia, sono lo stesso spazio analitico euclideo, presentati solo speculari l'uno all'altro. Condividono le stesse proprietà, come gli autovalori e gli autovettori diversi da zero. È quindi possibile tracciare sia soggetti che variabili fianco a fianco come punti nello spazio degli assi principali (o altre basi ortogonali) di quello spazio analitico, - questo diagramma congiunto è chiamato biplot . Non so esattamente cosa significhi "spazio dati": se significa qualcosa di specifico, suppongo che sia lo spazio analitico comune di cui lo spazio soggetto e lo spazio variabile sono le due ipostasi.

inserisci qui la descrizione dell'immagine

Alcuni collegamenti locali:


1 Immagina di avere n=5individui e p=2variabili e in qualche modo sei riuscito magicamente a disegnare i 2 punti nello spazio 5-dimensionale. Quindi puoi ruotare il sottospazio definito da qualsiasi 2 degli assi in modo tale da incorporare i 2 punti (che da quel momento in poi si estendono su quel piano); dopo di ciò, si lasciano cadere in sicurezza gli altri 3 assi (dimensioni) poiché non sono più necessari. La posizione dei due punti variabili l'uno rispetto all'altro è stata preservata.


2
+1. Ma non sono sicuro di quale sia l'esatto significato matematico di dire che la variabile e lo spazio soggetto sono "lo stesso spazio analitico euclideo".
ameba,

3
@amoeba, senza essere matematico nella risposta, speravo che fosse intuitivamente trasparente (specialmente per gli esperti di algebra lineare come te). Ad esempio, nella scomposizione del valore singolare della matrice di dati (svd, su cui si basa il biplot) - quale spazio caratterizzano gli autovalori e gli autovettori destro e sinistro? Non è lo stesso spazio analitico, che potrebbe essere disposto in vari modi, tra cui (i) file e colonne come punti per assi principali come assi; (ii) righe come punti per colonne come assi; (iii) colonne come punti per righe come assi?
ttnphns,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.