Una variabile categoriale è effettivamente solo un insieme di variabili indicatore. È un'idea di base della teoria delle misurazioni che una tale variabile è invariante alla rietichettatura delle categorie, quindi non ha senso usare l'etichettatura numerica delle categorie in qualsiasi misura della relazione tra un'altra variabile (ad esempio, "correlazione") . Per questo motivo, e la misura della relazione tra una variabile continua e una variabile categoriale dovrebbe essere interamente basata sulle variabili dell'indicatore derivate da quest'ultima.
XIϕ≡P(I=1)
Cov(I,X)=E(IX)−E(I)E(X)=ϕ[E(X|I=1)−E(X)],
che dà:
Corr(I,X)=ϕ1−ϕ−−−−−√⋅E(X|I=1)−E(X)S(X).
XIϕXI=1
C1,...,mC=kIk≡I(C=k)
Corr(Ik,X)=ϕk1−ϕk−−−−−−√⋅E(X|C=k)−E(X)S(X).
Corr(C,X)≡(Corr(I1,X),...,Corr(Im,X))
∑kCov(Ik,X)=0Xm−1
(x1,c1),...,(xn,cn)
ϕ^k≡1n∑i=1nI(ci=k).
E^(X)≡x¯≡1n∑i=1nxi.
E^(X|C=k)≡x¯k≡1n∑i=1nxiI(ci=k)/ϕ^k.
S^(X)≡sX≡1n−1∑i=1n(xi−x¯)2−−−−−−−−−−−−−−−√.
X