Condizioni sufficienti e necessarie per autovalore zero di una matrice di correlazione


11

Dato n variabile casuale Xi , con distribuzione di probabilità P(X1,,Xn) , la matrice di correlazione Cij=E[XiXj]E[Xi]E[Xj] è semi positivo definito, cioè i suoi autovalori sono positivi o zero.

Sono interessato alle condizioni su P che sono necessarie e / o sufficienti affinché C abbia autovalori m zero. Ad esempio, una condizione sufficiente è che le variabili casuali non siano indipendenti: iuiXi=0 per alcuni numeri reali ui . Ad esempio, se P(X1,,Xn)=δ(X1X2)p(X2,,Xn) , quindiu=(1,1,0,,0) è un autovettore diC con autovalore zero. Se abbiamom vincoli lineari indipendenti sulleXi di questo tipo, implicherebbem zero autovalori.

C'è almeno un'ulteriore (ma banale) possibilità, quando Xa=E[Xa] per alcuni a (cioè P(X1,,Xn)δ(XaE[Xa]) ), poiché in quel caso Cij ha una colonna e una linea di zeri: Cia=Cai=0,i . Dato che non è davvero interessante, presumo che la distribuzione di probabilità non sia di tale forma.

La mia domanda è: i vincoli lineari sono l'unico modo per indurre zero autovalori (se vietiamo la banale eccezione sopra indicata), oppure i vincoli non lineari sulle variabili casuali possono anche generare zero autovalori di ?C


1
Per definizione, una raccolta di vettori che include il vettore zero dipende linearmente, quindi la possibilità aggiuntiva non è nulla di nuovo o diverso. Potrebbe spiegare cosa si intende per "avere un autovalore"? Sembra una sorta di errore tipografico. m
whuber

@whuber: sì, errore di battitura. Corretto. Penso che le due condizioni siano diverse: una riguarda la relazione tra le variabili, mentre l'altra riguarda la probabilità della sola variabile (ovvero ). p(Xa)=δ(XaE(Xa))
Adamo,

La formulazione della tua domanda è confusa. Si presenta come un teorema elementare di algebra lineare, ma i riferimenti a variabili casuali "indipendenti" suggeriscono che potrebbe essere di qualcos'altro complessivamente. Sarebbe corretto capire che ogni volta che usi "indipendente" intendi nel senso di indipendenza lineare e non nel senso di variabili casuali (statisticamente) indipendenti? Il tuo riferimento a "dati mancanti" è ancora più confuso, perché suggerisce che le tue "variabili casuali" potrebbero davvero significare solo colonne di una matrice di dati. Sarebbe bello vedere chiariti questi significati.
whuber

@whuber: ho modificato la domanda. Spero sia più chiaro.
Adam,

La condizione per l'indipendenza non deve necessariamente essere zero (qualsiasi costante lo farà), a meno che la media di ogni X i sia zero. iuiXi=0Xi
Sesto Empirico

Risposte:


6

Forse semplificando la notazione possiamo far emergere le idee essenziali. Si scopre che non è necessario coinvolgere aspettative o formule complicate, perché tutto è puramente algebrico.


La natura algebrica degli oggetti matematici

La domanda riguarda le relazioni tra (1) la matrice di covarianza di un insieme finito di variabili casuali e (2) relazioni lineari tra tali variabili, considerate come vettoriX1,,Xn .

Lo spazio vettoriale in questione è l'insieme di tutte le variabili aleatorie finiti varianza (in un dato spazio di probabilità ) MODULO sottospazio delle variabili quasi certamente costanti, indicata L 2 ( Ω , P ) / R . (Cioè, consideriamo due variabili casuali X e Y come lo stesso vettore quando non vi è alcuna possibilità che X - Y differisca dalle sue aspettative.) Abbiamo a che fare solo con lo spazio vettoriale a dimensioni finite V generato da X i ,(Ω,P)L2(Ω,P)/R.XYXYVXi, che è ciò che rende questo un problema algebrico piuttosto che analitico.

Cosa dobbiamo sapere sulle variazioni

è molto più di uno spazio vettoriale: è unmodulo quadratico,perché è dotato della varianza. Tutto quello che dobbiamo sapere sulle varianze sono due cose:V

  1. La varianza è uno scalare funzione a valori con la proprietà che Q ( una X ) = un 2 Q ( X ) per tutti i vettori X .QQ(aX)=a2Q(X)X.

  2. La varianza non è generosa.

Il secondo necessita di alcune spiegazioni. determina un "prodotto punto", che è una forma bilineare simmetrica data daQ

XY=14(Q(X+Y)Q(XY)).

(Questo ovviamente non è altro che la covarianza delle variabili e Y ) . I vettori X e Y sono ortogonali quando il loro prodotto punto è 0. Il complemento ortogonale di qualsiasi insieme di vettori AV è costituito da tutti i vettori ortogonali ad ogni elemento di A , scrittoXY.XY0.AVA,

A0={vVa.v=0 for all vV}.

È chiaramente uno spazio vettoriale. Quando , Q non è generata.V0={0}Q

Consentitemi di dimostrare che la varianza è davvero non degenerata, anche se potrebbe sembrare ovvia. Supponiamo che sia un elemento diverso da zero di V 0 . Questo significa X Y = 0 per tutti Y V ; equivalentemente,XV0.XY=0YV;

Q(X+Y)=Q(XY)

per tutti i vettori Prendendo Y = X si ottieneY.Y=X

4Q(X)=Q(2X)=Q(X+X)=Q(XX)=Q(0)=0

e quindi Tuttavia, sappiamo (usando la disuguaglianza di Chebyshev, forse) che le uniche variabili casuali con varianza zero sono quasi sicuramente costanti, che le identifica con il vettore zero in V , QED.Q(X)=0.V,

Interpretazione delle domande

Tornando alle domande, nella notazione precedente la matrice di covarianza delle variabili casuali è solo una matrice regolare di tutti i loro prodotti punto,

T=(XiXj).

C'è un buon modo di pensare a : definisce una trasformazione lineare su R n nel solito modo, inviando qualsiasi vettore x = ( x 1 , , x n ) R n nel vettore T ( x ) = y = ( y 1 , ... , x n ) i cui i esima componente è data dalla regola moltiplicazione matriceTRnx=(x1,,xn)RnT(x)=y=(y1,,xn)ith

yi=j=1n(XiXj)xj.

The kernel of this linear transformation is the subspace it sends to zero:

Ker(T)={xRnT(x)=0}.

The foregoing equation implies that when xKer(T), for every i

0=yi=j=1n(XiXj)xj=Xi(jxjXj).

Since this is true for every i, it holds for all vectors spanned by the Xi: namely, V itself. Consequently, when xKer(T), the vector given by jxjXj lies in V0. Because the variance is nondegenerate, this means jxjXj=0. That is, x describes a linear dependency among the n original random variables.

You can readily check that this chain of reasoning is reversible:

Linear dependencies among the Xj as vectors are in one-to-one correspondence with elements of the kernel of T.

(Remember, this statement still considers the Xj as defined up to a constant shift in location--that is, as elements of L2(Ω,P)/R--rather than as just random variables.)

Finally, by definition, an eigenvalue of T is any scalar λ for which there exists a nonzero vector x with T(x)=λx. When λ=0 is an eigenvalue, the space of associated eigenvectors is (obviously) the kernel of T.


Summary

We have arrived at the answer to the questions: the set of linear dependencies of the random variables, qua elements of L2(Ω,P)/R, corresponds one-to-one with the kernel of their covariance matrix T. This is so because the variance is a nondegenerate quadratic form. The kernel also is the eigenspace associated with the zero eigenvalue (or just the zero subspace when there is no zero eigenvalue).


Reference

I have largely adopted the notation and some of the language of Chapter IV in

Jean-Pierre Serre, A Course In Arithmetic. Springer-Verlag 1973.


Whoa, that's great ! Just a question to be sure that I understand everything : when you write "Xj as vectors" you do not mean collecting the random variables in a vector (i.e. X=(X1,,Xn)), or do you ? If I'm right, I'm guessing that you are collecting the possible values of the random variable Xi into a vector, while the probability distribution is hidden into the definition of the variance, right ?
Adam

I think the main aspect that is not quite clear is the following (which might just show my lack of formal knowledge of probability theory) : you seem to show that if there is a 0 eigenvalue, then we have e.g. X1=X2. This constraint does not refer to the probability distribution P, which is hidden in Q (I think this is the clever point about this demonstration). But what does that mean to have X1=X2 without reference to P? Or does it just imply that Pδ(X1X2), but then how do we know that it must be a linear combination of X1 and X2 in the delta function?
Adam

I'm afraid I don't understand your use of a "delta function" in this context, Adam. That is partly because I see no need for it and partly because the notation is ambiguous: would that be a Kronecker delta or a Dirac delta, for instance?
whuber

MX1X2X3X4P=exp(tr(M.MT))X2=X3), I can formally impose that by multiplying P by δ(X1X2). This would be a linear constraint. An example of non-linear constraint is given in the comments below Martijn Weterings's answer.
Adam

(continued) The question is : what can of non-linear constraints that I can add on my variables can induce a 0 eigenvalue. By your answers, it seems to be : only non-linear constraint that imply linear constraint (as exemplified in the comments below Martijn Weterings's answer). Maybe the problem is that my way of thinking of the problem is from a physicist point of view, and I struggle to explain it in a different language (I think here is the right place to ask this question, no physics.SE).
Adam

5

Linear independence is not just sufficient but also a neccesary condition

To show that the variance-covariance matrix has eigenvalues equal to zero if and only if the variables are not linearly independent, it only remains to be shown that "if the matrix has eigenvalues equal to zero then the variables are not linearly independent".

If you have a zero eigenvalue for Cij=Cov(Xi,Xj) then there is some linear combination (defined by the eigenvector v)

Y=i=1nvi(Xi)

such that

Cov(Y,Y)=i=1nj=1nvivjCov(Xi,Xj)=i=1nvij=1nvjCij=i=1nvi0=0

which means that Y needs to be a constant and thus the variables Xi have to add up to a constant and are either constants themselves (the trivial case) or not linearly independent.

- the first line in the equation with Cov(Y,Y) is due to the property of covariance

Cov(aU+bV,cW+dX)=acCov(U,W)+bcCov(V,W)+adCov(U,X)+bdCov(V,X)

- the step from the second to the third line is due to the property of a zero eigenvalue

j=1nvjCij=0


Non-linear constraints

So, since linear constraints are a necessary condition (not just sufficient), non-linear constraints will only be relevant when they indirectly imply a (necessary) linear constraint.

In fact, there is a direct correspondence between the eigenvectors associated with the zero eigenvalue and the linear constraints.

Cv=0Y=i=1nviXi=const

Thus non-linear constraints leading to a zero eigenvalue must, together combined, generate some linear constraint.


How can non-linear constraints lead to linear constraints

Your example in the comments can show this intuitively how non-linear constraints can lead to linear constraints by reversing the derivation. The following non-linear constraints

a2+b2=1c2+d2=1ac+bd=0adbc=1

can be reduced to

a2+b2=1c2+d2=1ad=0b+c=0

You could inverse this. Say you have non-linear plus linear constraints, then it is not strange to imagine how we can replace one of the linear constraints with a non-linear constraint, by filling the linear constraints into the non-linear constraints. E.g when we substitute a=d and b=c in the non-linear form a2+b2=1 then you can make another relationship adbc=1. And when you multiply a=d and c=b then you get ac=bd.


I guess this (and the answer by whuber) is an indirect answer to my question (which was : "is linear dependence the only way to obtain a zero eigenvalue") in this way : even if the dependence between the random variables is non-linear, it can always be rewritten as a linear dependence by just writing Y=iνiXi. Although I was really looking for way to characterize the possible non-linear constraints themselves, I guess it is nevertheless a useful result.
Adam

Yes, I know... what I'm saying is that if there is a non-linear dependence and there is a zero eigenvalue, then by your answer, it means that the non-linear dependence can be "factored" in some way into a linear dependence. It is a weaker version of what I was looking for, but still something.
Adam

Your a giving an example that does not work, which does not mean that it cannot be the case...
Adam

Here is a counter-example of what your saying (if you think it is not, then it might help us find what is wrong with my formulation of the problem :) ) : Take a 2-by-2 random matrix M, with the non-linear constraint M.MT=1 and detM=1. These 3 non-linear constraint can be rewritten in terms of 2 linear constraints, and one linear : meaning that the covariance matrix has two 0 eigenvector. Remove the constraint detM=1, and they disappear.
Adam

M11=X1, M12=X2, M21=X3 and M22=X4. The constraints are X12+X22=1, X32+X42=1, X1X3+X2X4=0 (only two are independent). They do not imply a zero eigenvalue. However, adding X1X4X2X3=1 does imply two eigenvectors with 0 eigenvalues.
Adam

2

Suppose C has an eigenvector v with corresponding eigenvalue 0, then var(vTX)=vTCv=0. Thus, by Chebyshev's inequality, vTX is almost surely constant and equal to vTE[X]. That is, every zero eigenvalue corresponds to a linear restriction, namely vTX=vTE[X]. There is no need to consider any special cases.

Thus, we conclude:

"are linear constraints the only way to induce zero eigenvalues [?]"

Yes.

"can non-linear constraints on the random variables also generate zero eigenvalues of C ?"

Yes, if they imply linear constraints.


I agree. I was hoping that one could be more specific on the kind of non-linear constraints, but I guess that it is hard to do better if we do not specify the constraints.
Adam

2

The covariance marix C of X is symmetric so you can diagnonalize it as C=QΛQT, with the eigenvalues in the diagonal matrix Λ. Rewriting this as Λ=QTCQ, the rhs is the covariance matrix of QTX, so zero eigenvalues on the lhs correspond to linear combinations of X with degenerate distributions.


This is a very nice concise description, but how could we make it more intuitive that QTCQ=cov(QTX)?
Sextus Empiricus
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.