C'è un abuso sottile ma pesante della notazione che rende confusi molti passaggi. Affrontiamo questo problema tornando alle definizioni di moltiplicazione, trasposizione, tracce e derivati della matrice. Per coloro che desiderano omettere le spiegazioni, basta passare all'ultima sezione "Mettere tutto insieme" per vedere quanto breve e semplice può essere una dimostrazione rigorosa.
Notazione e concetti
Dimensioni
Per l'espressione per dare un senso quando A è un m × n matrice, B deve essere un (quadrato) n × n matrice e C deve essere un m × p matrice, da cui il prodotto è un m × p matrice . Per prendere la traccia (che è la somma degli elementi diagonali, Tr ( X ) = ∑ i X i i ), quindi p = m , facendo CA B A'CUNm × nBn × nCm × pm × pTr( X) = ∑ioXio iop = mC una matrice quadrata.
Derivati
La notazione " " appare per indicare la derivata di un'espressione rispetto ad A . Ordinariamente, la differenziazione è un'operazione eseguita su funzioni f : R N → R M . La derivata in un punto x ∈ R N è una trasformazione lineare D f ( x ) : R N → R M . Scegliendo le basi per questi spazi vettoriali, tale trasformazione può essere rappresentata come una matrice M × N. Questo non è il caso qui!∇UNUNf: RN→ RMx ∈ RND f( x ) : RN→ RMM× N
Matrici come vettori
Invece, viene considerato come un elemento di R m n : i suoi coefficienti vengono srotolati (di solito riga per riga o colonna per colonna) in un vettore di lunghezza N = m n . La funzione f ( A ) = Tr ( A B A ′ C ) ha valori reali, da cui M = 1 . Di conseguenza, D f ( x ) deve essere una matrice 1 × m n : è un vettore di riga che rappresenta una forma lineare suUNRm nN= m nf( A ) = Tr( A B A'C)M= 1D f( x )1 × m n . Tuttavia, i calcoli nella domanda usano unmododiversodi rappresentare forme lineari: i loro coefficienti sono riportati inmatricim×n.Rm nm × n
La traccia come forma lineare
Sia una matrice costante m × n . Quindi, per definizione della traccia e della moltiplicazione della matrice,ωm × n
Tr( A ω')= ∑i = 1m( A ω')io io= ∑i = 1m( ∑j = 1nUNij(ω′)ji)=∑i,jωijAij
Questo esprime la combinazione lineare più generale possibile dei coefficienti di : ω è una matrice della stessa forma di A e il suo coefficiente nella riga i e la colonna j è il coefficiente di A i j nella combinazione lineare. Poiché ω i j A i j = A i j ω i j , i ruoli di ω e A possono cambiare, dando l'espressione equivalenteAωAijAijωijAij=AijωijωA
∑i,jωijAij=Tr(Aω′)=Tr(ωA′).(1)
Identificando una matrice costante con una delle funzioni A → Tr ( A ω ' ) o A → Tr ( ω A ' ) , possiamo rappresentare forme lineari sullo spazio di m × n matrici come m × n matrici. (Non confonderli con derivati di funzioni da R n a R m !)ωA→Tr(Aω′)A→Tr(ωA′)m×nm×nRnRm
Calcolo di un derivato
La definizione
I derivati di molte delle funzioni della matrice riscontrate nelle statistiche sono calcolati più facilmente e in modo affidabile dalla definizione: non è necessario ricorrere a complicate regole di differenziazione della matrice. Questa definizione dice che è differenziabile in x se e solo se esiste una trasformazione lineare L tale chefxL
f(x+h)−f(x)=Lh+o(|h|)
per arbitrariamente piccoli spostamenti . I piccoli-oh mezzi notazione che l'errore commesso approssimando la differenza f ( x + h ) - f ( x ) da L h è arbitrariamente minore della dimensione di h per sufficientemente piccolo h . In particolare, possiamo sempre ignorare errori proporzionali a | h | 2 .h∈RNf(x+h)−f( x )L hhh| h |2
Il calcolo
Applichiamo la definizione alla funzione in questione. Moltiplicando, espandendo e ignorando il termine con un prodotto di due ,h
f( A + h ) - f( A )= Tr( ( A + h ) B ( A + h )'C) - Tr( A B A'C)= Tr( h B A'C) + Tr( A B h'C) + o ( | h | ) .(2)
Per identificare la derivata , dobbiamo inserirlo nel modulo ( 1 ) . Il primo termine a destra è già in questa forma, con ω = B A ' C . L'altro termine a destra ha la forma Tr ( X h ' C ) per X = A B . Scriviamo questo:L = D f( A )( 1 )ω = B A'CTr( Xh'C)X= A B
Tr( Xh'C) = ∑i = 1mΣj = 1nΣk = 1mXio jhk jCk i= ∑io , j , khk j( Ck iXio j) =Tr( ( CX) h') .(3)
Richiamando , ( 2 ) può essere riscrittoX= A B( 2 )
f( A + h ) - f( A ) = Tr( hB A'C) + Tr( CA Bh') + o ( | h | ) .
È in questo senso che possiamo considerare la derivata di in A come D f ( A ) = ( B A ′ C ) ′ + C A B = C ′ A B ′ + C A B , perché queste matrici giocano il ruoli di ω nelle formule di traccia ( 1 ) .fUN
D f( A ) = ( B A'C)'+ CA B = C'A B'+ CA B ,
ω( 1 )
Mettere tutto insieme
Ecco quindi una soluzione completa.
Sia una matrice m × n , una matrice B an n × n e una matrice C an m × m . Sia f ( A ) = Tr ( A B A ′ C ) . Sia h una matrice m × n con coefficienti arbitrariamente piccoli. Perché (per identità ( 3 ) ) f ( A + h ) - f (UNm × nBn × nCm × mf( A ) = Tr( A B A'C)hm ×n( 3 ) fè differenziabile e la sua derivata è la forma lineare determinata dalla matriceC′AB′+CAB.
f( A+ h ) - f( A )= Tr( hB A'C)+ Tr( A Bh'C) + o ( | h | )=Tr( h ( C'UNB')'+ ( CA B ) h') + o ( | h | ) ,
fC'UNB'+CA B .
Poiché ciò richiede solo circa la metà del lavoro e coinvolge solo le più elementari manipolazioni di matrici e tracce (moltiplicazione e trasposizione), deve essere considerata una dimostrazione più semplice - e probabilmente più evidente - del risultato. Se vuoi davvero capire i singoli passaggi della dimostrazione originale, potresti trovare utile confrontarli con i calcoli mostrati qui.