Domanda su una normale prova di equazione


11

Come puoi dimostrare che le equazioni normali: hanno una o più soluzioni senza supporre che X sia invertibile?(XTX)β=XTY

La mia unica ipotesi è che abbia qualcosa a che fare con l'inverso generalizzato, ma sono totalmente perso.


1
Ottieni punti ponendo domande che provocano risposte sorprendenti.
Nikana Reklawyks,

Risposte:


14

Si è tentati di essere glib e di sottolinearlo perché la forma quadratica

β(YXβ)(YXβ)

è semi-definito positivo, esiste un β per il quale è minimo e tale minimo viene trovato (impostando il gradiente rispetto a β su zero) con le equazioni normali

XX(YXβ)=0,

quindi deve esserci almeno una soluzione indipendentemente dal rango diXX . Tuttavia, questo argomento non sembra essere nello spirito della domanda, che sembra essere un'affermazione puramente algebrica. Forse è interessante capire perché una simile equazione deve avere una soluzione e in quali condizioni. Quindi ricominciamo e fingiamo di non conoscere la connessione con i minimi quadrati.


Tutto si riduce al significato di , la trasposizione di . Ciò si rivelerà essere una semplice definizione, una notazione appropriata e il concetto di una forma sesquilinea non degenerata. Ricorda che è la "matrice di progettazione" di righe (una per ogni osservazione) e di colonne (una per ogni variabile, inclusa una costante se presente). Rappresenta quindi una trasformazione lineare dallo spazio vettoriale in . X X n p V = R p W = R nXXXnpV=RpW=Rn

La trasposizione di , pensata come trasformazione lineare , è una trasformazione lineare dei doppi spazi . Per dare un senso a una composizione come , quindi, è necessario identificare con . Questo è ciò che fa il solito prodotto interno (somma dei quadrati) su .X : WVX X WW OX X:WVXXWWW

Ci sono in realtà due prodotti interni e definite su e rispettivamente. Queste sono funzioni simmetriche bilineari a valore reale che non sono degenerate . Quest'ultimo significa cheg W V WgVgWVW

gW(u,v)=0 uWv=0,

con istruzioni analoghe per . Geometricamente, questi prodotti interni ci consentono di misurare lunghezza e angolo. La condizione può essere considerata come "perpendicolare" a . La non generosità significa che solo il vettore zero è perpendicolare all'intero spazio vettoriale. (Questa generalità significa che i risultati ottenuti qui si applicheranno all'impostazione dei minimi quadrati generalizzati , per cui non è necessariamente il normale prodotto interno dato come somma dei prodotti dei componenti, ma è una forma arbitraria non . Potremmo rinunciare a tutto , definendo g ( u , v ) = 0 u v g W g V X : WVgVg(u,v)=0uvgWgVX:WV, ma mi aspetto che molti lettori non abbiano familiarità o disagio con i doppi spazi e quindi scelgono di evitare questa formulazione.)

Con questi prodotti interni in mano, il recepimento di qualsiasi trasformazione lineare da è definito da viaX : WVX:VWX:WV

gV(X(w),v)=gW(w,X(v))

per tutti e . Che esiste effettivamente un vettore con questa proprietà può essere stabilito scrivendo le cose con le basi per e ; che questo vettore è unico deriva dalla non degenerazione dei prodotti interni. Se e sono due vettori per i quali per tutti , quindi (dalla linearità nel primo componente) per tutte le implicanti . v V X ( w ) V V W v 1 v 2 g V ( v 1 , v ) = g V ( v 2 , v ) v V g V ( v 1 - v 2 , v ) = 0 v v 1 - v 2 = 0wWvVX(w)VVWv1v2gV(v1,v)=gV(v2,v)vVgV(v1v2,v)=0vv1v2=0

Quando scrittura per l'insieme di tutti i vettori perpendicolari a ogni vettore in . Inoltre, per notazione, scrivi per l'immagine di , definita come l'insieme . Una relazione fondamentale tra e la sua trasposizione èUU X ( V ) X { X ( v ) | v V } W X X UW,UUX(V)X{X(v)|vV}WXX

X(w)=0wX(V).

Cioè, è nel kernel di se e solo se è perpendicolare alla immagine di . X w XwXwX Questa affermazione dice due cose:

  1. Se , allora per tutti , che semplicemente significa che è perpendicolare a .X(w)=0gW(w,X(v))=gV(X(w),v)=gV(0,v)=0vVwX(V)

  2. Se è perpendicolare a , ciò significa solo per tutto , ma questo equivale a e la non di implica .wX(V)gW(w,X(v))=0vVgV(X(w),v)=0gVX(w)=0

In realtà abbiamo finito ora. L'analisi ha dimostrato che decompone come prodotto diretto . Cioè, possiamo prendere qualsiasi arbitrario e scriverlo in modo univoco come con e . Che mezzi é di forma per almeno un . Si noti, quindi, cheWW=X(V)X(V) yWy=y0+yy0X(V)yX(V)y0X(β)βV

yXβ=(y0+y)y0=yX(V)

La relazione fondamentale dice che è la stessa della parte sinistra nel kernel di :X

X(yXβ)=0,

da cui risolve le equazioni normaliβXXβ=Xy.


Ora siamo in grado di dare una breve risposta geometrica alla domanda (insieme ad alcuni commenti rivelatori): le equazioni normali hanno una soluzione perché qualsiasi -vettore decompone (in modo univoco) come la somma di un vettore nell'intervallo e un altro vettore perpendicolare e è l'immagine di almeno un -vettore . La dimensione dell'immagine (il suo rango ) è la dimensione dei parametri identificabili . La dimensione del kernel dinyWy0Xyy0y0pβVX(V)Xconta le relazioni lineari non banali tra i parametri. Tutti i parametri sono identificabili quando è una mappa uno-a-uno da alla sua immagine in .XVW

È infine utile erogazione con lo spazio del tutto e lavoro interamente con il sottospazio , lo "spazio colonna" della matrice . L'equazioni normali quantità di proiezione ortogonale sulla . Ciò ci libera concettualmente dall'essere legati a una particolare parametrizzazione del modello e mostra che i modelli dei minimi quadrati hanno una dimensione intrinseca indipendente dal modo in cui sono parametrizzati.VU=X(V)WXU


Un risultato interessante di questa dimostrazione algebrica astratta è che possiamo risolvere le normali equazioni in spazi vettoriali arbitrari. Il risultato vale, diciamo, per spazi complessi, per spazi su campi finiti (dove minimizzare una somma di quadrati ha poco senso) e persino su spazi infiniti dimensionali che supportano opportune forme sequenziali.


1
Non ho mai avuto il rappresentante di accettare questa risposta fino a molto tempo dopo. Mi sono appena imbattuto in questo e volevo ringraziarti di nuovo!
Ryati,

Scriverei quella forma quadratica come piuttosto che come e usa l'altra freccia per cose come
β(YXβ)(YXβ)
β(YXβ)(YXβ),
f:AB.
Michael Hardy,

@Michael Nel tuo commento deve esserci un errore tipografico. Ti dispiacerebbe chiarire cosa intendevi?
whuber

@whuber: non trovo alcun errore tipografico. Il punto è che le due frecce e hanno significati diversi. ''''
Michael Hardy,

@Michael Perdonami per non aver visto quella distinzione, nonostante molte letture. Indipendentemente da ciò, per me la prima freccia si riferisce a una funzione iniettiva mentre la seconda si riferisce a qualsiasi funzione, ma sospetto che non sia quello che intendi. Ti dispiacerebbe spiegare la tua notazione?
whuber

0

È facile mostrare (provare da soli, per un numero arbitrario di punti, ) che esiste l'inverso di se ci sono almeno due valori distinti (predittori) nel set di campioni. Solo se tutti i tuoi dati hanno gli stessi valori (cioè punti impilati nella direzione , lungo una linea verticale), qualsiasi linea tracciata attraverso la loro media avrà una pendenza arbitraria (coefficiente di regressione) , in modo che la riga di regressione LSE non sia quindi unica.nXTXxxi=xyy¯


Per completezza, per una regressione lineare semplice, mentre per regressione lineare multipla. X = [ 1 x 11x m 1 ; ... ; 1 x 1 nx m n ]X=[1 x1;1 x2;;1 xn]X=[1 x11xm1;;1 x1nxmn]
Lucozade,

3
Il riferimento alla regressione multipla nel commento è sconcertante, poiché questa risposta si applica chiaramente solo al caso della regressione ordinaria in cui si sta adattando una "linea" anziché una superficie di dimensione superiore. Inoltre, si sembrano aver risposto a una domanda diversa: questo chiede solo per il caso in cui non è invertibile. XX
whuber

0

Nella regressione tipica, X è magro e quindi certamente non invertibile (anche se può essere lasciato invertibile). È semplice provare (chiedere se hai bisogno di aiuto) che se X è magro e lasciato invertibile, allora X ^ T * X è invertibile. In questo caso, ci sarà esattamente una soluzione. E se X non ha un rango di colonna completo, allora X ^ T * X non sarà di rango intero e quindi avrai un sistema indefinito.


1
Queste osservazioni non sembrano rispondere alla domanda: indipendentemente dal grado di , esisterà comunque una soluzione. Ad esempio, considera il caso estremo in cui è una matrice di tutti gli zeri. Quindi le equazioni normali si riducono a e qualsiasi è una soluzione. X 0 β = 0 βXXX0β=0 β
whuber

whuber: ovviamente rispondono alla domanda: un soln se X è il ranking di colonna completo (come ho già detto) e infinite soluzioni se si tratta di un sistema
indefinito

1
Il fatto che il sistema sia "sottodeterminato" non implica che abbia delle soluzioni. La domanda riguarda l'esistenza di soluzioni.
whuber
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.