Come puoi dimostrare che le equazioni normali: hanno una o più soluzioni senza supporre che X sia invertibile?
La mia unica ipotesi è che abbia qualcosa a che fare con l'inverso generalizzato, ma sono totalmente perso.
Come puoi dimostrare che le equazioni normali: hanno una o più soluzioni senza supporre che X sia invertibile?
La mia unica ipotesi è che abbia qualcosa a che fare con l'inverso generalizzato, ma sono totalmente perso.
Risposte:
Si è tentati di essere glib e di sottolinearlo perché la forma quadratica
è semi-definito positivo, esiste un per il quale è minimo e tale minimo viene trovato (impostando il gradiente rispetto a su zero) con le equazioni normali
quindi deve esserci almeno una soluzione indipendentemente dal rango di . Tuttavia, questo argomento non sembra essere nello spirito della domanda, che sembra essere un'affermazione puramente algebrica. Forse è interessante capire perché una simile equazione deve avere una soluzione e in quali condizioni. Quindi ricominciamo e fingiamo di non conoscere la connessione con i minimi quadrati.
Tutto si riduce al significato di , la trasposizione di . Ciò si rivelerà essere una semplice definizione, una notazione appropriata e il concetto di una forma sesquilinea non degenerata. Ricorda che è la "matrice di progettazione" di righe (una per ogni osservazione) e di colonne (una per ogni variabile, inclusa una costante se presente). Rappresenta quindi una trasformazione lineare dallo spazio vettoriale in . X X n p V = R p W = R n
La trasposizione di , pensata come trasformazione lineare , è una trasformazione lineare dei doppi spazi . Per dare un senso a una composizione come , quindi, è necessario identificare con . Questo è ciò che fa il solito prodotto interno (somma dei quadrati) su .X ′ : W ∗ → V ∗ X ′ X W ∗ W O
Ci sono in realtà due prodotti interni e definite su e rispettivamente. Queste sono funzioni simmetriche bilineari a valore reale che non sono degenerate . Quest'ultimo significa cheg W V W
con istruzioni analoghe per . Geometricamente, questi prodotti interni ci consentono di misurare lunghezza e angolo. La condizione può essere considerata come "perpendicolare" a . La non generosità significa che solo il vettore zero è perpendicolare all'intero spazio vettoriale. (Questa generalità significa che i risultati ottenuti qui si applicheranno all'impostazione dei minimi quadrati generalizzati , per cui non è necessariamente il normale prodotto interno dato come somma dei prodotti dei componenti, ma è una forma arbitraria non . Potremmo rinunciare a tutto , definendo g ( u , v ) = 0 u v g W g V X ′ : W → V ∗, ma mi aspetto che molti lettori non abbiano familiarità o disagio con i doppi spazi e quindi scelgono di evitare questa formulazione.)
Con questi prodotti interni in mano, il recepimento di qualsiasi trasformazione lineare da è definito da viaX ′ : W → V
per tutti e . Che esiste effettivamente un vettore con questa proprietà può essere stabilito scrivendo le cose con le basi per e ; che questo vettore è unico deriva dalla non degenerazione dei prodotti interni. Se e sono due vettori per i quali per tutti , quindi (dalla linearità nel primo componente) per tutte le implicanti . v ∈ V X ′ ( w ) ∈ V V W v 1 v 2 g V ( v 1 , v ) = g V ( v 2 , v ) v ∈ V g V ( v 1 - v 2 , v ) = 0 v v 1 - v 2 = 0
Quando scrittura per l'insieme di tutti i vettori perpendicolari a ogni vettore in . Inoltre, per notazione, scrivi per l'immagine di , definita come l'insieme . Una relazione fondamentale tra e la sua trasposizione èU ⊥ U X ( V ) X { X ( v ) | v ∈ V } ⊂ W X X ′
Cioè, è nel kernel di se e solo se è perpendicolare alla immagine di . X ′ w X Questa affermazione dice due cose:
Se , allora per tutti , che semplicemente significa che è perpendicolare a .
Se è perpendicolare a , ciò significa solo per tutto , ma questo equivale a e la non di implica .
In realtà abbiamo finito ora. L'analisi ha dimostrato che decompone come prodotto diretto . Cioè, possiamo prendere qualsiasi arbitrario e scriverlo in modo univoco come con e . Che mezzi é di forma per almeno un . Si noti, quindi, che
La relazione fondamentale dice che è la stessa della parte sinistra nel kernel di :
da cui risolve le equazioni normali
Ora siamo in grado di dare una breve risposta geometrica alla domanda (insieme ad alcuni commenti rivelatori): le equazioni normali hanno una soluzione perché qualsiasi -vettore decompone (in modo univoco) come la somma di un vettore nell'intervallo e un altro vettore perpendicolare e è l'immagine di almeno un -vettore . La dimensione dell'immagine (il suo rango ) è la dimensione dei parametri identificabili . La dimensione del kernel diconta le relazioni lineari non banali tra i parametri. Tutti i parametri sono identificabili quando è una mappa uno-a-uno da alla sua immagine in .
È infine utile erogazione con lo spazio del tutto e lavoro interamente con il sottospazio , lo "spazio colonna" della matrice . L'equazioni normali quantità di proiezione ortogonale sulla . Ciò ci libera concettualmente dall'essere legati a una particolare parametrizzazione del modello e mostra che i modelli dei minimi quadrati hanno una dimensione intrinseca indipendente dal modo in cui sono parametrizzati.
Un risultato interessante di questa dimostrazione algebrica astratta è che possiamo risolvere le normali equazioni in spazi vettoriali arbitrari. Il risultato vale, diciamo, per spazi complessi, per spazi su campi finiti (dove minimizzare una somma di quadrati ha poco senso) e persino su spazi infiniti dimensionali che supportano opportune forme sequenziali.
È facile mostrare (provare da soli, per un numero arbitrario di punti, ) che esiste l'inverso di se ci sono almeno due valori distinti (predittori) nel set di campioni. Solo se tutti i tuoi dati hanno gli stessi valori (cioè punti impilati nella direzione , lungo una linea verticale), qualsiasi linea tracciata attraverso la loro media avrà una pendenza arbitraria (coefficiente di regressione) , in modo che la riga di regressione LSE non sia quindi unica.
Nella regressione tipica, X è magro e quindi certamente non invertibile (anche se può essere lasciato invertibile). È semplice provare (chiedere se hai bisogno di aiuto) che se X è magro e lasciato invertibile, allora X ^ T * X è invertibile. In questo caso, ci sarà esattamente una soluzione. E se X non ha un rango di colonna completo, allora X ^ T * X non sarà di rango intero e quindi avrai un sistema indefinito.