Spiegazione lucida per la "stabilità numerica dell'inversione della matrice" nella regressione della cresta e il suo ruolo nella riduzione dell'overfit


10

Capisco che possiamo impiegare la regolarizzazione in un problema di regressione dei minimi quadrati come

w=argminw[(yXw)T(yXw)+λw2]

e che questo problema ha una soluzione a forma chiusa come:

w^=(XTX+λI)1XTy.

Vediamo che nella seconda equazione, la regolarizzazione sta semplicemente aggiungendo λ alla diagonale di XTX , che viene fatto per migliorare la stabilità numerica dell'inversione della matrice.

La mia attuale comprensione "grezza" della stabilità numerica è che se una funzione diventa più "numericamente stabile", la sua uscita sarà influenzata in modo meno significativo dal rumore nei suoi ingressi. Sto incontrando difficoltà nel mettere in relazione questo concetto di stabilità numerica migliorata con il quadro più ampio di come evita / riduce il problema del sovradimensionamento.

Ho provato a guardare Wikipedia e alcuni altri siti web universitari, ma non approfondiscono il motivo per cui è così.


Mi viene in mente la regressione della cresta. link
EngrStudent,

1
Potresti trovare un valore nella discussione (per lo più descrittiva / intuitiva piuttosto che algebrica) in Perché la stima della cresta diventa migliore dell'OLS aggiungendo una costante alla diagonale?
Glen_b -Restinata Monica,

Risposte:


2

Nel modello lineare , ipotizzando errori non correlati con zero medio e con rango di colonna pieno, lo stimatore dei minimi quadrati è uno stimatore non corretto per il parametro . Tuttavia, questo stimatore può presentare una varianza elevata. Ad esempio, quando due delle colonne di sono altamente correlate.Y=Xβ+ϵX(XTX)1XTYβX

Il parametro di penalità rende uno stimatore distorto di , ma ne diminuisce la varianza. Inoltre, è l'aspettativa posteriore di in una regressione bayesiana con una prima di . In tal senso, includiamo alcune informazioni nell'analisi secondo cui i componenti di non dovrebbero essere troppo lontani da zero. Ancora una volta, questo ci porta a una stima puntuale distorta di ma riduce la varianza della stima.λw^βw^βN(0,1λI)βββ

In un'impostazione in cui alta dimensione, diciamo , i minimi quadrati si adatteranno quasi perfettamente ai dati. Sebbene imparziale, questa stima sarà altamente sensibile alle fluttuazioni dei dati perché in dimensioni così elevate, ci saranno molti punti con un elevato effetto leva. In tali situazioni il segno di alcuni componenti di può essere determinato da una singola osservazione. Il termine di penalità ha l'effetto di ridurre queste stime a zero, il che può ridurre l'MSE dello stimatore riducendo la varianza.XNpβ^

Modifica: nella mia risposta iniziale ho fornito un collegamento a un documento pertinente e nella mia fretta l'ho rimosso. Eccolo: http://www.jarad.me/stat615/papers/Ridge_Regression_in_Practice.pdf


1
Nella sua forma attuale questo è davvero più di un commento; pensi di poterlo trasformare in una risposta sostanziale?
Silverfish,

Il fondo di p. 5 a destra / in alto a p. 6 a sinistra, relativo alla Figura 3, contiene la discussione chiave per la domanda posta in questo post.
Mark L. Stone,

Tutto ciò è corretto, ma non sono sicuro che risponda alla domanda del PO.
ameba,

ameba, vedi il mio commento sopra, che si riferisce al link che è stato successivamente modificato dalla risposta di Eric Mittman, jarad.me/stat615/papers/Ridge_Regression_in_Practice.pdf .
Mark L. Stone,

1

La stabilità numerica e il sovradimensionamento sono in un certo senso correlati ma questioni diverse.

Il classico problema OLS:

Considera il classico problema dei minimi quadrati:

minimize(over b)(yXb)T(yXb)

La soluzione è il classico . Un'idea è che dalla legge di grandi numeri:b^=(XX)1(Xy)

limn1nXXE[xx]limn1nXyE[xy]

Quindi la stima OLS converge anche in . (In termini di algebra lineare, questa è la proiezione lineare della variabile casuale sull'intervallo lineare delle variabili casuali .)b^E[xx]1E[xy]yx1,x2,,xk

I problemi?

Meccanicamente, cosa può andare storto? Quali sono i possibili problemi?

  1. Per piccoli campioni, le nostre stime di esempio di e potrebbero essere scadenti.E[xx]E[xy]
  2. Se le colonne di sono collineari (a causa della collinearità intrinseca o di piccole dimensioni del campione), il problema avrà un continuum di soluzioni! La soluzione potrebbe non essere unica. X
    • Ciò si verifica se è rango carente.E[xx]
    • Ciò si verifica anche se una classificazione insufficiente a causa delle dimensioni ridotte del campione rispetto al numero di problemi del regressore.XX

Il problema (1) può portare a un overfitting poiché la stima inizia a riflettere modelli nel campione che non sono presenti nella popolazione sottostante. La stima può riflettere modelli in e che in realtà non esistono in eb^1nXX1nXyE[xx]E[xy]

Problema (2) significa che una soluzione non è unica. Immagina di provare a stimare il prezzo delle singole scarpe ma le paia di scarpe vengono sempre vendute insieme. Questo è un problema sbagliato, ma supponiamo che lo stiamo facendo comunque. Potremmo credere che il prezzo della scarpa sinistra più il prezzo della scarpa destra equivalgono a $ 50, ma come possiamo trovare prezzi individuali? Impostare i prezzi delle scarpe a sinistra e il prezzo delle scarpe a destra bene? Come possiamo scegliere tra tutte le possibilità?pl=45pr=5

Presentazione della penalità :L2

Ora considera:

minimize(over b)(yXb)T(yXb)+λb2

Questo può aiutarci con entrambi i tipi di problemi. La penalità spinge la nostra stima di verso zero. Funziona efficacemente come bayesiano prima che la distribuzione sui valori dei coefficienti sia centrata su . Questo aiuta con un eccesso di adattamento. La nostra stima rifletterà sia i dati che le nostre convinzioni iniziali che è vicino allo zero.L2b0b

L2 regolarizzazione di ci aiuta sempre a trovare una soluzione unica ai problemi male posti. Se sappiamo che il prezzo delle scarpe sinistra e destra è pari a , la soluzione che minimizza anche la norma è scegliere .$50L2pl=pr=25

Questa è magia? No. La regolarizzazione non è la stessa dell'aggiunta di dati che ci consentirebbe effettivamente di rispondere alla domanda. regolarizzazione in un certo senso adotta l'opinione secondo cui se mancano i dati, scegliere le stime più vicine a .L20

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.