La stabilità numerica e il sovradimensionamento sono in un certo senso correlati ma questioni diverse.
Il classico problema OLS:
Considera il classico problema dei minimi quadrati:
minimize(over b)(y−Xb)T(y−Xb)
La soluzione è il classico . Un'idea è che dalla legge di grandi numeri:b^=(X′X)−1(X′y)
limn→∞1nX′X→E[xx′]limn→∞1nX′y→E[xy]
Quindi la stima OLS converge anche in . (In termini di algebra lineare, questa è la proiezione lineare della variabile casuale sull'intervallo lineare delle variabili casuali .)b^E[xx′]−1E[xy]yx1,x2,…,xk
I problemi?
Meccanicamente, cosa può andare storto? Quali sono i possibili problemi?
- Per piccoli campioni, le nostre stime di esempio di e potrebbero essere scadenti.E[xx′]E[xy]
- Se le colonne di sono collineari (a causa della collinearità intrinseca o di piccole dimensioni del campione), il problema avrà un continuum di soluzioni! La soluzione potrebbe non essere unica.
X
- Ciò si verifica se è rango carente.E[xx′]
- Ciò si verifica anche se una classificazione insufficiente a causa delle dimensioni ridotte del campione rispetto al numero di problemi del regressore.X′X
Il problema (1) può portare a un overfitting poiché la stima inizia a riflettere modelli nel campione che non sono presenti nella popolazione sottostante. La stima può riflettere modelli in e che in realtà non esistono in eb^1nX′X1nX′yE[xx′]E[xy]
Problema (2) significa che una soluzione non è unica. Immagina di provare a stimare il prezzo delle singole scarpe ma le paia di scarpe vengono sempre vendute insieme. Questo è un problema sbagliato, ma supponiamo che lo stiamo facendo comunque. Potremmo credere che il prezzo della scarpa sinistra più il prezzo della scarpa destra equivalgono a $ 50, ma come possiamo trovare prezzi individuali? Impostare i prezzi delle scarpe a sinistra e il prezzo delle scarpe a destra bene? Come possiamo scegliere tra tutte le possibilità?pl=45pr=5
Presentazione della penalità :L2
Ora considera:
minimize(over b)(y−Xb)T(y−Xb)+λ∥b∥2
Questo può aiutarci con entrambi i tipi di problemi. La penalità spinge la nostra stima di verso zero. Funziona efficacemente come bayesiano prima che la distribuzione sui valori dei coefficienti sia centrata su . Questo aiuta con un eccesso di adattamento. La nostra stima rifletterà sia i dati che le nostre convinzioni iniziali che è vicino allo zero.L2b0b
L2 regolarizzazione di ci aiuta sempre a trovare una soluzione unica ai problemi male posti. Se sappiamo che il prezzo delle scarpe sinistra e destra è pari a , la soluzione che minimizza anche la norma è scegliere .$50L2pl=pr=25
Questa è magia? No. La regolarizzazione non è la stessa dell'aggiunta di dati che ci consentirebbe effettivamente di rispondere alla domanda. regolarizzazione in un certo senso adotta l'opinione secondo cui se mancano i dati, scegliere le stime più vicine a .L20