Perché il restringimento funziona davvero, cosa c'è di così speciale nello 0?


15

C'è già un post su questo sito che parla dello stesso problema: perché il restringimento funziona?

Ma, anche se le risposte sono popolari, non credo che l'essenza della domanda sia davvero indirizzata. È abbastanza chiaro che l'introduzione di una distorsione nella stima comporta una riduzione della varianza e può migliorare la qualità della stima. Tuttavia:

1) Perché il danno arrecato dall'introduzione della distorsione è minore rispetto all'aumento della variazione?

2) Perché funziona sempre? Ad esempio in caso di regressione della cresta: il teorema dell'esistenza

3) Cosa c'è di così interessante su 0 (l'origine)? Chiaramente possiamo restringere ovunque ci piaccia (cioè lo stimatore di Stein ), ma funzionerà bene come l'origine?

4) Perché vari schemi di codifica universali preferiscono un numero inferiore di bit attorno all'origine? Queste ipotesi sono semplicemente più probabili?

Sono attese risposte con riferimenti a teoremi comprovati o risultati accertati.


@ KarolisKoncevičius, grazie per aver corretto i collegamenti! Vorrei sottolineare, tuttavia, che le modifiche apportate alla lingua potrebbero non essere molto utili, ad eccezione dell'ultima. Gli altri sembrano aggiungere del testo ridondante e quindi rendere il post leggermente meno leggibile.
Richard Hardy,

1
3) "cosa c'è di così interessante nell'origine?" come capisci questa affermazione? se hai un fattore di gruppo (ad es. paese) e un fattore individuale (ad es. città), la riduzione metterà la media a livello di paese e quindi solo le deviazioni a livello di città con dati sufficienti avranno coefficiente) - cioè il tuo modello viene spinto a livello di gruppo (paese) media (
portando i

Risposte:


7

1) Perché il danno arrecato dall'introduzione della distorsione è minore rispetto all'aumento della variazione?

Non è necessario, di solito lo è. Il valore del compromesso dipende dalla funzione di perdita. Ma le cose a cui teniamo nella vita reale sono spesso simili all'errore quadrato (ad es. Ci preoccupiamo più di un grosso errore che di circa due errori della metà delle dimensioni).

Come controesempio, immagina che per le ammissioni al college riduciamo un po 'i punteggi SAT delle persone verso il SAT medio per la loro demografia (comunque definita). Se fatto correttamente, questo ridurrà la varianza e significherà un errore al quadrato delle stime di (una sorta di) capacità della persona durante l'introduzione del bias. La maggior parte delle persone direbbe che l'IMHO sostiene che un tale compromesso è inaccettabile.

2) Perché funziona sempre?

3) Cosa c'è di così interessante su 0 (l'origine)? Chiaramente possiamo restringere ovunque ci piaccia (cioè lo stimatore di Stein), ma funzionerà bene come l'origine?

Penso che questo perché di solito riduciamo i coefficienti o le stime degli effetti. Ci sono ragioni per ritenere che la maggior parte degli effetti non siano grandi (vedi ad esempio la versione di Andrew Gelman ). Un modo per dirlo è che un mondo in cui tutto influenza tutto con un forte effetto è un mondo violento imprevedibile. Poiché il nostro mondo è abbastanza prevedibile da farci vivere lunghe vite e costruire civiltà semi-stabili, ne consegue che la maggior parte degli effetti non sono grandi.

Dal momento che la maggior parte degli effetti non sono grandi, è utile ridurre in modo errato quelli pochi veramente grandi, riducendo anche correttamente i carichi di effetti trascurabili.

Credo che questa sia solo una proprietà del nostro mondo e probabilmente potresti costruire mondi autocompatibili in cui il restringimento non è pratico (molto probabilmente facendo dell'errore al quadrato medio una funzione di perdita impraticabile). Semplicemente non è il mondo in cui viviamo.

D'altra parte, quando pensiamo al restringimento come una distribuzione precedente nell'analisi bayesiana, ci sono casi in cui il restringimento a 0 è attivamente dannoso nella pratica.

Un esempio è la scala di lunghezza nei processi gaussiani (dove 0 è problematico) la raccomandazione nel manuale di Stan è di usare un precedente che mette il peso trascurabile vicino allo zero, cioè "restringendo" efficacemente i valori piccoli da zero. Allo stesso modo, i priori raccomandati per la dispersione nella distribuzione binomiale negativa si riducono effettivamente da zero. Ultimo ma non meno importante, ogni volta che la distribuzione normale è parametrizzata con precisione (come in INLA), è utile utilizzare la gamma inversa o altre distribuzioni precedenti che si riducono da zero.

4) Perché vari schemi di codifica universali preferiscono un numero inferiore di bit attorno all'origine? Queste ipotesi sono semplicemente più probabili?

P(io)P(io+1)io


1
La risposta a 1) è effettivamente buona!
David,

Chiaramente Andrew Gelman aveva in mente modelli standard in cui moltiplicavamo i coefficienti con gli input. Questo non deve essere necessariamente il caso. E se il coefficiente venisse inversamente nel modello? Quindi 0 farà esplodere le cose.
Cagdas Ozgenc,

1
@CowboyTrader Sì e ci sono casi d'uso reali in cui lo 0 è problematico e ci riduciamo (aggiunto alla risposta). Quindi credo che sostenga leggermente il fatto che il restringimento verso lo zero è solo un'euristica che funziona (in pratica) frequentemente, ma non una verità matematica fondamentale.
Martin Modrák,

1
Ci scusiamo per la mia reazione iniziale. La tua risposta sta diventando più significativa. Si noti che il restringimento funziona con altre funzioni di perdita, non solo con perdita quadrata. Il vero problema che sto cercando è perché diavolo funziona sempre? Per i parametri di media / posizione 0 sembra essere un numero magico.
Cagdas Ozgenc,

σ

0

La cresta, il lazo e la rete elastica sono simili ai metodi bayesiani con priori centrati sullo zero - vedi, ad esempio, Statistical Learning with Sparsity di Hastie, Tibshirani e Wainwright, sezione 2.9 Lq Penalties and Bayes Estimates: "Esiste anche una visione bayesiana di questi stimatori ... Ciò significa che la stima del lazo è lo stimatore MAP bayesiano (aposteriore massimo) che utilizza un precedente lapsiano. "

Un modo per rispondere alla tua domanda ( what's so special about zero?) è che gli effetti che stiamo stimando sono in media zero e tendono ad essere piccoli (cioè i nostri priori dovrebbero essere centrati attorno allo zero). La riduzione delle stime verso lo zero è quindi ottimale in un senso bayesiano e attraverso quell'obiettivo si possono pensare lazo, cresta ed reti elastiche.


3
Ridurre a zero non è niente di speciale (tranne per il fatto che l'equazione è più semplice perché si moltiplica il risultato per un fattore particolare). Puoi ridurti a qualsiasi altro punto. Quanto più il punto è dal valore reale, tanto minore è la prestazione della riduzione (ma per ogni punto esiste una certa riduzione che aumenterà le prestazioni ... almeno per le variabili distribuite gaussiane). Quindi, quando un risultato è in genere lontano da zero, la riduzione a zero darà solo un piccolo miglioramento.
Sesto Empirico,

1
@MartijnWeterings Chiaramente mettere un priorato sulla verità stessa sarà l'ideale (occhio di bue). Ma perché ridurre a 0 offre ancora qualche miglioramento? Questo è quello che sto cercando.
Cagdas Ozgenc,

@CowboyTrader Ridurre a qualsiasi valore migliora. Questo è il motivo per cui funziona anche per 0.
Sesto Empirico,

@MartijnWeterings Sì, ma i limiti della teoria dell'apprendimento sono praticamente sempre basati sull'origine. Hanno messo una palla / poliedro / ecc. Centrata sull'origine. È solo una comodità di prova? Le ipotesi MDL che codificano codificano numeri interi dando 0 la lunghezza di codice più breve? È una coincidenza?
Cagdas Ozgenc,

1
Quindi supponiamo di eseguire la regressione della cresta nel caso in cui tutte le variabili siano effettivamente parte del modello (che non è comune nella pratica), quindi non funzionerà così bene. Forse questo è ciò che Adrian intendeva per "gli effetti sono in media zero e tendono ad essere piccoli" (non conosco casi per i quali ciò è esattamente vero. Ma ci sono molti casi di apprendimento automatico in cui nutriamo molti parametri, e dove molti probabilmente non sono necessari, la maggior parte degli effetti sono zero o piccoli.)
Sisto Empirico
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.