1) Perché il danno arrecato dall'introduzione della distorsione è minore rispetto all'aumento della variazione?
Non è necessario, di solito lo è. Il valore del compromesso dipende dalla funzione di perdita. Ma le cose a cui teniamo nella vita reale sono spesso simili all'errore quadrato (ad es. Ci preoccupiamo più di un grosso errore che di circa due errori della metà delle dimensioni).
Come controesempio, immagina che per le ammissioni al college riduciamo un po 'i punteggi SAT delle persone verso il SAT medio per la loro demografia (comunque definita). Se fatto correttamente, questo ridurrà la varianza e significherà un errore al quadrato delle stime di (una sorta di) capacità della persona durante l'introduzione del bias. La maggior parte delle persone direbbe che l'IMHO sostiene che un tale compromesso è inaccettabile.
2) Perché funziona sempre?
3) Cosa c'è di così interessante su 0 (l'origine)? Chiaramente possiamo restringere ovunque ci piaccia (cioè lo stimatore di Stein), ma funzionerà bene come l'origine?
Penso che questo perché di solito riduciamo i coefficienti o le stime degli effetti. Ci sono ragioni per ritenere che la maggior parte degli effetti non siano grandi (vedi ad esempio la versione di Andrew Gelman ). Un modo per dirlo è che un mondo in cui tutto influenza tutto con un forte effetto è un mondo violento imprevedibile. Poiché il nostro mondo è abbastanza prevedibile da farci vivere lunghe vite e costruire civiltà semi-stabili, ne consegue che la maggior parte degli effetti non sono grandi.
Dal momento che la maggior parte degli effetti non sono grandi, è utile ridurre in modo errato quelli pochi veramente grandi, riducendo anche correttamente i carichi di effetti trascurabili.
Credo che questa sia solo una proprietà del nostro mondo e probabilmente potresti costruire mondi autocompatibili in cui il restringimento non è pratico (molto probabilmente facendo dell'errore al quadrato medio una funzione di perdita impraticabile). Semplicemente non è il mondo in cui viviamo.
D'altra parte, quando pensiamo al restringimento come una distribuzione precedente nell'analisi bayesiana, ci sono casi in cui il restringimento a 0 è attivamente dannoso nella pratica.
Un esempio è la scala di lunghezza nei processi gaussiani (dove 0 è problematico) la raccomandazione nel manuale di Stan è di usare un precedente che mette il peso trascurabile vicino allo zero, cioè "restringendo" efficacemente i valori piccoli da zero. Allo stesso modo, i priori raccomandati per la dispersione nella distribuzione binomiale negativa si riducono effettivamente da zero. Ultimo ma non meno importante, ogni volta che la distribuzione normale è parametrizzata con precisione (come in INLA), è utile utilizzare la gamma inversa o altre distribuzioni precedenti che si riducono da zero.
4) Perché vari schemi di codifica universali preferiscono un numero inferiore di bit attorno all'origine? Queste ipotesi sono semplicemente più probabili?
P( i ) ≥ P( i + 1 )io