Considera i seguenti tre fenomeni.
Paradosso di Stein: dati alcuni dalla distribuzione normale multivariata in , la media campionaria non è un ottimo stimatore della media vera. Si può ottenere una stima con errore quadratico medio inferiore se si riducono tutte le coordinate della media campionaria verso zero [o verso la loro media, o effettivamente verso qualsiasi valore, se capisco correttamente].
NB: di solito il paradosso di Stein è formulato prendendo in considerazione un solo punto dati da ; per favore correggimi se questo è cruciale e la mia formulazione sopra non è corretta.
Regressione della cresta: date alcune variabili dipendenti e alcune variabili indipendenti , la regressione standard tende sovrautilizzare i dati e portare a scarse prestazioni fuori campione. Spesso si può ridurre il sovradimensionamento riducendo allo zero: .
Effetti casuali in modelli multilivello / misti: data una variabile dipendente (ad es. L'altezza dello studente) che dipende da alcuni predittori categorici (ad es. ID scuola e genere dello studente), si consiglia spesso di considerare alcuni predittori come "casuali", cioè supporre l'altezza media dello studente in ogni scuola deriva da una distribuzione normale sottostante. Ciò si traduce in una riduzione delle stime dell'altezza media per scuola verso la media globale.
Ho la sensazione che tutti questi siano vari aspetti dello stesso fenomeno del "restringimento", ma non ne sono sicuro e certamente privo di una buona intuizione al riguardo. Quindi la mia domanda principale è: c'è davvero una profonda somiglianza tra queste tre cose o è solo una parvenza superficiale? Qual è il tema comune qui? Qual è l'intuizione corretta al riguardo?
Inoltre, ecco alcuni pezzi di questo puzzle che non si adattano perfettamente a me:
Nella regressione della cresta, non viene ridotto in modo uniforme; il restringimento della cresta è in realtà correlato alla decomposizione del valore singolare di , con le direzioni a bassa varianza che si restringono di più (vedere ad esempio The Elements of Statistical Learning 3.4.1). Ma lo stimatore di James-Stein prende semplicemente la media del campione e la moltiplica per un fattore di scala. Come si adatta insieme?
Aggiornamento: vedere James-Stein Estimator con varianze disuguali e, ad esempio, qui per quanto riguarda le varianze dei coefficienti .
La media del campione è ottimale nelle dimensioni inferiori a 3. Significa che quando ci sono solo uno o due predittori nel modello di regressione, la regressione della cresta sarà sempre peggiore dei minimi quadrati ordinari? In realtà, vieni a pensarci bene, non riesco a immaginare una situazione in 1D (cioè una regressione semplice e non multipla) in cui il restringimento della cresta sarebbe utile ...
Aggiornamento: No. Vedi esattamente in quali condizioni la regressione della cresta è in grado di fornire un miglioramento rispetto alla normale regressione dei minimi quadrati?
D'altra parte, la media del campione è sempre non ottimale in dimensioni superiori a 3. Significa che con più di 3 predittori la regressione della cresta è sempre migliore di OLS, anche se tutti i predittori non sono correlati (ortogonali)? Di solito la regressione della cresta è motivata dalla multicollinearità e dalla necessità di "stabilizzare" il termine .
Aggiornamento: Sì! Vedi la stessa discussione sopra.
Ci sono spesso discussioni accese sul fatto che vari fattori in ANOVA debbano essere inclusi come effetti fissi o casuali. Non dovremmo, secondo la stessa logica, considerare sempre un fattore come casuale se ha più di due livelli (o se ci sono più di due fattori? Ora sono confuso)?
Aggiornamento :?
Aggiornamento: ho ottenuto delle risposte eccellenti, ma nessuna fornisce un quadro abbastanza ampio, quindi lascerò la domanda "aperta". Posso promettere di assegnare una taglia di almeno 100 punti a una nuova risposta che supererà quelle esistenti. Sono principalmente alla ricerca di una visione unificante che possa spiegare come il fenomeno generale del restringimento si manifesti in questi vari contesti e sottolineare le principali differenze tra loro.