La regolarizzazione può essere utile se siamo interessati solo a stimare (e interpretare) i parametri del modello, non a previsioni o previsioni?
Vedo come la regolarizzazione / convalida incrociata sia estremamente utile se il tuo obiettivo è fare buone previsioni su nuovi dati. Ma cosa succede se stai facendo economia tradizionale e tutto ciò che ti interessa è stimare ? La convalida incrociata può essere utile anche in tale contesto? La difficoltà concettuale con cui ho difficoltà è che possiamo effettivamente calcolare su dati di test, ma non possiamo mai calcolare perché il vero è per definizione mai osservato. (Prendiamo come dato l'assunto che esiste persino un vero , cioè che conosciamo la famiglia di modelli da cui sono stati generati i dati.)
Supponiamo che la tua perdita sia . Stai affrontando un compromesso di varianza, giusto? Quindi, in teoria, potresti stare meglio facendo un po 'di regolarizzazione. Ma come puoi eventualmente selezionare il tuo parametro di regolarizzazione?
Sarei felice di vedere un semplice esempio numerico di un modello di regressione lineare, con coefficienti , in cui la funzione di perdita del ricercatore è ad esempio , o anche solo . Come, in pratica, si potrebbe usare la validazione incrociata per migliorare la perdita attesa in quegli esempi?
Modifica : DJohnson mi ha indicato https://www.cs.cornell.edu/home/kleinber/aer15-prediction.pdf , che è rilevante per questa domanda. Gli autori lo scrivono
Le tecniche di apprendimento automatico ... forniscono un modo disciplinato per prevedere che (i) utilizza i dati stessi per decidere come effettuare il trade-off di bias-varianza e (ii) consente la ricerca su un set molto ricco di variabili e forme funzionali. Ma tutto ha un costo: bisogna sempre tenere presente che, essendo sintonizzati per , non offrono (senza molte altre ipotesi) garanzie molto utili per .
Un altro documento pertinente, sempre grazie a DJohnson: http://arxiv.org/pdf/1504.01132v3.pdf . Questo documento affronta la domanda con cui stavo lottando sopra:
Una ... sfida fondamentale per applicare metodi di apprendimento automatico come gli alberi di regressione immediatamente al problema dell'inferenza causale è che gli approcci di regolarizzazione basati sulla convalida incrociata in genere si basano sull'osservazione della "verità fondamentale", cioè dei risultati effettivi in un campione di convalida incrociata. Tuttavia, se il nostro obiettivo è ridurre al minimo l'errore al quadrato medio degli effetti del trattamento, incontriamo quello che [11] chiama il "problema fondamentale dell'inferenza causale": l'effetto causale non è osservato per nessuna singola unità, e quindi non lo facciamo direttamente avere una verità fondamentale. Ci occupiamo di ciò proponendo approcci per la costruzione di stime imparziali dell'errore quadratico medio dell'effetto causale del trattamento.