Inferenza dopo aver usato Lazo per la selezione delle variabili


17

Sto usando Lazo per la selezione delle caratteristiche in un'impostazione dimensionale relativamente bassa (n >> p). Dopo aver montato un modello Lazo, voglio usare le covariate con coefficienti diversi da zero per adattarlo a un modello senza penalità. Lo sto facendo perché voglio stime imparziali che Lasso non può darmi. Vorrei anche valori p e intervalli di confidenza per la stima imparziale.

Ho problemi a trovare letteratura su questo argomento. La maggior parte della letteratura che trovo riguarda l'inserimento di intervalli di confidenza nelle stime di Lasso, non un modello modificato.

Da quello che ho letto, semplicemente il refitting di un modello usando l'intero set di dati porta a valori p / errori std irragionevolmente piccoli. In questo momento, la suddivisione del campione (nello stile di Wasserman e Roeder (2014) o Meinshausen et al. (2009)) sembra essere un buon corso d'azione, ma sto cercando altri suggerimenti.

Qualcuno ha riscontrato questo problema? In tal caso, potresti fornire alcuni suggerimenti.


Non capisco perché dovrebbe importare se lo stimatore del lazo è distorto fintanto che gli intervalli di confidenza hanno una copertura (almeno asintoticamente) corretta. È questo l'unico motivo per cui desideri adattare le stime OLS al supporto recuperato dal lazo?
user795305,

Forse ho frainteso ciò che ho letto, ma la copertura asintoticamente corretta non si riferisce alla stima distorta, non alla vera stima sparsa ma imparziale?
EliK,

1
Non sono sicuro di cosa intendi per stima "sparsa ma imparziale", ma se sai che le stime del lazo hanno intervalli di confidenza con una copertura asintoticamente corretta, non dovrebbe esserci altro da fare. Il documento appena collegato da Greenparker (+1) è davvero interessante (e il più recente che conosco su questo argomento) che discute (in parte) su come sviluppare intervalli di confidenza asintoticamente corretti sul lazo, quindi ols i coefficienti. Sto cercando di sottolineare che non è necessario adattare OLS per ottenere coefficienti imparziali, poiché l'imparzialità non ha importanza.
user795305

Penso di essere stato frainteso. La copertura asintoticamente corretta a cui ti riferisci è rispetto al parametro vero. Quindi, anche se Lazo fornisce coefficienti distorti, possiamo costruire intervalli di confidenza che hanno la copertura corretta per il vero parametro?
EliK,

2
Dopo aver selezionato un modello, non avrai stime non compensate se effettui una stima senza Lasso. I coefficienti dei termini nel modello dopo selezionare-variabili-quindi-adattarsi-tramite-OLS saranno effettivamente distorti da 0 (come con altre forme di selezione delle variabili). Una piccola quantità di restringimento può effettivamente ridurre la distorsione.
Glen_b

Risposte:


12

Da aggiungere alle risposte precedenti. Dovresti assolutamente dare un'occhiata al recente lavoro di Tibshirani e colleghi. Hanno sviluppato un quadro rigoroso per inferire i valori p corretti per la selezione e gli intervalli di confidenza per i metodi di tipo lazo e forniscono anche un pacchetto R.

Vedere:

Lee, Jason D., et al. "Esatta inferenza post-selezione, con applicazione al lazo." The Annals of Statistics 44.3 (2016): 907-927. ( https://projecteuclid.org/euclid.aos/1460381681 )

Taylor, Jonathan e Robert J. Tibshirani. "Apprendimento statistico e inferenza selettiva". Atti della National Academy of Sciences 112.25 (2015): 7629-7634.

R-package:

https://cran.r-project.org/web/packages/selectiveInference/index.html


17

Generalmente, il refitting senza penalità dopo aver effettuato la selezione delle variabili tramite il Lazo è considerato "imbroglione" poiché hai già esaminato i dati e i valori p e gli intervalli di confidenza risultanti non sono validi nel solito senso.

p

l'insieme delle variabili selezionate dal lazo è deterministico e non dipendente dai dati con alta probabilità.

Pertanto, sbirciare i dati due volte non è un problema. Dovrai vedere se per il tuo problema le condizioni dichiarate nella carta rimangono o meno.

(Ci sono anche molti riferimenti utili nel documento)


Riferimento:

Zhao, S., Shojaie, A., & Witten, D. (2017). In difesa dell'indifendibile: un approccio molto ingenuo all'inferenza ad alta dimensione. Estratto da: https://arxiv.org/pdf/1705.05543.pdf


9
+1 Vale la pena notare, tuttavia, che gli autori non raccomandano esplicitamente il loro approccio tranne "in impostazioni di dati molto grandi": "Non sosteniamo di applicare l'approccio ... descritto sopra nella maggior parte delle impostazioni pratiche di analisi dei dati: siamo fiduciosi che in pratica ... questo approccio funzionerà male quando la dimensione del campione è piccola o moderata e / o le assunzioni non sono soddisfatte "(a p. 27). Per la cronaca, questo articolo è Zhao, Shojaie e Witten, In Defense of the Indefensible: A Very Naive Approach to High-Dimensional Inference (16 maggio 2017).
whuber

@whuber E tieni presente che questo articolo è su arxiv.org - non sono sicuro che sia stato sottoposto a peer review, quindi potrebbero esserci altri problemi con la metodologia dell'autore.
RobertF

0

Volevo aggiungere alcuni articoli della letteratura ortogonale / doppia di apprendimento automatico che sta diventando popolare nella letteratura di Econometria Applicata.

  • Belloni, Alexandre, Victor Chernozhukov e Christian Hansen. "Inferenza sugli effetti del trattamento dopo la selezione tra controlli ad alta dimensione." The Review of Economic Studies 81.2 (2014): 608-650.

    Questo documento affronta le proprietà teoriche di una stima OLS dell'effetto di una variabile dopo aver selezionato gli "altri" controlli usando LASSO.

  • Victor Chernozhukov, Denis Chetverikov, Mert Demirer, Esther Duflo, Christian Hansen, Whitney Newey, James Robins, Apprendimento automatico doppio / distorto per trattamento e parametri strutturali, The Econometrics Journal, Volume 21, Numero 1, 1 febbraio 2018, Pagine C1-C68 , https://doi.org/10.1111/ectj.12097

    Questo sviluppa la teoria completa per l'utilizzo di una serie di metodi non parametrici (algoritmi ML) per controllare non linearmente un parametro di disturbo fastidioso (confonditori) e quindi studiare l'impatto di una covariata specifica sul risultato. Si occupano di framework parzialmente lineari e framework completamente parametrici. Considerano anche situazioni in cui la variabile di interesse è confusa.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.