Stima del R-quadrato e significatività statistica dal modello di regressione penalizzato


20

Sto usando il pacchetto R penalizzato per ottenere stime ridotte dei coefficienti per un set di dati in cui ho molti predittori e poca conoscenza di quali sono importanti. Dopo aver scelto i parametri di ottimizzazione L1 e L2 e sono soddisfatto dei miei coefficienti, esiste un modo statisticamente corretto per riassumere il modello in forma con qualcosa come R-quadrato?

Inoltre, sono interessato a testare il significato complessivo del modello (ovvero fa R² = 0 o fa tutto lo = 0).

Ho letto le risposte a una domanda simile fatta qui , ma non ha risposto alla mia domanda. C'è un eccellente tutorial sul pacchetto R che sto usando qui , e l'autore Jelle Goeman aveva la seguente nota alla fine del tutorial riguardante gli intervalli di confidenza dai modelli di regressione penalizzati:

È una domanda molto naturale chiedere errori standard dei coefficienti di regressione o altre quantità stimate. In linea di principio, tali errori standard possono essere facilmente calcolati, ad esempio utilizzando il bootstrap.

Tuttavia, questo pacchetto deliberatamente non li fornisce. La ragione di ciò è che gli errori standard non sono molto significativi per le stime fortemente distorte come quelle derivanti da metodi di stima penalizzati. La stima penalizzata è una procedura che riduce la varianza degli stimatori introducendo una distorsione sostanziale. La distorsione di ogni stimatore è quindi una componente importante del suo errore quadratico medio, mentre la sua varianza può contribuire solo in piccola parte.

Sfortunatamente, nella maggior parte delle applicazioni di regressione penalizzata è impossibile ottenere una stima sufficientemente precisa della distorsione. Eventuali calcoli basati su bootstrap possono solo fornire una valutazione della varianza delle stime. Stime attendibili della distorsione sono disponibili solo se sono disponibili stime imparziali attendibili, il che in genere non è il caso di situazioni in cui vengono utilizzate stime penalizzate.

La segnalazione di un errore standard di una stima penalizzata racconta quindi solo una parte della storia. Può dare un'impressione errata di grande precisione, ignorando completamente l'imprecisione causata dal pregiudizio. È certamente un errore fare dichiarazioni di confidenza che si basano solo su una valutazione della varianza delle stime, come fanno gli intervalli di confidenza basati su bootstrap.


1
Ovviamente un modo per ottenere rapidamente una stima dell'R-quadrato è adattando un modello lineare che prevede i valori adattati dai dati originali e prendendo l'R-quadrato da quello. Ma sembra che sarebbe una stima eccessivamente massiccia e distorta dell'R-quadrato.
Stephen Turner,

Aggiungo questo come commento poiché sto ponendo una domanda "simile" in un post vicino (quindi non so se mi qualifico come dare una risposta ), ma per la tua domanda in particolare sembra che tu possa calcolare R-quadrato senza richiedere alcun ipotesi distributive (sono necessarie per test di ipotesi in modo ordinario però). Non è possibile utilizzare un set di controllo per calcolare r-quadrato o utilizzare una convalida k-piega se non si dispone di dati sufficienti (ad ogni piega eseguire il processo completamente penalizzato e fare una media dei quadrati-r da ciascuna delle pieghe non utilizzato nel raccordo)?
B_Miner,

1
@B_Miner, -fold cross validation tende a dare stime abbastanza distorte di , in quanto generalmente non sta stimando la vera quantità di interesse. Molte (la maggior parte?) Procedure simili hanno lo stesso problema. R 2KR2
cardinale il

1
@Stephen, davvero la quantità che ti interessa? A causa del pregiudizio indotto dalla penalizzazione, probabilmente non è desiderabile esaminare solo la varianza spiegata a meno che non si abbia già una stima molto buona del pregiudizio. L'intera idea di usare come base per l'inferenza si basa sull'imparzialità delle stime. Persino i principali libri di testo sulla regressione sembrano "dimenticarlo". (Vedi, ad esempio, il trattamento un po 'difettoso di Seber e Lee nel caso della regressione multipla).R 2 R 2R2 R2R2
cardinale,

1
Penso che possa essere definito nel solito modo e talvolta possa essere utile. Anche se gli errori standard non tengono conto del bias, sono gli errori standard delle quantità "conservative, ridotte verso zero". Forse non possono essere usati per deduzioni formali, ma mi piacerebbe sentire più discussioni prima di concludere che non dovrebbero mai essere usate. R2
Frank Harrell,

Risposte:


4

La mia prima reazione ai commenti di Jelle è "bias-schmias". Devi stare attento a cosa intendi per "grande quantità di predittori". Questo potrebbe essere "ampio" rispetto a:

  1. Il numero di punti dati ("big p small n")
  2. Il tempo necessario per analizzare le variabili
  3. Il costo computazionale dell'inversione di una matrice gigante

La mia reazione si è basata su "grandi" rispetto al punto 1. Questo perché in questo caso di solito vale la pena compromettere la riduzione della varianza che si ottiene. La distorsione è importante solo "nel lungo periodo". Quindi, se hai un piccolo campione, a chi importa del "lungo periodo"?

Detto questo, probabilmente non è una quantità particolarmente buona da calcolare, specialmente quando hai molte variabili (perché è praticamente tutto ciò che ti dice : hai molte variabili). Vorrei calcolare qualcosa di più simile a un "errore di previsione" utilizzando la convalida incrociata.R 2R2R2

Idealmente questo "errore di previsione" dovrebbe essere basato sul contesto della tua situazione di modellazione. Fondamentalmente vuoi rispondere alla domanda "Quanto bene il mio modello riproduce i dati?". Il contesto della tua situazione dovrebbe essere in grado di dirti cosa significa "quanto bene" nel mondo reale. Devi quindi tradurre questo in una sorta di equazione matematica.

Tuttavia, non ho un contesto ovvio per uscire dalla domanda. Quindi un "predefinito" sarebbe qualcosa come PRESS: Where è il valore previsto per per un modello montato senza il suo punto dati ( non influenza i parametri del modello). I termini del riepilogo sono anche noti come "residui di eliminazione". Se questo è troppo computazionalmente costoso per adattarsi al modello (sebbene la maggior parte dei programmi di solito ti dia qualcosa del genere con l'output standard), allora suggerirei di raggruppare i dati. Quindi imposta il tempo che sei pronto ad aspettare perY i , - i Y i Y i N T M G = T

PRESS=Σio=1N(Yio-Y^io,-io)2
Y^io,-ioYioYioNT(preferibilmente non 0 ^ _ ^), e poi dividere questo il tempo necessario per adattare il vostro modello di . Ciò fornirà un totale di ri-adattamenti , con una dimensione del campione di . Un modo puoi avere un'idea di quanto sia importante ogni variabile, è di riadattare una regressione ordinaria (variabili nello stesso ordine). Quindi controlla proporzionalmente quanto ogni stimatore è stato ridotto verso zeroM Ng=N×Msol=TMNg=N×MT
PRESS=Σg=1solΣio=1Ng(Yiog-Y^iog,-g)2
βLUNSSOβUNCONSTRUNioNED. Il lazo e altre regressioni vincolate possono essere visti come "selezione di variabili omogenee", poiché anziché adottare un approccio binario "dentro o fuori", ogni stima viene avvicinata a zero, a seconda di quanto sia importante per il modello (come misurato dagli errori).

3
tutto quello che ti è sembrato di fare sopra è descrivere la validazione incrociata con esclusione e la convalida incrociata con . Il primo è usato raramente in questi giorni a causa dell'elevata varianza e dei costi di calcolo generalmente elevati (alcune impostazioni di regressione sono l'eccezione). Per quanto riguarda le tue osservazioni sull'influenza, se non ci sono stime uniche dei minimi quadrati, il che è una complicazione. Inoltre, anche i segni delle stime dei parametri possono essere diversi. Non sono positivo, ma anche quando esistono le stime OLS, potrebbero esserci ancora situazioni in cui il rapporto potrebbe essere per alcuni parametri. Kp>n>1
cardinale il

1

Il pacchetto R hdm e il pacchetto Stata lassopack supportano un test di significatività congiunto per il lazo. La teoria consente che il numero di predittori sia elevato rispetto al numero di osservazioni. La teoria alla base del test e come applicarlo è brevemente spiegata nella documentazione di hdm . In breve, si basa su un quadro per la penalizzazione basata sulla teoria (sviluppato da Belloni, Chernozhukov e Hansen, et al.). Questo documento è un buon punto di partenza se vuoi saperne di più sulla teoria di base. L'unico aspetto negativo è che il test funziona solo per il lazo e (lazo a radice quadrata). Non per altri metodi di regressione penalizzati.

Belloni, A., Chen, D., Chernozhukov, V. e Hansen, C. (2012), modelli e metodi sparsi per strumenti ottimali con un'applicazione al dominio eminente. Econometrica, 80: 2369-2429.


si prega di aggiungere il riferimento completo del documento (un collegamento può morire)
Antoine
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.