Quali sono i presupposti della regressione della cresta e come testarli?


21

Considera il modello standard per la regressione multipla dove , quindi valgono la normalità, l'omosedasticità e la non correlazione degli errori.ε N ( 0 , σ 2 I n )

Y=Xβ+ε
εN(0,σ2In)

Supponiamo di eseguire una regressione della cresta, aggiungendo la stessa piccola quantità a tutti gli elementi della diagonale di :X

βridge=[XX+kI]1XY

Esistono alcuni valori di per i quali il coefficiente di cresta presenta un errore quadratico medio inferiore rispetto a quelli ottenuti da OLS, sebbene sia uno stimatore distorto di . In pratica, si ottiene per convalida incrociata.β r i d g e β kkβridgeβk

Ecco la mia domanda: quali sono i presupposti alla base del modello di cresta? Per essere più concreti,

  1. Sono valide tutte le ipotesi del minimo quadrato ordinario (OLS) con regressione della cresta?

  2. Se sì alla domanda 1, come testiamo l'omoscedasticità e la mancanza di autocorrelazione con uno stimatore distorto di ?β

  3. Esistono lavori per testare altre ipotesi OLS (omoscedasticità e mancanza di autocorrelazione) sotto regressione della cresta?


6
Si noti che OLS non presuppone che i predittori siano indipendenti. Sono solo alcuni metodi o formule di soluzione particolari che fanno tali assunzioni. Ciò che è importante è come si seleziona il moltiplicatore di regressione della cresta, non che la stima di potrebbe essere distorta. Se quel moltiplicatore viene selezionato osservando una traccia di cresta, allora non hai davvero un modo per quantificare le incertezze, il che mette in discussione la maggior parte dei test diagnostici formali nella teoria della regressione lineare. Questo mi porta a chiederti cosa intendi realmente per "regressione della cresta": come stai valutando esattamente il suo parametro? β
whuber

Forse mi sbaglio, ma considerando il modello standard di regressione multipla . E se non è al livello completo, questo porta a una matrice non invertibile , specialmente in caso di alta dimensione di X. Ho modificato la mia domanda. Grazie. X X XβOLS=(XX)1XYXXX
akyves,

1
La regressione lineare può gestire perfettamente la collinearità, purché non sia "troppo grande".
jona,

3
Questo non è il modello per la regressione multipla: è solo un modo per esprimere la stima dei minimi quadrati. Quando non è invertibile, le equazioni normali hanno ancora soluzioni e (di solito) il modello ha ancora un adattamento univoco , il che significa che fa previsioni uniche. XX
whuber

Risposte:


21

Che cos'è un'ipotesi di una procedura statistica?

Non sono uno statistico e quindi questo potrebbe essere sbagliato, ma penso che la parola "assunzione" sia spesso usata in modo abbastanza informale e possa riferirsi a varie cose. Per me, un "presupposto" è, a rigor di termini, qualcosa che solo un risultato teorico (teorema) può avere.

Quando le persone parlano di ipotesi di regressione lineare ( vedi qui per una discussione approfondita), di solito si riferiscono al teorema di Gauss-Markov che dice che sotto ipotesi di errori non correlati, di varianza uguale, zero-media, la stima OLS è BLU , ovvero è imparziale e presenta una varianza minima. Al di fuori del contesto del teorema di Gauss-Markov, non mi è chiaro cosa significherebbe nemmeno un "presupposto di regressione".

Allo stesso modo, le ipotesi di un, per esempio, un test t di un campione si riferiscono alle ipotesi in base alle quali -statistic è distribuito e quindi l'inferenza è valida. Non si chiama "teorema", ma è un chiaro risultato matematico: se campioni sono normalmente distribuiti, allora -statistic seguirà la distribuzione di Student con gradi di libertà.t n t t n - 1ttnttn1

Ipotesi di tecniche di regressione penalizzate

Considera ora qualsiasi tecnica di regressione regolarizzata: regressione della cresta, lazo, rete elastica, regressione dei componenti principali, regressione dei minimi quadrati parziali, ecc. Ecc. L'intero punto di questi metodi è fare una stima parziale dei parametri di regressione e sperare di ridurre il previsto perdita sfruttando il trade-off di bias varianza.

Tutti questi metodi includono uno o più parametri di regolarizzazione e nessuno di essi ha una regola definita per la selezione dei valori di questi parametri. Il valore ottimale si trova di solito tramite una sorta di procedura di convalida incrociata, ma esistono vari metodi di convalida incrociata e possono produrre risultati leggermente diversi. Inoltre, non è raro invocare alcune regole pratiche aggiuntive oltre alla convalida incrociata. Di conseguenza, il risultato effettivo di uno qualsiasi di questi metodi di regressione penalizzati non è in realtà completamente definito dal metodo, ma può dipendere dalle scelte dell'analista.β^

Pertanto non mi è chiaro come possa esserci una dichiarazione di ottimalità teorica su , e quindi non sono sicuro che parlare di "assunzioni" (presenza o assenza delle stesse) di metodi penalizzati come la regressione della cresta abbia senso. .β^

Ma per quanto riguarda il risultato matematico che la regressione della cresta batte sempre OLS?

Hoerl & Kennard (1970) in Ridge Regressione: stima distorta per problemi non ortogonali ha dimostrato che esiste sempre un valore del parametro di regolarizzazione tale che la stima di regressione della cresta di ha una perdita attesa strettamente inferiore rispetto alla stima OLS. È un risultato sorprendente - vedi qui per qualche discussione, ma dimostra solo l'esistenza di tale , che dipenderà dal set di dati.β λλβλ

Questo risultato in realtà non richiede alcun presupposto ed è sempre vero, ma sarebbe strano affermare che la regressione della cresta non ha alcun presupposto.

Ok, ma come faccio a sapere se posso applicare la regressione della cresta o no?

Direi che anche se non possiamo parlare di ipotesi, possiamo parlare di regole empiriche . È noto che la regressione della cresta tende ad essere più utile in caso di regressione multipla con predittori correlati. È noto che tende a sovraperformare OLS, spesso con un ampio margine. Tenderà a sovraperformare anche in caso di eteroscedasticità, errori correlati o quant'altro. Quindi la semplice regola empirica afferma che se si dispone di dati multicollineari, la regressione della cresta e la convalida incrociata sono una buona idea.

Probabilmente ci sono altre utili regole pratiche e trucchi commerciali (come ad esempio cosa fare con gli outlier lordi). Ma non sono ipotesi.

Si noti che per la regressione OLS sono necessari alcuni presupposti per mantenere i valori . Al contrario, è difficile ottenere valori nella regressione della cresta. Se ciò viene fatto, viene eseguito tramite il bootstrap o un approccio simile e, di nuovo, sarebbe difficile puntare a ipotesi specifiche qui perché non ci sono garanzie matematiche.ppp


Nella situazione in cui si derivano proprietà di inferenza in relazione ad alcune procedure, sia che si tratti di proprietà di un test di ipotesi di una pendenza di regressione o di proprietà di un intervallo di confidenza o di un intervallo di predizione, ad esempio, i test stessi saranno derivati ​​in base ad alcuni serie di ipotesi. Poiché in molte aree tematiche di gran lunga lo scopo più comune dell'uso della regressione è eseguire un qualche tipo di inferenza (in effetti, in alcune aree di applicazione viene raramente fatto per qualsiasi altra ragione), le ipotesi che sarebbero fatte per la procedura inferenziale sono naturalmente associate with ... ctd
Glen_b -Reinstate Monica

ctd ... la cosa su cui sono abituati. Quindi, se hai bisogno di alcune ipotesi per derivare un t-test per testare un coefficiente di regressione o per un test F parziale o per un CI per la media o un intervallo di predizione ... e le solite forme di inferenza fanno tutte lo stesso o quasi il stessa raccolta di presupposti, quindi quelli sarebbero ragionevolmente considerati come presupposti associati all'esecuzione dell'inferenza usando quella cosa. Se uno deve eseguire qualsiasi inferenza con la regressione della cresta (diciamo un intervallo di predizione) e fare ipotesi per farlo, si potrebbe anche dire che sono assunzioni ... ctd
Glen_b -Reinstate Monica

doveva essere in grado di derivare (e presumibilmente, quindi, usare) quel particolare tipo di inferenza sulla regressione della cresta.
Glen_b -Restinata Monica,

R2

1
Non troppo tardi spero di dire grazie @amoeba. Bella risposta!
attende il

1

Vorrei fornire alcuni contributi dal punto di vista statistico. Se Y ~ N (Xb, sigma2 * In), l'errore quadratico medio di b ^ è

MSE(b^)=E(b^-b).T*(b^-b)=E(|b^-b|^2)=sigma2*trace(inv(X.T*X))

D(|b^-b|^2)=2*sigma4*trace((X.T*X)^(-2))

b^=inv(X.T*X)*X.T*Y

Se XT X è approssimativamente zero, allora inv (XT X) sarà molto grande. Quindi la stima dei parametri di b non è stabile e può avere il seguente problema.

  1. un valore assoluto della stima dei parametri è molto grande
  2. b ha segno positivo o negativo opposto del previsto.
  3. l'aggiunta o la rimozione di variabili o osservazioni farà cambiare drasticamente le stime dei parametri.

Al fine di rendere stabile la stima del minimo quadrato ordinale di b, introduciamo la regressione della cresta stimando b^(k)=inv(X.T*X+kI)*X.T*Y.E e possiamo dimostrare che esiste sempre un ak che rende l'errore quadrato medio di

MSE(b^(k)) < MSE(b^).

Nell'apprendimento automatico, la regressione della cresta si chiama regolarizzazione L2 ed è per combattere i problemi di adattamento causato da molte funzionalità.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.