Quale problema risolvono i metodi di contrazione?


61

Le festività natalizie mi hanno dato l'opportunità di rannicchiarsi vicino al fuoco con The Elements of Statistical Learning . Provenendo da una prospettiva econometrica (frequentista), ho difficoltà a cogliere gli usi dei metodi di contrazione come regressione della cresta, lazo e regressione dell'angolo minimo (LAR). In genere, sono interessato alle stime dei parametri stesse e al raggiungimento di imparzialità o almeno coerenza. I metodi di contrazione non lo fanno.

Mi sembra che questi metodi vengano utilizzati quando lo statistico è preoccupato che la funzione di regressione diventi troppo sensibile ai predittori, che considera i predittori più importanti (misurati in base all'entità dei coefficienti) di quanto non siano in realtà. In altre parole, troppo adatto.

Tuttavia, OLS fornisce in genere stime imparziali e coerenti. (Nota in calce) Ho sempre visto il problema del sovradimensionamento non di fornire stime troppo grandi, ma piuttosto intervalli di confidenza troppo piccoli perché il processo di selezione non viene preso in considerazione ( ESL menziona quest'ultimo punto).

Le stime dei coefficienti non distorte / coerenti portano a previsioni imparziali / coerenti del risultato. I metodi di restringimento avvicinano le previsioni al risultato medio di OLS, apparentemente lasciando informazioni sul tavolo.

Per ribadire, non vedo quale problema i metodi di contrazione stanno cercando di risolvere. Mi sto perdendo qualcosa?

Nota a piè di pagina: per l'identificazione dei coefficienti è necessaria la condizione di rango di colonna completo. Il presupposto della media condizionale di esogeneità / zero per gli errori e il presupposto della aspettativa condizionale lineare determinano l'interpretazione che possiamo dare ai coefficienti, ma otteniamo una stima imparziale o coerente di qualcosa anche se questi presupposti non sono veri.


1
Ci sono diverse domande correlate qui. Questo è uno: stats.stackexchange.com/questions/10478/…
cardinale il

2
Si noti che ci sono condizioni semplici e abbastanza deboli nella scelta del parametro di restringimento per ottenere la coerenza dei parametri. Questo è dettagliato nel famoso documento Knight & Fu (2000) e casi di copertina ben oltre la regressione della cresta e il lazo. La coerenza nella selezione dei modelli è diventata anche un argomento popolare negli ultimi anni.
cardinale il

@cardinal, grazie per i puntatori per modellare i risultati di coerenza per il lazo; Darò un occhiata. Naturalmente, questi risultati possono anche essere trovati per OLS. I risultati implicano che entrambe le procedure arrivano nello stesso posto. Quindi ancora non capisco perché dovremmo usare il lazo su OLS.
Charlie,

1
La coerenza del modello è un concetto diverso rispetto alla coerenza asintotica delle stime dei parametri. Conoscete (conoscete) questa differenza?
cardinale il

@ cardinale, per coerenza del modello, suppongo che tu intenda includere i predittori corretti. Possiamo ottenerlo utilizzando il criterio AIC nel processo di selezione tramite OLS. Immagino che stai insinuando che, nel limite, il lazo seleziona il modello giusto con coefficienti "sbagliati"?
Charlie,

Risposte:


47

Ho il sospetto che tu voglia una risposta più profonda, e dovrò lasciare che qualcun altro lo fornisca, ma posso darti alcuni pensieri sulla regressione della cresta da una prospettiva libera e concettuale.

La regressione OLS produce stime dei parametri che sono imparziali (cioè, se tali campioni vengono raccolti e i parametri vengono stimati indefinitamente, la distribuzione campionaria delle stime dei parametri sarà centrata sul valore reale). Inoltre, la distribuzione campionaria avrà la varianza più bassa di tutte le possibili stime imparziali (ciò significa che, in media, una stima del parametro OLS sarà più vicina al valore reale di una stima proveniente da un'altra procedura di stima imparziale). Questa è una vecchia notizia (e mi scuso, so che lo sai bene), tuttavia, il fatto che la varianza sia inferiore non significa che sia terribilmente bassa. In alcune circostanze, la varianza della distribuzione del campionamento può essere così grande da rendere sostanzialmente inutile lo stimatore OLS. (Una situazione in cui ciò potrebbe verificarsi è quando esiste un alto grado di multicollinearità.)

Cosa si può fare in una situazione del genere? Bene, si potrebbe trovare uno stimatore diverso che ha una varianza più bassa (sebbene, ovviamente, debba essere distorto, dato quanto stabilito sopra). Cioè, stiamo negoziando l'imparzialità per una varianza più bassa. Ad esempio, otteniamo stime dei parametri che sono probabilmente sostanzialmente più vicine al valore reale, sebbene probabilmente un po 'al di sotto del valore reale. Se questo compromesso sia utile è un giudizio che l'analista deve esprimere di fronte a questa situazione. Ad ogni modo, la regressione della cresta è proprio una tale tecnica. La seguente figura (completamente fabbricata) ha lo scopo di illustrare queste idee.

inserisci qui la descrizione dell'immagine

Ciò fornisce un'introduzione breve, semplice e concettuale per la regressione della cresta. So meno di Lazo e LAR, ma credo che le stesse idee possano essere applicate. Maggiori informazioni sul lazo e la regressione dell'angolo minimo sono disponibili qui , il link "spiegazione semplice ..." è particolarmente utile. Ciò fornisce molte più informazioni sui metodi di restringimento.

Spero che questo abbia un certo valore.


12
Questo dà alcuni suggerimenti concettuali. Nel secondo paragrafo c'è molta attenzione all'imparzialità, ma manca un avvertimento importante. A meno che (a) il modello lineare sia "corretto" (e, quando lo è?) E (b) tutti i predittori rilevanti sono inclusi nel modello, le stime dei coefficienti saranno comunque distorte, in generale.
cardinale il

5
La mia comprensione limitata del compromesso di bias / varianza è che qualcuno alla ricerca di una spiegazione (come forse il poster originale) preferirebbe l'imparzialità, anche se la varianza fosse maggiore, ma qualcuno che fa una previsione potrebbe preferire qualcosa con una piccola varianza, anche se bias è introdotto.
Wayne,

2
@Wayne: In effetti, questo è (uno dei) punti cruciali della questione. Gran parte del punto di vista in ESL proviene da una prospettiva di previsione e quindi questo colora gran parte della loro analisi. Fare inferenza su un singolo coefficiente, in particolare in un contesto osservativo, è una questione molto scivolosa. Sarebbe del tutto convincente affermare che le stime dei coefficienti erano veramente "imparziali".
cardinale il

1
Dato un po 'di tempo, potrei provare a espandere un po' più tardi i miei commenti già troppo voluminosi.
cardinale il

@gung, ecco un Meta thread correlato che potrebbe interessarti.
Richard Hardy,

16

L'errore di uno stimatore è una combinazione di componenti di bias e varianza (al quadrato) . Tuttavia, in pratica, vogliamo adattare un modello a un particolare campione finito di dati e vogliamo ridurre al minimo l'errore totale dello stimatore valutato sul particolare campione di dati che abbiamo effettivamente , piuttosto che un errore zero in media su alcune popolazioni di campioni (che non abbiamo). Pertanto, vogliamo ridurre sia la distorsione che la varianza, per ridurre al minimo l'errore, il che spesso significa sacrificare l'imparzialità per ridurre maggiormente la componente di varianza. Ciò è particolarmente vero quando si ha a che fare con set di dati di piccole dimensioni, dove è probabile che la varianza sia elevata.

Penso che la differenza nel focus dipenda dal fatto che uno sia interessato alle proprietà di una procedura o che ottenga i migliori risultati su un particolare campione. I frequentatori in genere trovano il primo più facile da gestire all'interno di quel framework; I bayesiani sono spesso più focalizzati su quest'ultimo.


9

Immagino che ci siano alcune risposte applicabili:

  • La regressione della cresta può fornire l'identificazione quando la matrice dei predittori non è il grado di colonna completo.
  • Lazo e LAR possono essere utilizzati quando il numero di predittori è maggiore del numero di osservazioni (un'altra variante del problema non singolare).
  • Lazo e LAR sono algoritmi di selezione automatica delle variabili.

Non sono sicuro che il primo punto riguardante la regressione della cresta sia davvero una caratteristica; Penso che preferirei cambiare il mio modello per affrontare la non identificazione. Anche senza una modifica della modellazione, OLS fornisce previsioni uniche (e imparziali / coerenti) del risultato in questo caso.

Ho potuto vedere come il secondo punto possa essere utile, ma la selezione diretta può funzionare anche nel caso in cui il numero di parametri superi il numero di osservazioni, producendo stime imparziali / coerenti.

All'ultimo punto, la selezione avanti / indietro, come esempi, è facilmente automatizzata.

Quindi non vedo ancora i veri vantaggi.


6
Alcune osservazioni: ( 1 ) Le stime OLS non sono uniche quando la matrice dei predittori non è al completo. ( 2 ) La coerenza è un concetto asintotico e quindi richiede una sequenza di stimatori. Ciò significa che è necessario definire il tipo di sequenza che si stanno prendendo in considerazione, e il tipo di crescita che ti interessa non importa. ( 3 ) Esistono diversi tipi di coerenza e la comprensione delle differenze tra loro può essere illustrativa. Il documento di Zhao & Yu (2006) ha una bella discussione. ( 4 ) La discrepanza è sopravvalutata.
cardinale il

1
( 5 ) La motivazione originale della regressione della cresta in Hoerl & Kennard (1970) era quella di gestire matrici di design mal condizionate, che è una forma "morbida" di carenza di rango.
cardinale il

1
@cardinal, re. (1): Mi dispiace, intendevo le previsioni del risultato, piuttosto che le stime dei coefficienti.
Charlie,

1
Ah ok. Ciò si adatta meglio alla nota a piè di pagina nella domanda.
cardinale il

Ecco un link alla versione pubblicamente disponibile di Zhao & Yu (2006) come nel commento sopra.
Richard Hardy,

4

Ecco un esempio applicato di base da Biostatistics

Supponiamo che sto studiando possibili relazioni tra la presenza di carcinoma ovarico e un insieme di geni.

La mia variabile dipendente è un binario (codificato come zero o 1) Le mie variabili indipendenti codificano i dati da un database proteomico.

Come è comune in molti studi di genetica, i miei dati sono molto più ampi di quanto siano alti. Ho 216 osservazioni diverse ma circa 4000 possibili predittori.

La regressione lineare è subito (il sistema è orribile oltre determinato).

le tecniche di selezione delle funzionalità non sono realmente possibili. Con oltre 4000 diverse variabili indipendenti, tutte le possibili tecniche dei sottoinsiemi sono completamente fuori discussione e anche la selezione sequenziale delle caratteristiche è dubbia.

L'opzione migliore è probabilmente quella di utilizzare la regressione logistica con una rete elastica.

Voglio fare la selezione delle caratteristiche (identificare quali variabili indipendenti sono importanti) quindi la regressione della cresta non è davvero appropriata.

È del tutto possibile che ci siano più di 216 variabili indipendenti che hanno un'influenza significativa, quindi probabilmente non dovrei usare un lazo (Lasso non può identificare più predittori di quanto tu abbia osservazioni) ...

Inserisci la rete elastica ...


1
potresti fornire un libro di testo che affronti le situazioni da te menzionate?
Qbik,

0

Un altro problema che i metodi di contrazione della regressione lineare possono affrontare è l'ottenimento di una stima a bassa varianza (possibilmente imparziale) di un effetto di trattamento medio (ATE) in studi caso-controllo ad alta dimensione su dati osservativi.

In particolare, nei casi in cui 1) vi è un gran numero di variabili (che rende difficile selezionare le variabili per la corrispondenza esatta), 2) la corrispondenza del punteggio di propensione non riesce a eliminare lo squilibrio nei campioni di trattamento e controllo e 3) la multicollinearità è presente, lì sono diverse tecniche, come il lazo adattivo (Zou, 2006) che ottengono stime asintoticamente imparziali. Ci sono stati diversi articoli che discutono sull'uso della regressione del lazo per l'inferenza causale e sulla generazione di intervalli di confidenza sulle stime dei coefficienti (vedi il seguente post: Inferenza dopo aver usato il lazo per la selezione delle variabili ).

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.