Quando la regressione quantile è peggiore di OLS?


22

A parte alcune circostanze uniche in cui dobbiamo assolutamente comprendere la relazione media condizionale, quali sono le situazioni in cui un ricercatore dovrebbe scegliere OLS rispetto alla regressione quantistica?

Non voglio che la risposta sia "se non serve a capire le relazioni di coda", dato che potremmo semplicemente usare la regressione mediana come sostituto dell'OLS.


4
Penso che la maggior parte dei ricercatori avrebbe intrattenuto sia la regressione quantistica che quella quantistica; le differenze tra i metodi farebbero luce su ciò che stai cercando di modellare. Per quanto riguarda OLS, se si danno a ipotesi di normalità si ottiene un sacco di metodologia di test abbastanza ben documentata e approfondita disponibile nella maggior parte dei pacchetti statistici.
Jonathan Lisic,

Risposte:


18

Se sei interessato alla media, usa OLS, se nella mediana, usa quantile.

Una grande differenza è che la media è maggiormente influenzata da valori anomali e altri dati estremi. A volte, è quello che vuoi. Un esempio è se la tua variabile dipendente è il capitale sociale in un quartiere. La presenza di una sola persona con molto capitale sociale può essere molto importante per l'intero quartiere.


6
Lasciami sfidare la tua prima frase. Sia OLS che la regressione quantile (QR) stanno stimando per un processo di generazione di dati y = X β + ε . Se la distribuzione di errore ha code pesanti, β Q R è più efficiente di β O L S . Indipendentemente da quale momento della distribuzione condizionale P ( y | x ) siamo interessati, dobbiamo utilizzare quello di β O L S e β Q Rβy=Xβ+εβ^QRβ^OLSP(y|X)β^OLSβ^QRquesto è più efficiente.
Richard Hardy,

Seguendo la critica di @RichardHardy a questa risposta, la mediana è solo uno dei quantili stimabili. Questo articolo di Hyndman introduce un approccio che definisce aumentare la regressione quantistica additiva che esplora una gamma completa di quantili, prevedendo l'incertezza nei dati dei contatori intelligenti dell'elettricità aumentando la regressione quantitativa additiva ( ieeexplore.ieee.org/document/7423794 ).
Mike Hunter

15

Sembra esserci una confusione nella premessa della domanda. Nel secondo paragrafo si dice "potremmo semplicemente usare la regressione mediana come sostituto dell'OLS". Si noti che regredire la mediana condizionale su X è (una forma di) regressione quantile.

Se l'errore nel processo di generazione dei dati sottostante è normalmente distribuito (che può essere valutato controllando se i residui sono normali), allora la media condizionale è uguale alla mediana condizionale. Inoltre, qualsiasi quantile a cui potresti essere interessato (ad esempio, il 95o percentile o il 37o percentile), può essere determinato per un dato punto nella dimensione X con metodi OLS standard. L'appello principale della regressione quantile è che è più robusto di OLS. Il rovescio della medaglia è che se tutte le ipotesi sono soddisfatte, sarà meno efficiente (cioè, avrai bisogno di una dimensione del campione più grande per ottenere la stessa potenza / le tue stime saranno meno precise).


12

Sia OLS che la regressione quantile (QR) sono tecniche di stima per stimare il vettore coefficiente in un modello di regressione lineare y = X β + ε (per il caso di QR vedi Koenker (1978), p. 33, secondo paragrafo).β

y=Xβ+ε

Per alcune distribuzioni di errore (ad esempio quelli con code pesanti), il QR stimatore β Q R è più efficiente del OLS stimatore β O L S ; richiamo che β O L S è efficiente solo nella classe degli stimatori lineari. Questa è la motivazione principale per Koenker (1978) che suggerisce di usare il QR al posto di OLS in una varietà di impostazioni. Credo che per ogni momento della distribuzione condizionale P Y ( y | x ) si dovrebbe utilizzare quello degli β O L S eβ^QRβ^OLSβ^OLSPY(y|X)β^OLSβ^QR

β^OLSβ^QRβ^OLSβ^QR. Un esempio è quando la distribuzione dell'errore è normale.

Riferimenti:

  • Koenker, Roger e Gilbert Bassett Jr. "Quantili di regressione". Econometrica: Journal of the Econometric Society (1978): 33-50.

3

Peter Flom ha avuto un'ottima risposta concisa, voglio solo espanderlo. La parte più importante della domanda è come definire "peggio".

Al fine di definire peggio, abbiamo bisogno di avere alcune metriche e la funzione per calcolare quanto buoni o cattivi i raccordi sono chiamati funzioni di perdita.

Possiamo avere definizioni diverse della funzione di perdita, e non c'è giusto o sbagliato su ogni definizione, ma definizioni diverse soddisfano esigenze diverse. Due funzioni di perdita ben note sono la perdita quadrata e la perdita di valore assoluto.

LSq(y,y^)=Σio(yio-y^io)2
Labs(y,y^)=i|yiy^i|

If we use squared loss as a measure of success, quantile regression will be worse than OLS. On the other hand, if we use absolute value loss, quantile regression will be better.

Which is what Peter Folm's answer:

If you are interested in the mean, use OLS, if in the median, use quantile.


I think your example may be misleading since it addresses in-sample fit (which is of little interest since we already know our sample perfectly) rather than expected loss for new observations (when the goal is prediction) or loss of estimating the parameter vector (when the goal is explanation). See may comment under Peter Flom's answer and my answer for more details.
Richard Hardy

3

To say what some of the excellent responses above said, but in a slightly different way, quantile regression makes fewer assumptions. On the right hand side of the model the assumptions are the same as with OLS, but on the left hand side the only assumption is continuity of the distribution of Y (few ties). One could say that OLS provides an estimate of the median if the distribution of residuals is symmetric (hence median=mean), and under symmetry and not-too-heavy tails (especially under normality), OLS is superior to quantile regression for estimating the median, because of much better precision. If there is only an intercept in the model, the quantile regression estimate is exactly the sample median, which has efficiency of 2π when compared to the mean, under normality. Given a good estimate of the root mean squared error (residual SD) you can use OLS parametrically to estimate any quantile. But quantile estimates from OLS are assumption-laden, which is why we often use quantile regression.

If you want to estimate the mean, you can't get that from quantile regression.

If you want to estimate the mean and quantiles with minimal assumptions (but more assumptions than quantile regression) but have more efficiency, use semiparametric ordinal regression. This also gives you exceedance probabilities. A detailed case study is in my RMS course notes where it is shown on one dataset that the average mean absolute estimation error over several parameters (quantiles and mean) is achieved by ordinal regression. But for just estimating the mean, OLS is best and for just estimating quantiles, quantile regression was best.

Another big advantage of ordinal regression is that it is, except for estimating the mean, completely Y-transformation invariant.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.