Quali sono i vantaggi della regressione lineare rispetto alla regressione quantile?


15

Il modello di regressione lineare fa una serie di ipotesi che la regressione quantile non soddisfa e, se le ipotesi di regressione lineare sono soddisfatte, la mia intuizione (e alcune esperienze molto limitate) è che la regressione mediana darebbe risultati quasi identici alla regressione lineare.

Quindi, quali vantaggi ha la regressione lineare? È sicuramente più familiare, ma diverso da quello?


3
A "più familiare" aggiungerei "interpretabilità" e "stabilità", ma per me uno dei vantaggi della regressione lineare è quello che ti dice sulla media e quanto bene tale media rappresenti la popolazione campione (i residui sono molto istruttivi) . La regressione lineare ha lo stesso valore quando le sue assunzioni sono soddisfatte e un buon valore quando non sono soddisfatte.
JustGettin è partito il

5
Direi che in questi due thread è stata discussa una questione importante: stats.stackexchange.com/questions/153348/… e stats.stackexchange.com/questions/146077/… - efficienza e, possibilmente, anche l'ottimalità in alcuni casi ipotesi
Christoph Hanck

1
Come ulteriore, ma minore, si potrebbe forse aggiungere la disponibilità di soluzioni esplicite, in forma chiusa che non sono disponibili per, diciamo, LAD, il che potrebbe rendere tali tecniche meno allettanti per i professionisti.
Christoph Hanck,

1
Una risposta potrebbe essere come confrontare il semplice caso della stima di un singolo parametro di popolazione, quindi mostrare che gli errori al minimo quadrato si comportano meglio con gli errori gaussiani e i residui meno assoluti (usando anche le ipotesi) si comportano meglio per diversi tipi di errori. Ma poi, questa domanda riguarda i modelli lineari più complessi e il problema inizia ad essere più complesso e ampio. L'intuizione del problema semplice (stimare una media / mediana singola) funziona per un modello più grande, ma di quanto dovrebbe essere risolto? E come confrontare, robustezza contro valori anomali, distribuzioni, calcolo?
Sesto Empirico

2
Nel mio caso, ho trovato molto più piacevole la regressione quantile da spiegare a persone non tecniche quando la variabile di risposta è distorta (ad esempio la spesa del cliente) e l'introduzione di una fase di trasformazione / collegamento oscura l'intera analisi. In tal senso, contesterei l'affermazione "la regressione mediana darebbe risultati quasi identici alla regressione lineare " come un po 'troppo semplificante; non lo fa, specialmente quando si tratta di variabili di risposta potenzialmente distorte.
usεr11852 dice Reinstate Monic il

Risposte:


10

Si afferma molto spesso che è preferibile ridurre al minimo i residui del minimo quadrato piuttosto che minimizzare i residui assoluti a causa del fatto che è più semplice dal punto di vista computazionale . Ma potrebbe anche essere migliore per altri motivi. Vale a dire, se le ipotesi sono vere (e questo non è così insolito) allora fornisce una soluzione che è (in media) più accurata.

Massima probabilità

La regressione dei minimi quadrati e la regressione quantile (se eseguita minimizzando i residui assoluti) possono essere viste come massimizzare la funzione di probabilità per errori distribuiti di Gauss / Laplace, e in questo senso sono molto correlati.

  • Distribuzione gaussiana:

    f(x)=12πσ2e(xμ)22σ2

    con la probabilità logaritmica massimizzata quando si minimizza la somma dei residui quadrati

    logL(x)=n2log(2π)nlog(σ)12σ2i=1n(xiμ)2sum of squared residuals

  • Distribuzione di Laplace:

    f(x)=12be|xμ|b

    con la probabilità logaritmica massimizzata quando si minimizza la somma dei residui assoluti

    logL(x)=nlog(2)nlog(b)1bi=1n|xiμ|sum of absolute residuals

Nota: la distribuzione di Laplace e la somma dei residui assoluti si riferisce alla mediana, ma può essere generalizzata ad altri quantili dando pesi diversi ai residui negativi e positivi.

Distribuzione degli errori nota

Quando conosciamo la distribuzione degli errori (quando le ipotesi sono probabilmente vere) ha senso scegliere la funzione di probabilità associata. Ridurre al minimo quella funzione è più ottimale.

μ

Pertanto, quando gli errori sono distribuiti normalmente, la media del campione è uno stimatore migliore della mediana di distribuzione rispetto alla mediana del campione . La regressione dei minimi quadrati è uno stimatore più ottimale dei quantili. È meglio che usare la minima somma di residui assoluti.

Poiché così tanti problemi riguardano i normali errori distribuiti, l'uso del metodo dei minimi quadrati è molto popolare. Per lavorare con altri tipi di distribuzioni è possibile utilizzare il modello lineare generalizzato . E il metodo dei minimi quadrati iterativi, che può essere usato per risolvere i GLM, funziona anche per la distribuzione di Laplace (cioè per le deviazioni assolute ), che equivale a trovare la mediana (o nella versione generalizzata altri quantili).

Distribuzione degli errori sconosciuta

Robustezza

La mediana o altri quantili hanno il vantaggio di essere molto robusti rispetto al tipo di distribuzione. I valori effettivi non contano molto e ai quantili interessa solo l'ordine. Quindi, indipendentemente dalla distribuzione, ridurre al minimo i residui assoluti (che equivale a trovare i quantili) funziona molto bene.

La domanda diventa complessa e ampia qui ed è dipendente dal tipo di conoscenza che abbiamo o non abbiamo sulla funzione di distribuzione. Ad esempio, una distribuzione può essere approssimativamente normale, ma solo con alcuni valori anomali aggiuntivi. Questo può essere risolto rimuovendo i valori esterni. Questa rimozione dei valori estremi funziona anche nella stima del parametro di posizione della distribuzione di Cauchy in cui la media troncata può essere uno stimatore migliore della mediana. Quindi non solo per la situazione ideale in cui valgono le ipotesi, ma anche per alcune applicazioni meno ideali (ad esempio valori anomali aggiuntivi) potrebbero esserci buoni metodi robusti che usano ancora una qualche forma di somma di residui quadrati invece di somma di residui assoluti.

Immagino che la regressione con i residui troncati possa essere computazionalmente molto più complessa. Quindi potrebbe effettivamente essere la regressione quantile che è il tipo di regressione che viene eseguita a causa della ragione per cui è computazionalmente più semplice (non più semplice dei minimi quadrati ordinari, ma più semplice dei minimi quadrati troncati ).

Biased / imparziale

Un altro problema è distorto rispetto a stimatori imparziali. In quanto sopra ho descritto la stima della massima verosimiglianza per la media, ovvero la soluzione dei minimi quadrati, come stimatore buono o preferibile perché spesso presenta la varianza più bassa di tutti gli stimatori imparziali (quando gli errori sono distribuiti normalmente). Tuttavia, gli stimatori distorti potrebbero essere migliori (somma prevista inferiore dell'errore quadrato).

Questo rende la domanda di nuovo ampia e complessa. Esistono molti stimatori diversi e molte situazioni diverse per applicarli. L'uso di una somma adattata della funzione di perdita dei residui quadrati spesso funziona bene per ridurre l'errore (ad esempio tutti i tipi di metodi di regolarizzazione), ma potrebbe non essere necessario che funzioni bene in tutti i casi. Intuitivamente non è strano immaginare che, poiché la somma della funzione di perdita dei residui quadrati funziona spesso bene per tutti gli stimatori imparziali, gli stimatori ottimizzati distorti è probabilmente qualcosa di simile a una somma della funzione di perdita dei residui quadrati.


Quando conosciamo la distribuzione degli errori ha senso scegliere la funzione di probabilità associata. Ridurre al minimo quella funzione è più ottimale. Per non dire che questo è sbagliato, ma probabilmente dovrebbe essere qualificato. Naturalmente, questo si riferisce ancora una volta alla mia domanda (a cui hai risposto) su stimatori ottimali con diverse funzioni di perdita.
Richard Hardy,

È il modo migliore perché ha la varianza del campione più bassa. La varianza non è generalmente una funzione di perdita sensibile perché trascura la distorsione; una controparte sensata si aspetterebbe un errore al quadrato (noto anche come errore al quadrato medio) che tenga conto sia della varianza che della distorsione. La regressione dei minimi quadrati è uno stimatore più ottimale dei quantili. Mediana - sì, ma altre? E se sì, allora perché? In ogni caso, la tua è una risposta molto bella!
Richard Hardy,

1
@RichardHardy questo argomento è così ampio. In effetti l'errore = varianza + bias. Ho supposto che la distorsione della media del campione fosse la stessa della mediana del campione (o più generale: la somma minima di residui quadrati e la minima somma di residui assoluti hanno la stessa tendenza). Ciò è vero date varie distribuzioni di errori (ad es. Distribuzioni simmetriche di errori), ma in effetti le domande diventano più complesse per altri casi. (il punto era principalmente che gli errori sono spesso distribuiti normalmente e questo rende favorevole la regressione dei minimi quadrati)
Sisto Empirico

1
Lo stesso (la complessità della domanda) è vero quando non consideriamo la mediana, ma invece un altro quantile. Nel caso di normali errori distribuiti, credo che l'MLE dia il miglior risultato per qualunque quantile, ma concordo sul fatto che sia intuizione. Anche in questo caso il problema è molto ampio (dipendenza dal numero di campioni, tipo di distribuzione degli errori e certezza al riguardo, ecc.).
Sesto Empirico

1
un orologio rotto funziona esattamente due volte al giorno, non definirei MLE un orologio rotto. Certo, quando si conosce bene il problema, è possibile introdurre una varianza riducendo la distorsione per migliorare l'errore generale. Questo non si sta necessariamente spostando verso un diverso (quantile) tipo di regressione, puoi anche solo mettere un po 'di marmellata o miele sui minimi quadrati di pane e burro. Se desideri confrontare MLE con un orologio rotto, allora è un orologio che si ferma nel periodo in cui facciamo più uso.
Sesto Empirico

2

La regressione lineare (LR) si riduce all'ottimizzazione dei minimi quadrati quando si calcolano i suoi coefficienti. Ciò implica una simmetria nelle deviazioni dal modello di regressione. Una buona spiegazione della regressione quantile (QR) è in https://data.library.virginia.edu/getting-started-with-quantile-regression/ .

Se le ipotesi LR (necessarie per l'inferenza: valori p, intervalli di confidenza, ecc.) Sono soddisfatte, le previsioni QR e LR saranno simili. Ma se le ipotesi sono fortemente violate, la tua inferenza LR standard sarà errata. Quindi una regressione di 0,5 quantili (mediana) presenta un vantaggio rispetto a LR. Offre inoltre una maggiore flessibilità nel fornire regressione per altri quantili. L'equivalente per i modelli lineari sarebbe un limite di confidenza calcolato da un LR (sebbene ciò sarebbe sbagliato se iid fosse fortemente violato).

Quindi qual è il vantaggio di LR? Ovviamente è più facile da calcolare ma se il tuo set di dati è di dimensioni ragionevoli potrebbe non essere molto evidente. Ma soprattutto, le ipotesi di inferenza LR forniscono informazioni che riducono l'incertezza. Di conseguenza, gli intervalli di confidenza LR sulle previsioni saranno generalmente più ristretti. Quindi, se esiste un forte supporto teorico per le ipotesi, intervalli di confidenza più ristretti possono essere un vantaggio.


2

E(Y|X)YXE(Y|X)=Xββ

La regressione quantile può essere utilizzata per stimare QUALSIASI quantile della distribuzione condizionale inclusa la mediana. Ciò fornisce potenzialmente molte più informazioni rispetto alla media sulla distribuzione condizionale. Se la distribuzione condizionale non è simmetrica o le code sono probabilmente spesse (ad es. Analisi del rischio), la regressione quantile è utile ANCHE se tutti i presupposti della regressione lineare sono soddisfatti.

Ovviamente, è numericamente più intenso effettuare una stima quantile rispetto alla regressione lineare, ma è generalmente molto più robusto (ad esempio, proprio come la mediana è più robusta della media dei valori anomali). Inoltre, è opportuno che la regressione lineare non lo sia, ad esempio per i dati censurati. L'inferenza può essere più complicata poiché la stima diretta della matrice varianza-covarianza può essere difficile o computazionalmente costosa. In questi casi, si può avviare il bootstrap.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.