Consigli sull'identificazione della forma della curva usando quantreg


10

Sto usando il pacchetto quantreg per creare un modello di regressione usando il 99 ° percentile dei miei valori in un set di dati. Sulla base dei consigli di una precedente domanda StackOverflow che ho posto, ho usato la seguente struttura di codice.

mod <- rq(y ~ log(x), data=df, tau=.99)    
pDF <- data.frame(x = seq(1,10000, length=1000) ) 
pDF <- within(pDF, y <- predict(mod, newdata = pDF) )

che mostro tracciato sopra i miei dati. L'ho tracciato usando ggplot2, con un valore alfa per i punti. Penso che la coda della mia distribuzione non sia stata sufficientemente considerata nella mia analisi. Forse questo è dovuto al fatto che ci sono singoli punti, che vengono ignorati dalla misurazione del tipo percentile.

Uno dei commenti ha suggerito che

La vignetta del pacchetto include sezioni sulla regressione quantistica non lineare e anche modelli con spline leviganti, ecc.

Sulla base della mia domanda precedente ho assunto una relazione logaritmica, ma non sono sicuro che sia corretto. Pensavo di poter estrarre tutti i punti all'intervallo del 99 ° percentile e poi esaminarli separatamente, ma non sono sicuro di come farlo, o se questo è un buon approccio. Gradirei qualche consiglio su come migliorare l'identificazione di questa relazione.

inserisci qui la descrizione dell'immagine


Ci sono un paio di buone domande sul sito che parlano già della trasformazione di dati come questo, vedere stats.stackexchange.com/q/1444/1036 o stats.stackexchange.com/q/298/1036
Andy W

Puoi aggiornare la trama per aggiungere la mediana condizionale? questo mi sembra più un problema di attraversamento
quantico

@ user603 Cosa intendi per mediana condizionale? (Ho cercato online ma non sono sicuro di come calcolarlo)
celenius

tau = 0,5 nella funzione rq ().
user603

1
Se il tuo obiettivo è specificamente quello di stimare il 99 ° percentile condizionale, voterei per la regressione quantistica non lineare (di qualche tipo - non conosco bene i pacchetti R), poiché non sembra che tu conosca la vera forma funzionale . Tuttavia, dalla tua precedente domanda non mi era ancora chiaro quale fosse l'obiettivo reale, quindi ribadirei il commento sulla tua precedente domanda di Spacedman il 4 gennaio alle 17:01
David M Kaplan,

Risposte:


1

Tutti i modelli sono sbagliati, ma alcuni sono utili (George Box). Stai forzando una forma logritmica sulla tua curva adattata, e onestamente non sembra così male. La vestibilità è scarsa alla coda perché ci sono meno punti lì; i due parametri consentiti si adatteranno alla maggior parte dei dati. In altre parole, su una scala di registro, quella coda non è abbastanza lontana dalla maggior parte dei tuoi dati per fornire leva. Non ha a che fare con la natura quantile della regressione; OLS ignorerebbe anche quei punti (specialmente sulla scala del registro).

È abbastanza facile consentire un po 'più di non linearità. Sono parziale alle spline naturali, ma ancora una volta, tutti i modelli sono sbagliati:

library(splines)
mod <- rq(y ~ ns(log(x), df=6), data=df, tau=.99)

Il quantregpacchetto ha alcuni ganci speciali per spline monotoniche se questo ti preoccupa.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.