Sto usando il pacchetto quantreg per creare un modello di regressione usando il 99 ° percentile dei miei valori in un set di dati. Sulla base dei consigli di una precedente domanda StackOverflow che ho posto, ho usato la seguente struttura di codice.
mod <- rq(y ~ log(x), data=df, tau=.99)
pDF <- data.frame(x = seq(1,10000, length=1000) )
pDF <- within(pDF, y <- predict(mod, newdata = pDF) )
che mostro tracciato sopra i miei dati. L'ho tracciato usando ggplot2, con un valore alfa per i punti. Penso che la coda della mia distribuzione non sia stata sufficientemente considerata nella mia analisi. Forse questo è dovuto al fatto che ci sono singoli punti, che vengono ignorati dalla misurazione del tipo percentile.
Uno dei commenti ha suggerito che
La vignetta del pacchetto include sezioni sulla regressione quantistica non lineare e anche modelli con spline leviganti, ecc.
Sulla base della mia domanda precedente ho assunto una relazione logaritmica, ma non sono sicuro che sia corretto. Pensavo di poter estrarre tutti i punti all'intervallo del 99 ° percentile e poi esaminarli separatamente, ma non sono sicuro di come farlo, o se questo è un buon approccio. Gradirei qualche consiglio su come migliorare l'identificazione di questa relazione.