C'è un modo per ottenere un punteggio di confidenza (possiamo chiamarlo anche valore di confidenza o probabilità) per ciascun valore previsto quando si utilizzano algoritmi come Random Forests o Extreme Gradient Boosting (XGBoost)? Supponiamo che questo punteggio di confidenza varierebbe da 0 a 1 e mostriamo quanto sono fiducioso su una previsione specifica .
Da quello che ho trovato su Internet sulla fiducia, di solito viene misurato a intervalli. Ecco un esempio di intervalli di confidenza calcolati con la confpred
funzione della lava
libreria:
library(lava)
set.seed(123)
n <- 200
x <- seq(0,6,length.out=n)
delta <- 3
ss <- exp(-1+1.5*cos((x-delta)))
ee <- rnorm(n,sd=ss)
y <- (x-delta)+3*cos(x+4.5-delta)+ee
d <- data.frame(y=y,x=x)
newd <- data.frame(x=seq(0,6,length.out=50))
cc <- confpred(lm(y~poly(x,3),d),data=d,newdata=newd)
if (interactive()) { ##'
plot(y~x,pch=16,col=lava::Col("black"), ylim=c(-10,15),xlab="X",ylab="Y")
with(cc, lava::confband(newd$x, lwr, upr, fit, lwd=3, polygon=T,
col=Col("blue"), border=F))
}
L'output del codice fornisce solo intervalli di confidenza:
Esiste anche una libreria conformal
, ma I viene anche utilizzata per intervalli di confidenza nella regressione: "conforme consente il calcolo degli errori di previsione nel quadro di previsione conforme: (i) p. Valori per la classificazione e (ii) intervalli di confidenza per la regressione. "
Quindi c'è un modo:
Per ottenere valori di confidenza per ciascuna previsione in caso di problemi di regressione?
Se non esiste un modo, sarebbe utile utilizzare per ogni osservazione come punteggio di confidenza questo:
la distanza tra i limiti superiore e inferiore dell'intervallo di confidenza (come nell'esempio sopra riportato). Quindi, in questo caso, più ampio è l'intervallo di confidenza, maggiore è l'incertezza (ma questo non tiene conto di dove nell'intervallo è il valore effettivo)
randomForestCI
pacchetto di Stephan Wager e il documento associato a Susan Athey. Nota che fornisce solo elementi della configurazione, ma puoi fare un intervallo di previsione calcolando la varianza residua.