Al fine di calibrare un livello di confidenza con una probabilità nell'apprendimento supervisionato (diciamo per mappare la confidenza da un SVM o un albero decisionale usando dati sovracampionati) un metodo consiste nell'utilizzare il ridimensionamento di Platt (ad esempio, Ottenere probabilità calibrate dall'amplificazione ).
Fondamentalmente si usa la regressione logistica per mappare a [ 0 ; 1 ] . La variabile dipendente è la vera etichetta e il predittore è la sicurezza del modello non calibrato. Quello che non capisco è l'uso di una variabile target diversa da 1 o 0. Il metodo richiede la creazione di una nuova "etichetta":
Per evitare l'adattamento eccessivo al set di treno sigmoideo, viene utilizzato un modello fuori campione. Se ci sono esempi positivi e N - esempi negativi nel set di treni, per ogni esempio di allenamento Platt Calibration utilizza i valori target y + e y - (anziché 1 e 0, rispettivamente), dove y + = N + + 1
Quello che non capisco è come questo nuovo obiettivo sia utile. La regressione logistica non tratterà semplicemente la variabile dipendente come un'etichetta binaria (indipendentemente dall'etichetta fornita)?
AGGIORNARE:
Ho scoperto che in SAS cambiando il dipendente da PROC GENMOD
data(ToothGrowth)
attach(ToothGrowth)
# 1/0 coding
dep <- ifelse(supp == "VC", 1, 0)
OneZeroModel <- glm(dep~len, family=binomial)
OneZeroModel
predict(OneZeroModel)
# Platt coding
dep2 <- ifelse(supp == "VC", 31/32, 1/32)
plattCodeModel <- glm(dep2~len, family=binomial)
plattCodeModel
predict(plattCodeModel)
compare <- cbind(predict(OneZeroModel), predict(plattCodeModel))
plot(predict(OneZeroModel), predict(plattCodeModel))