Attualmente sto usando XGBoost per la previsione del rischio, sembra che stia facendo un buon lavoro nel dipartimento di classificazione binaria, ma le uscite di probabilità sono molto lontane, cioè cambiare il valore di una caratteristica in un'osservazione di una quantità molto piccola può fare la probabilità salto in uscita da 0,5 a 0,99.
Riesco a malapena a vedere le uscite nell'intervallo 0,6-0,8. In tutti i casi, la probabilità è inferiore a 0,99 o 1.
Sono a conoscenza dei metodi di calibrazione post training come Platt Scaling e Logistic Correction, ma mi chiedevo se c'è qualcosa che posso modificare nel processo di formazione XGBoost.
Chiamo XGBoost da diverse lingue usando FFI, quindi sarebbe bello se posso risolvere questo problema senza introdurre altre librerie di calibrazione, ad esempio, cambiando la metrica eval da AUC per la perdita di registro.
XGBoost
è abbastanza robusto contro i valori anomali, se confrontato con altri metodi di vaniglia come SVM
.