Voglio prevedere un problema di salute. Ho 3 categorie di risultati ordinate: "normale", "lieve" e "grave". Vorrei prevederlo da due variabili predittive, un risultato del test (una covariata a intervalli continui) e una storia familiare con questo problema (sì o no). Nel mio campione, le probabilità sono del 55% (normale), 35% (lieve) e 10% (grave). In questo senso, potrei sempre prevedere "normale" ed avere ragione il 55% delle volte, anche se questo non mi darebbe alcuna informazione sui singoli pazienti. Mi adatto al seguente modello:
Supponiamo che non ci siano interazioni e che tutto vada bene con il modello. La concordanza, c, è del 60,5%, che intendo essere la massima precisione predittiva offerta dal modello.
Mi imbatto in due nuovi pazienti con i seguenti dati: 1. test = 3.26, famiglia = 0; 2. test = 2.85, famiglia = 1. Voglio prevederne la prognosi. Utilizzando la formula: (e quindi prendendo le differenze tra le probabilità cumulative), posso calcolare la distribuzione della probabilità sulle categorie di risposta in base al modello. Codice R (nb, a causa di problemi di arrotondamento, l'output non corrisponde perfettamente):
cut1 <- -2.18
cut2 <- -4.27
beta <- c(0.6, 1.05)
X <- rbind(c(3.26, 0), c(2.85, 1))
pred_cat1 <- exp(-1*(X%*%beta)-cut1)/(1+exp(-1*(X%*%beta)-cut1))
pred_cat2.temp <- exp(-1*(X%*%beta)-cut2)/(1+exp(-1*(X%*%beta)-cut2))
pred_cat3 <- 1-pred_cat2.temp
pred_cat2 <- pred_cat2.temp-pred_cat1
predicted_distribution <- cbind(pred_cat1, pred_cat2, pred_cat3)
Vale a dire: 1. 0 = 55.1%, 1 = 35.8%, 2 = 9.1%; e 2. 0 = 35,6%, 1 = 46,2%, 2 = 18,2%. La mia domanda è: come posso passare dalla distribuzione di probabilità a una categoria di risposta prevista?
Ho provato diverse possibilità usando i dati di esempio, in cui il risultato è noto. Se scelgo solo max (probabilità), la precisione è del 57%, un leggero miglioramento rispetto allo zero, ma al di sotto della concordanza. Inoltre, nel campione, questo approccio non sceglie mai "severo", che è quello che voglio davvero sapere. Ho provato un approccio bayesiano convertendo le probabilità null e del modello in probabilità e quindi selezionando il massimo (odds ratio). Questo a volte diventa 'grave', ma produce una precisione peggiore del 49,5%. Ho anche provato una somma delle categorie ponderate per probabilità e arrotondamento. Questo, ancora una volta, non sceglie mai "grave" e ha una bassa precisione del 51,5%.
Qual è l'equazione che prende le informazioni sopra e produce un'accuratezza ottimale (60,5%)?