Ho un modello di regressione logistica addestrato che sto applicando a un set di dati di test. La variabile dipendente è binaria (booleana). Per ogni campione nel set di dati di test, applico il modello di regressione logistica per generare una probabilità% che la variabile dipendente sia vera. Quindi registro se il valore acuto era vero o falso. Sto cercando di calcolare una cifra o rettificata come in un modello di regressione lineare.R 2
Questo mi dà un record per ogni campione nel set di test come:
prob_value_is_true acutal_value
.34 0
.45 1
.11 0
.84 0
.... ....
Mi chiedo come testare l'accuratezza del modello. Il mio primo tentativo è stato quello di utilizzare una tabella di contingenza e dire "se prob_value_is_true
> 0,80, indovinare che il valore reale è vero" e quindi misurare il rapporto tra classificazioni corrette e errate. Ma non mi piace, perché mi sembra più che sto solo valutando lo 0,80 come un limite, non l'accuratezza del modello nel suo insieme e tutti i prob_value_is_true
valori.
Quindi ho provato a guardare ogni valore discreto prob_value_is_true, ad esempio, guardando tutti i campioni in cui prob_value_is_true
= 0,34 e misurando la% di quei campioni in cui il valore acutale è vero (in questo caso, la precisione assoluta sarebbe se la% dei campioni era vero = 34%). Potrei creare un punteggio di precisione del modello sommando la differenza per ogni valore discreto di prob_value_is_true
. Ma le dimensioni del campione sono una grande preoccupazione qui, specialmente per gli estremi (vicino allo 0% o al 100%), in modo tale che le medie dei valori acuti non siano accurate, quindi usarle per misurare l'accuratezza del modello non sembra giusto.
Ho anche provato a creare enormi gamme per garantire sufficienti dimensioni del campione (0 -25, 0,25 -50, .50-.75, .75-1.0), ma il modo in cui misurare "bontà" di quella% del valore reale mi sorprende . Supponiamo che tutti i campioni prob_value_is_true
compresi tra 0,25 e 0,50 abbiano una media acutal_value
di 0,45. È buono dal momento che è nella gamma? Cattivo dal momento che non è vicino al 37,5% (il centro dell'intervallo)?
Quindi sono bloccato su ciò che sembra dovrebbe essere una domanda facile e spero che qualcuno possa indicarmi una risorsa o un metodo per calcolare una precisione di precisione per un modello di regressione logistica.