Wojtek J. Krzanowski e David J. Hand ROC Curves for Continuous Data (2009) è un ottimo riferimento per tutto ciò che riguarda le curve ROC. Raccoglie una serie di risultati in quella che è una base letteraria frustrantemente ampia, che spesso utilizza una terminologia diversa per discutere dello stesso argomento.
Inoltre, questo libro offre commenti e confronti di metodi alternativi che sono stati derivati per stimare le stesse quantità, e sottolinea che alcuni metodi fanno ipotesi che potrebbero essere insostenibili in contesti particolari. Questo è uno di questi contesti; altre risposte riportano il metodo Hanley & McNeil, che assume il modello binormale per la distribuzione dei punteggi, che può essere inappropriato nei casi in cui la distribuzione dei punteggi delle classi non è (quasi) normale. L'assunzione di punteggi normalmente distribuiti sembra particolarmente inappropriata nei moderni contesti di apprendimento automatico , modelli comuni tipici come xgboost tendono a produrre punteggi con una distribuzione "vasca" per compiti di classificazione (vale a dire distribuzioni con densità elevate agli estremi vicino a 0 e 1 ).
Domanda 1 - AUC
La sezione 6.3 discute i confronti di AUC ROC per due curve ROC (pagg. 113-114). In particolare, la mia comprensione è che questi due modelli sono correlati, quindi le informazioni su come calcolare sono di fondamentale importanza qui; in caso contrario, la statistica del test sarà distorta perché non tiene conto del contributo della correlazione.r
Nel caso di curve ROC non correlate non basate su ipotesi distributive parametriche, le statistiche per tet e intervalli di confidenza che confrontano AUC possono essere basate direttamente su stime e dei valori AUC e stime delle loro deviazioni standard e , come indicato nella sezione 3.5.1:AUCˆ1AUCˆ2S1S2
Z=AUCˆ1−AUCˆ2S21+S22−−−−−−−√
Per estendere tali test al caso in cui vengono utilizzati gli stessi dati per entrambi i classificatori, dobbiamo tenere conto della correlazione tra le stime dell'AUC:
z=AUCˆ1−AUCˆ2S21+S22−rS1S2−−−−−−−−−−−−−√
dove è la stima di questa correlazione. Hanley e McNeil (1983) hanno fatto una tale estensione, basando la loro analisi sul caso binormale, ma hanno fornito solo una tabella che mostra come calcolare il coefficiente di correlazione stimato r dalla correlazione r P dei due classificatori all'interno della classe P e la correlazione di r n dei due classificatori all'interno della classe N, dicendo che la derivazione matematica era disponibile su richiesta. Vari altri autori (ad es. Zou, 2001) hanno sviluppato test basati sul modello binormale, supponendo che sia possibile trovare una trasformazione appropriata che trasformi simultaneamente le distribuzioni dei punteggi delle classi P e N in normali.rrrPrn
DeLong et al (1988) hanno sfruttato l'identità tra AUC e la statistica dei test di Mann-Whitney, insieme ai risultati della teoria delle -statistics generalizzate dovute a Sen (1960), per ricavare una stima della correlazione tra le AUCs che non si basa sul presupposto binormale. In effetti, DeLong et al (1988) hanno presentato i seguenti risultati per confronti tra k ≥ 2 classificatori.Uk≥2
Nella Sezione 3.5.1, abbiamo mostrato che l'area sotto la curva empirica ROC era uguale alla statistica Mann-Whitney , ed era data daU
dovesPi,i=1,…,nPsono i punteggi per glioggetti diclassePesNj,j=1,…,nNsono i punteggi per glioggetti diclasseNnell'esempio. Supponiamo di averekclassificatori, dando punteggis r N j ,
AUCˆ=1nNnP∑i=1nN∑j=1nP[I(sPj>sNi)+12I(sPj=sNi)]
sPi,i=1,…,nPPsNj,j=1,…,nNNk e s r P i , j = 1 , … , n P [Ho corretto un errore di indicizzazione in questa parte - Sycorax] e ^ A U C r , r = 1 , … , k . DefiniresrNj,j=1…nNsrPi,j=1,…,nPAUCˆr,r=1,…,k
Vr10=1nN∑j=1nN[I(srPi>srNj)+12I(srPi=srNj)],i=1,…,nP
Vr01=1nP∑i=1nP[I(srPi>srNj)+12I(srPi=srNj)],j=1,…,nN
k×kW10(r,s)
wr,s10=1nP−1∑i=1nP[Vr10(sPi)−AUCˆr][Vs10(sPi)−AUCˆs]
k×kW01(r,s)wr,s01=1nN−1∑i=1nN[Vr01(sNi)−AUCˆr][Vs01(sNi)−AUCˆs]
(AUCˆ1,…,AUCˆk)W=1nPW10+1nNW01
wr,srw1,2w1,1w2,2√z
Poiché un'altra risposta fornisce le espressioni Hanley e McNeil per gli stimatori della varianza dell'AUC, qui riprodurrò lo stimatore DeLong da p. 68:
sss1−F(s)s1−G(s)sNisPNisNivar(sNPi)
AUCˆ
s2(AUCˆ)=1nPvar(sNPi)+1nNvar(sPNi)
FGFG
Zz
Questo è uno schema semplificato e di alto livello di come funziona il test delle ipotesi:
Testare, in parole tue, "se un classificatore è significativamente migliore dell'altro" può essere riformulato testando l'ipotesi nulla che i due modelli abbiano AUC statisticamente uguali contro l'ipotesi alternativa che le statistiche siano disuguali.
Questo è un test a due code.
Respingiamo l'ipotesi nulla se la statistica del test si trova nella regione critica della distribuzione di riferimento, che in questo caso è una distribuzione normale standard.
αz>1.96z<−1.96α/21−α/2
Domanda 1 - Sensibilità e specificità
t
sensitivity=tp1−specificity=fp=P(sP>t)=P(sN>t)
Il principale punto critico è lo sviluppo del test appropriato dato che le due proporzioni del campione saranno correlate (poiché hai applicato due modelli agli stessi dati del test). Questo è affrontato a pag. 111.
tpfpt(tp1−tp2)/s12tpiis212tp1tp2
tp1tp2
N
tp1=tp2tp1≠tp2
Model 2 Positive at tModel 2 Negative at tModel 1 Positive at tacModel 1 Negative at tbd
abcd=∑i=1nPI(s1Pi>t)⋅I(s2Pi>t)=∑i=1nPI(s1Pi≤t)⋅I(s2Pi>t)=∑i=1nPI(s1Pi>t)⋅I(s2Pi≤t)=∑i=1nPI(s1Pi≤t)⋅I(s2Pi≤t)
M=(b−c)2b+c
χ21α=95%M>3.841459
srPisrNj
Domanda 2
Sembra che sia sufficiente unire i risultati facendo la media dei valori di previsione per ciascun intervistato, in modo che per ogni modello si abbia 1 vettore di 100 valori previsti medi. Quindi calcola le statistiche RUC AUC, sensibilità e specificità come al solito, come se i modelli originali non esistessero. Ciò riflette una strategia di modellizzazione che tratta ciascuno dei 5 modelli di intervistati come uno di un "comitato" di modelli, un po 'come un insieme.