Influenza dell'instabilità nelle previsioni di diversi modelli surrogati
Tuttavia, uno dei presupposti alla base dell'analisi binomiale è la stessa probabilità di successo per ogni prova, e non sono sicuro che il metodo alla base della classificazione di "giusto" o "sbagliato" nella validazione incrociata possa essere considerato la stessa probabilità di successo.
Bene, di solito quell'equivalenza è un presupposto necessario anche per permetterti di mettere in comune i risultati dei diversi modelli surrogati.
In pratica, l'intuizione che questa ipotesi possa essere violata è spesso vera. Ma puoi misurare se questo è il caso. È qui che trovo utile la convalida incrociata ripetuta: la stabilità delle previsioni per lo stesso caso con modelli surrogati diversi consente di giudicare se i modelli sono equivalenti (previsioni stabili) o meno.
Ecco uno schema di convalida incrociata ripetuta ripetutamente (ovvero ripetuta) :K
Le lezioni sono rosse e blu. I cerchi a destra simboleggiano le previsioni. In ogni iterazione, ogni campione è previsto esattamente una volta. Di solito, la media generale viene utilizzata come stima delle prestazioni, presupponendo implicitamente che le prestazioni dei modelli surrogati siano uguali. Se cerchi ciascun campione in base alle previsioni fatte da diversi modelli surrogati (ovvero attraverso le colonne), puoi vedere quanto sono stabili le previsioni per questo esempio.io ⋅ k
È inoltre possibile calcolare le prestazioni per ciascuna iterazione (blocco di 3 righe nel disegno). Qualsiasi scostamento tra questi significa che l'assunto che i modelli surrogati sono equivalenti (tra loro e inoltre al "grande modello" costruito su tutti i casi) non è soddisfatto. Ma questo ti dice anche quanta instabilità hai. Per quanto riguarda la proporzione binomiale, penso che la prestazione reale sia la stessa (cioè indipendente dal fatto che siano sempre previsti gli stessi casi in modo errato o se lo stesso numero ma casi diversi siano erroneamente previsti). Non so se si possa ragionevolmente assumere una particolare distribuzione per le prestazioni dei modelli surrogati. Ma penso che sia comunque un vantaggio rispetto alla segnalazione attualmente comune di errori di classificazione se si riporta tale instabilità.KK
«
nKio
Il disegno è una versione più recente di fig. 5 in questo documento: Beleites, C. & Salzer, R .: Valutazione e miglioramento della stabilità dei modelli chemiometrici in situazioni di piccole dimensioni del campione, Anal Bioanal Chem, 390, 1261-1271 (2008). DOI: 10.1007 / s00216-007-1818-6
Nota che quando abbiamo scritto il documento non avevo ancora realizzato completamente le diverse fonti di varianza che ho spiegato qui - tienilo a mente. Pertanto ritengo che l' argomentazioneper un'efficace stima della dimensione del campione, dato che non è corretta, anche se la conclusione dell'applicazione secondo cui diversi tipi di tessuto all'interno di ciascun paziente contribuiscono sulla quantità di informazioni complessive di un nuovo paziente con un determinato tipo di tessuto è probabilmente ancora valida (ho un tipo totalmente diverso di prove che indicano anche in questo modo). Tuttavia, non sono ancora completamente sicuro di ciò (né di come farlo meglio e quindi essere in grado di verificare), e questo problema non è correlato alla tua domanda.
Quali prestazioni utilizzare per l'intervallo di confidenza binomiale?
Finora ho usato la prestazione media osservata. Si potrebbe anche usare la peggiore prestazione osservata: più vicina è la prestazione osservata a 0,5, maggiore è la varianza e quindi l'intervallo di confidenza. Pertanto, gli intervalli di confidenza della prestazione osservata più vicini a 0,5 offrono un "margine di sicurezza" conservativo.
Si noti che alcuni metodi per calcolare gli intervalli di confidenza binomiale funzionano anche se il numero osservato di successi non è un numero intero. Uso l '"integrazione della probabilità posteriore bayesiana" come descritto in
Ross, TD: intervalli di confidenza accurati per la proporzione binomiale e la stima del tasso di Poisson, Comput Biol Med, 33, 509-531 (2003). DOI: 10.1016 / S0010-4825 (03) 00019-2
(Non lo so per Matlab, ma in R puoi usare binom::binom.bayes
entrambi i parametri di forma impostati su 1).
n
Vedi anche: Bengio, Y. e Grandvalet, Y .: No stimatore indiscusso della varianza della convalida incrociata di K-Fold, Journal of Machine Learning Research, 2004, 5, 1089-1105 .
(Pensare di più a queste cose è nella mia todo-list di ricerca ..., ma poiché vengo dalla scienza sperimentale mi piace integrare le conclusioni teoriche e di simulazione con i dati sperimentali - che è difficile qui perché avrei bisogno di un grande serie di casi indipendenti per test di riferimento)
Aggiornamento: è giustificato assumere una distribuzione biomiale?
K
n
npn