Domanda molto interessante, dovrò leggere i documenti che dai ... Ma forse questo ci farà iniziare nella direzione di una risposta:
Di solito affronto questo problema in un modo molto pragmatico: ripeto la convalida incrociata di k-fold con nuove divisioni casuali e calcolo le prestazioni come al solito per ogni iterazione. I campioni di test globali sono quindi gli stessi per ogni iterazione e le differenze derivano da diverse suddivisioni dei dati.
Questo lo riferisco, ad esempio, dal 5 ° al 95 ° percentile della performance osservata. scambiando fino a campioni per nuovi campioni e discuterne come misura per l'instabilità del modello.nK- 1
Nota a margine: non posso comunque usare formule che richiedono la dimensione del campione. Dato che i miei dati sono raggruppati o gerarchici nella struttura (molte misurazioni simili ma non ripetute dello stesso caso, di solito diverse [centinaia] posizioni diverse dello stesso campione) non conosco le dimensioni effettive del campione.
confronto con bootstrap:
le iterazioni utilizzano nuove divisioni casuali.
la differenza principale è il ricampionamento con (bootstrap) o senza sostituzione (cv).
il costo computazionale è più o meno lo stesso, poiché sceglierei no di iterazioni di cv no di iterazioni bootstrap / k, ovvero calcolerei lo stesso no totale di modelli.≈
bootstrap ha dei vantaggi rispetto al cv in termini di alcune proprietà statistiche (asintoticamente corretto, forse hai bisogno di meno iterazioni per ottenere una buona stima)
tuttavia, con cv hai il vantaggio di essere garantito
- il numero di campioni di allenamento distinti è lo stesso per tutti i modelli (importante se si desidera calcolare le curve di apprendimento)
- ogni campione viene testato esattamente una volta in ogni iterazione
alcuni metodi di classificazione elimineranno i campioni ripetuti, quindi il bootstrap non ha senso
Varianza per le prestazioni
risposta breve: sì, ha senso parlare di varianza nella situazione in cui esistono solo {0,1} risultati.
Dai un'occhiata alla distribuzione binomiale (k = successi, n = test, p = vera probabilità di successo = media k / n):
σ2( k ) = n p ( 1 - p )
La varianza di proporzioni (come il tasso di successo, il tasso di errore, la sensibilità, TPR, ..., io uso da ora in poi e p per il valore osservato in un test) è un argomento che riempie interi libri ...pp^
- Fleiss: metodi statistici per tariffe e proporzioni
- Forthofer e Lee: Biostatistics ha una bella introduzione.
p^= kn
σ2( p^) = p ( 1 - p )n
Ciò significa che l'incertezza per misurare le prestazioni del classificatore dipende solo dalle prestazioni effettive p del modello testato e dal numero di campioni di test.
Nella convalida incrociata si assume
che i modelli "surrogati" di k abbiano le stesse prestazioni reali del modello "reale" che di solito costruisci da tutti i campioni. (La scomposizione di questa ipotesi è il noto pregiudizio pessimistico).
che i modelli k "surrogati" hanno le stesse prestazioni reali (sono equivalenti, hanno previsioni stabili), quindi è possibile raggruppare i risultati dei test k.
Naturalmente quindi non solo i modelli k "surrogati" di una iterazione di cv possono essere raggruppati, ma i modelli ki delle iterazioni di k-fold cv.
Perché iterare?
La cosa principale che le iterazioni ti dicono è l'instabilità del modello (previsione), cioè la varianza delle previsioni di diversi modelli per lo stesso campione.
p^
E sì, questa è un'informazione importante.
nb o o t s t r a pk ⋅ ni t e r . c v n - 1 ≈ nσ2( p^) = p ( 1 - p )n
pKnp^n
Se si osserva l'instabilità del modello, la media aggregata è una stima migliore delle prestazioni reali. La varianza tra le iterazioni è un'informazione importante e potresti confrontarla con la varianza minima prevista per un set di test di dimensione n con prestazioni medie prestazioni effettive su tutte le iterazioni.