Una differenza importante nel modo consueto in cui vengono applicati i metodi di validazione incrociata e fuori avvio è che la maggior parte delle persone applica la convalida incrociata una sola volta (ovvero ogni caso viene testato esattamente una volta), mentre la convalida fuori avvio viene eseguita con un numero elevato di ripetizioni / iterazioni. In tale situazione, la validazione incrociata è soggetta a una maggiore varianza a causa dell'instabilità del modello. Tuttavia, ciò può essere evitato utilizzando, ad esempio, la convalida incrociata ripetuta ripetuta / ripetuta . Se ciò viene fatto, almeno per i set di dati spettroscopici con cui ho lavorato, l'errore totale di entrambi gli schemi di ricampionamento sembra essere lo stesso nella pratica.K
La convalida incrociata senza esclusione di dati è sconsigliata, in quanto non vi è alcuna possibilità di ridurre la varianza del tipo di instabilità del modello e vi sono alcuni classificatori e problemi in cui mostra un grande pregiudizio pessimistico.
.632 bootstrap fa un lavoro ragionevole fintanto che l'errore di ricampionamento che viene mischiato non è troppo ottimistico. (Ad esempio per i dati con cui lavoro, matrici molto ampie con molte varianti, non funziona molto bene in quanto i modelli sono soggetti a un eccessivo adattamento). Ciò significa anche che eviterei di usare il bootstrap .632 per confrontare modelli di varia complessità. Con .632+ bootstrap non ho esperienza: se si verifica un overfitting e viene rilevato correttamente, equivarrà alla stima originale fuori dal bootstrap, quindi rimango fedele obo o convalida ripetuta iterata / ripetuta per i miei dati.
Letteratura:
- Kohavi, R .: Uno studio di convalida incrociata e bootstrap per la stima della precisione e la selezione dei modelli Atti di intelligenza artificiale 14a Conferenza congiunta internazionale, 20-25 agosto 2015, Montréal, Québec, Canada, 1995, 1137-1145.
(un classico )
Dougherty e Braga-Neto hanno una serie di pubblicazioni sull'argomento , ad es
Dougherty, ER et al. : Esecuzione di stimatori di errori per la classificazione della bioinformatica attuale, 2010, 5, 53-67
Beleites, C. et al. : Riduzione della varianza nella stima dell'errore di classificazione usando set di dati sparsi Chemom Intell Lab Syst, 2005, 79, 91 - 100.
Abbiamo un confronto tra la convalida incrociata una sola volta o l'iterazione / ripetizione, e confrontiamo quella con il bootstrap e .632 bootstrap anche per dati particolarmente ampi con multi-collinearità.
Kim, J.-H .: Stima del tasso di errore di classificazione: convalida incrociata ripetuta, ripetuti hold-out e bootstrap, statistiche computazionali e analisi dei dati, 2009, 53, 3735 - 374
rileva anche che la convalida incrociata ripetuta / ripetuta di e out-of-bootstrap ha prestazioni simili (al contrario di eseguire la validazione incrociata una sola volta).K
Scelta della metrica:
accuray (di cui @FrankHarrell ti dirà che si tratta di una scelta sbagliata in quanto non è una regola di punteggio appropriata ) è soggetto a varianza elevata perché considera ogni caso come completamente corretto o completamente errato, anche se il classificatore ha previsto, ad esempio, solo 60 % di probabilità posteriore per il caso di test di appartenere alla classe in questione. Una regola di punteggio adeguata è ad esempio il punteggio di Brier, che è strettamente correlato all'errore quadratico medio nella regressione.
Analoga dell'errore quadrato medio sono disponibili per proporzioni come accuratezza, sensibilità, specificità, valori predittivi: Beleites, C. et al. : Convalida di modelli di classificazione soft mediante appartenenza a classi parziali: un concetto esteso di sensibilità e Co. applicato alla classificazione dei tessuti di astrocitoma, Chemom Intell Lab Syst, 2013, 122, 12 - 22; DOI: 10.1016 / j.chemolab.2012.12.003 (pagina di riepilogo che riporta anche il collegamento alla prestampa)
Il mio obiettivo finale è poter dire con una certa sicurezza che un metodo di apprendimento automatico è superiore a un altro per un determinato set di dati.
Utilizzare un test associato per valutarlo. Per confrontare le proporzioni, dai un'occhiata al test di McNemar.
La risposta a questo sarà influenzata dalla scelta della metrica. Dato che le misure di errore di tipo regressione non hanno il passo "indurente" di tagliare le decisioni con una soglia, spesso hanno una varianza inferiore rispetto alle loro controparti di classificazione. Metriche come l'accuratezza che sono fondamentalmente proporzioni avranno bisogno di un numero enorme di casi di test per stabilire la superiorità di un classificatore rispetto a un altro.
Fleiss: "Metodi statistici per tassi e proporzioni" fornisce esempi (e tabelle) per un confronto spaiato di proporzioni. Per darti un'idea di cosa intendo con "enormi dimensioni del campione", dai un'occhiata all'immagine nella mia risposta a questa altra domanda . Test accoppiati come quelli di McNemar necessitano di meno casi di test, ma IIRC rimane nel migliore dei casi metà (?) Della dimensione del campione necessaria per il test non accoppiato.
Per caratterizzare le prestazioni di un classificatore (indurito), di solito è necessaria una curva di lavoro di almeno due valori come il ROC (sensibilità vs. specificità) o simili.
Raramente uso l'accuratezza generale o l'AUC, poiché le mie applicazioni di solito hanno restrizioni, ad es. Che la sensibilità è più importante della specificità, o che alcuni limiti su queste misure dovrebbero essere rispettati. Se scegli le caratteristiche di somma "numero singolo", assicurati che il punto di lavoro dei modelli che stai osservando sia effettivamente in un intervallo ragionevole.
Per l'accuratezza e altre misure prestazionali che riassumono le prestazioni per diverse classi in base alle etichette di riferimento, assicurati di prendere in considerazione la frequenza relativa delle classi che incontrerai nell'applicazione, che non è necessariamente la stessa della tua dati di addestramento o test.
Provost, F. et al. : Il caso contro la stima della precisione per confrontare gli algoritmi di induzione negli atti della quindicesima conferenza internazionale sull'apprendimento automatico, 1998
modifica: confronto tra più classificatori
Ho pensato a questo problema per un po ', ma non sono ancora arrivato a una soluzione (né ho incontrato nessuno che avesse una soluzione).
Ecco cosa ho finora:
Per il momento, ho deciso che "l'ottimizzazione è la radice di tutti i mali", e invece
ho adottato un approccio molto diverso: decido il più possibile dalle conoscenze degli esperti sul problema in questione. Ciò in realtà consente di restringere un po 'le cose, così che spesso posso evitare il confronto tra modelli. Quando devo confrontare i modelli, cerco di essere molto aperto e chiaro ricordando alle persone l'incertezza della stima delle prestazioni e che il confronto di modelli particolarmente multipli è AFAIK ancora un problema irrisolto.
Modifica 2: test associati
Tra modelli, puoi fare confronti tra due diversi modelli (che è una massiccia situazione di confronto multiplo), non so come farlo correttamente. Tuttavia, l' abbinamento1n12( n2- n )del test si riferisce solo al fatto che poiché tutti i modelli sono testati esattamente con gli stessi casi di test, è possibile dividere i casi in casi "facili" e "difficili" da un lato, per i quali tutti i modelli arrivano ad un corretto (o previsione errata). Non aiutano a distinguere tra i modelli. D'altra parte, ci sono casi "interessanti" che sono previsti correttamente da alcuni, ma non da altri modelli. Solo questi casi "interessanti" devono essere considerati per giudicare la superiorità, né i casi "facili" né quelli "difficili" aiutano a farlo. (Ecco come capisco l'idea alla base del test di McNemar).
Per il confronto estremamente multiplo tra modelli, immagino che un problema sia che, a meno che tu non sia molto fortunato, più modelli confronterai, meno casi sarai in grado di escludere da ulteriori considerazioni: anche se tutti i modelli sono veramente uguali nei loro prestazioni complessive, diventa sempre meno probabile che un caso venga sempre previsto correttamente (o sempre erroneamente) da modelli.nnn