Nota: il caso è n >> p
Sto leggendo Elements of Statistical Learning e ci sono varie menzioni sul modo "giusto" di fare la validazione incrociata (es. Pagina 60, pagina 245). In particolare, la mia domanda è come valutare il modello finale (senza un set di test separato) usando k-fold CV o bootstrap quando c'è stata una ricerca del modello? Sembra che nella maggior parte dei casi (algoritmi ML senza selezione di funzionalità incorporate) ci saranno
- Una fase di selezione delle funzionalità
- Una fase di selezione dei meta parametri (ad es. Il parametro di costo in SVM).
Le mie domande:
- Ho visto che la fase di selezione delle funzioni può essere eseguita laddove la selezione delle funzioni viene eseguita sull'intero set di allenamento e tenuta da parte. Quindi, usando il CV di k-fold, l'algoritmo di selezione delle caratteristiche viene usato in ogni piega (ottenendo ogni volta diverse caratteristiche eventualmente scelte) e la media dell'errore. Quindi, useresti le funzionalità scelte usando tutti i dati (che erano stati messi da parte) per addestrare la modalità finale, ma avresti usato l'errore della validazione incrociata come stima delle prestazioni future del modello. È CORRETTO?
- Quando si utilizza la convalida incrociata per selezionare i parametri del modello, quindi come stimare le prestazioni del modello in seguito? È LO STESSO PROCESSO N ° 1 SOPRA O DOVREBBE UTILIZZARE IL CV NIDATO COME VISUALIZZATO A PAGINA 54 ( pdf ) O QUALCOSA ALTRO?
- Quando si eseguono entrambi i passaggi (impostazione di funzionalità e parametri) ..... quindi cosa si fa? loop nidificati complessi?
- Se si dispone di un campione di controllo separato, la preoccupazione scompare e è possibile utilizzare la convalida incrociata per selezionare funzionalità e parametri (senza preoccupazioni poiché la stima delle prestazioni verrà da un set di controllo)?