L'aggancio è spesso usato come sinonimo di validazione con set di test indipendenti, sebbene vi siano differenze cruciali tra la suddivisione casuale dei dati e la progettazione di un esperimento di validazione per test indipendenti.
È possibile utilizzare set di test indipendenti per misurare le prestazioni di generalizzazione che non possono essere misurate mediante ricampionamento o validazione del controllo, ad esempio le prestazioni per casi futuri sconosciuti (= casi misurati in seguito, al termine dell'allenamento). Questo è importante per sapere per quanto tempo un modello esistente può essere utilizzato per nuovi dati (si pensi ad esempio alla deriva dello strumento). Più in generale, ciò può essere descritto come misurazione delle prestazioni di estrapolazione al fine di definire i limiti di applicabilità.
Un altro scenario in cui l'aggancio può effettivamente essere utile è: è molto facile garantire che i dati di addestramento e test siano adeguatamente separati - molto più facile rispetto alla validazione del ricampionamento: ad es.
- decidere di dividere (ad es. fare assegnazione casuale di casi)
- misurare
- i dati di misurazione e di riferimento dei casi di addestramento => modellazione \ né le misurazioni né il riferimento dei casi di test vengono consegnati alla persona che modella.
- modello finale + misure dei casi considerati => previsione
- confrontare le previsioni con i riferimenti per i casi risolti.
A seconda del livello di separazione necessario, ogni passaggio può essere eseguito da qualcun altro. Come primo livello, non consegnare al modellatore alcun dato (nemmeno le misurazioni) dei casi di test consente di essere certi che nessun dato di test fuoriesca nel processo di modellazione. A un secondo livello, le misure del modello finale e del test case potrebbero essere consegnate a qualcun altro, e così via.
Sì, paghi per questo grazie alla minore efficienza delle stime di controllo rispetto alla convalida del ricampionamento. Ma ho visto molti articoli in cui sospetto che la convalida del ricampionamento non separa correttamente i casi (nel mio campo abbiamo molti dati raggruppati / gerarchici / raggruppati).
Ho imparato la mia lezione sulle perdite di dati per il ricampionamento ritirando un manoscritto una settimana dopo l'invio quando ho scoperto di avere una perdita non rilevata in precedenza (eseguendo test di permutazione a fianco) nella mia procedura di suddivisione (errore di battitura nel calcolo dell'indice).
A volte l'aggancio può essere più efficace della ricerca di qualcuno disposto a prendere il tempo necessario per controllare il codice di ricampionamento (ad esempio per i dati raggruppati) al fine di ottenere lo stesso livello di certezza sui risultati. Tuttavia, IMHO di solito non è efficiente farlo prima di essere nella fase in cui è comunque necessario misurare, ad esempio, le prestazioni future (primo punto) - in altre parole, quando è comunque necessario impostare un esperimento di convalida per il modello esistente.
OTOH, in situazioni di dimensioni di campione ridotte, l'aggancio non è un'opzione: è necessario tenere abbastanza casi di test in modo che i risultati del test siano abbastanza precisi da consentire la conclusione necessaria (ricordare: 3 casi di test su 3 corretti per la classificazione significa un intervallo di confidenza binomiale del 95% che varia ben al di sotto di 50:50 indovinando!) Frank Harrell indicherebbe la regola empirica che almeno ca. Sono necessari 100 casi (di prova) per misurare correttamente una proporzione [come la frazione di casi correttamente previsti] con una precisione utile.
Aggiornamento: ci sono situazioni in cui una divisione corretta è particolarmente difficile da ottenere e la convalida incrociata diventa irrealizzabile. Considera un problema con un numero di confonditori. La divisione è facile se questi confonditori sono nidificati rigorosamente (ad esempio, uno studio con un numero di pazienti ha diversi campioni di ciascun paziente e analizza un numero di cellule di ciascun campione): si divide al livello più alto della gerarchia di campionamento (dal punto di vista del paziente) . Ma potresti avere confonditori indipendenti che non sono nidificati, ad esempio variazioni giornaliere o varianze causate da diversi sperimentatori che eseguono il test. È quindi necessario assicurarsi che la divisione sia indipendente per tutticonfonditori al livello più alto (i confonditori nidificati saranno automaticamente indipendenti). Prendersi cura di questo è molto difficile se alcuni confonditori vengono identificati solo durante lo studio e la progettazione e l'esecuzione di un esperimento di validazione possono essere più efficienti del trattare con divisioni che non lasciano quasi nessun dato né per la formazione né per il test dei modelli surrogati.