Una distinzione fondamentale è se si desidera:
- [Caso più comune]: costruisci una stima delle prestazioni su nuovi soggetti (tratto dalla stessa popolazione dei tuoi dati).
- Costruisci una stima delle prestazioni su nuove osservazioni degli stessi argomenti del tuo campione.
Il caso molto più comune è il numero del caso (1). Ad esempio, quanto prevedi gli attacchi di cuore per qualcuno che sta arrivando al pronto soccorso? E se sei nel caso (1), quasi certamente dovresti fare (a) la validazione incrociata per soggetto piuttosto che (b) la validazione incrociata per record. Fare una validazione da record nel caso (1) probabilmente porterà a stime incredibilmente alte e fasulle delle prestazioni su nuovi argomenti.
Non capisco esattamente cosa stai cercando di fare (e forse è uno studio autonomo, quindi la domanda non è del tutto realistica). Non so in quale caso ti trovi. Se sei nel caso molto meno comune (2), la validazione da record potrebbe essere ok.
Un tema generale in statistica è riflettere attentamente su ciò che è indipendente e ciò che è correlato. In generale, un'osservazione indipendente tende ad essere un argomento diverso. Se si desidera prevedere le prestazioni su nuovi argomenti, è necessario testare su argomenti su cui non si è allenato!
Perché la convalida incrociata per soggetto anziché per record?
Nelle impostazioni tipiche, le osservazioni ripetute dello stesso individuo sono correlate tra loro anche dopo aver condizionato le caratteristiche. Quindi, con una validazione incrociata da record, il tuo set di test non è indipendente dal tuo set di allenamento! Nel caso estremo della perfetta correlazione, avresti le stesse identiche osservazioni nel set di allenamento e nel set di test! Ti allenerai sul set di test! Le prestazioni misurate nella convalida incrociata non sarebbero predittive delle prestazioni su nuovi soggetti.
Ad esempio, questo recente documento chiama la convalida incrociata record-saggia, `` Voodoo Machine Learning ''.
Cosa fare con così pochi argomenti ...
Forse alcuni commentatori più esperti di convalida incrociata di me potrebbero entrare, ma per me questo sembra un possibile candidato per (ovvero tralasciare una convalida incrociata)?k=n
Per massimizzare i dati per la formazione, qualcosa che potresti fare è lasciare fuori un argomento per la convalida incrociata. Ogni iterazione, prova su un argomento diverso e allenati su tutti gli altri.
Se i soggetti sono tutti molto diversi, è possibile che tu abbia effettivamente vicino a e potresti voler inserire altrettanti soggetti indipendenti nel set di addestramento.n=38