Non so se questo si qualifica come un commento o come una risposta. Sto mettendo qui perché sembra una risposta.
Nella k-fold cross-validation stai partizionando i tuoi dati in k gruppi. Se stai coprendo anche le "basi", stai selezionando casualmente i membri in modo casuale per ciascuno dei k bin.
Quando parlo di dati, penso a ciascuna riga come a un campione e ogni colonna a una dimensione. Sono abituato a usare vari metodi per determinare l'importanza variabile, l'importanza della colonna.
E se tu, come esercizio di pensiero, ti allontanassi dall'uniforme del "libro di testo" e stabilissi quali file fossero importanti? Forse informano una singola variabile alla volta, ma forse informano di più. Ci sono alcune file che sono meno importanti di altre? Forse molti dei punti sono informativi, forse pochi lo sono.
Conoscendo l'importanza della variabile, forse potresti rimuoverle per importanza. Forse potresti creare un singolo cestino con i campioni più importanti. Questo potrebbe definire la dimensione della tua "k". In questo modo, determineresti il kth bucket "più informativo" e lo confronterai con gli altri e con il bucket meno informativo.
Questo potrebbe darti un'idea della variazione massima dei parametri del tuo modello. È solo una forma.
Un secondo modo di dividere i secchi del kth è la grandezza e la direzione dell'influenza. Quindi è possibile inserire in un bucket diversi campioni che oscillano un parametro o parametri in una direzione e inserire campioni che oscillano nello stesso parametro o parametri nella direzione opposta.
La variazione dei parametri in questo modulo potrebbe fornire una più ampia scansione delle variabili, basata non sulla densità delle informazioni, ma sulla generazione delle informazioni.
Buona fortuna.