Dopo aver letto di nuovo questa domanda, posso darti il seguente limite:
B1 - δ
E[E(h)]≤E^(h)+Blog1δ2m−−−−−√
m1−δ
mE[E(h)]E^(h)
Si prega di non segnalare solo l'errore di convalida incrociata né l'errore di test, quelli non hanno senso in generale poiché sono solo stime puntuali.
Vecchio post per la cronaca:
Non sono sicuro di aver compreso completamente la tua domanda, ma mi prenderò una mano.
Innanzitutto, non sono sicuro di come definire un intervallo di previsione per la selezione del modello, poiché, a quanto ho capito, gli intervalli di previsione fanno alcune ipotesi distributive. Invece, potresti ricavare disuguaglianze di concentrazione, che essenzialmente legano una variabile casuale alla sua varianza per una certa probabilità. Le disuguaglianze di concentrazione vengono utilizzate durante l'apprendimento automatico, inclusa la teoria avanzata per il potenziamento. In questo caso si desidera limitare l'errore di generalizzazione (errore in generale, punti che non si sono visti) al proprio errore empirico (errore sul set di test) più un termine di complessità e un termine relativo alla varianza.
Ora devo dissipare un malinteso sulla convalida incrociata che è estremamente comune. La convalida incrociata ti fornirà solo una stima imparziale dell'errore atteso di un modello PER UNA DIMENSIONE DEL CAMPIONE FISSO. La prova di ciò funziona solo con il protocollo di uscita one out. Questo è in realtà abbastanza debole, poiché non fornisce informazioni sulla varianza. D'altra parte, la convalida incrociata restituirà un modello vicino alla soluzione di minimizzazione del rischio strutturale, che è la soluzione teoricamente migliore. Puoi trovare la prova nell'appendice qui: http://www.cns.nyu.edu/~rabadi/resources/scat-150519.pdf
Quindi, come derivare un limite di generalizzazione? (Ricorda che un limite di generalizzazione è sostanzialmente un intervallo di previsione sull'errore di generalizzazione per un modello specifico). Bene, questi limiti sono specifici dell'algoritmo. Sfortunatamente esiste un solo libro di testo che pone limiti a tutti gli algoritmi comunemente usati nell'apprendimento automatico (incluso il potenziamento). Il libro è Foundations of Machine Learning (2012) di Mohri, Rostamizadeh e Talwalkar. Per le diapositive delle lezioni che trattano il materiale, puoi trovarle sulla pagina Web di Mohri: http://www.cs.nyu.edu/~mohri/ml14/
Sebbene Elements of Statistical Learning sia un libro importante e piuttosto utile, non è molto rigoroso e omette molti dettagli tecnici molto importanti riguardanti gli algoritmi e omette completamente qualsiasi tipo di limite di generalizzazione. Fondamenti di Machine Learning è il libro più completo per l'apprendimento automatico (che ha senso vedere come è stato scritto da alcuni dei migliori nel campo). Tuttavia, il libro di testo è avanzato, quindi fai attenzione ai dettagli tecnici.
La generalizzazione destinata al potenziamento può essere trovata (con prova) qui: http://www.cs.nyu.edu/~mohri/mls/lecture_6.pdf
Spero che siano sufficienti indicazioni per rispondere alla tua domanda. Sono titubante nel dare una risposta completa perché ci vorranno circa 50 pagine per esaminare tutti i dettagli necessari, per non parlare delle discussioni preliminari ...
In bocca al lupo!