Penso che un'ipotesi di base dell'apprendimento automatico o della stima dei parametri sia che i dati invisibili provengano dalla stessa distribuzione dell'insieme di formazione. Tuttavia, in alcuni casi pratici, la distribuzione del set di test sarà quasi diversa dal set di training.
Supponiamo che si tratti di un problema di multi-classificazione su larga scala che tenta di classificare le descrizioni dei prodotti in circa 17.000 classi. Il set di addestramento avrà priori di classe molto distorti, in modo tale che alcune classi potrebbero avere molti esempi di addestramento, ma alcuni potrebbero averne solo alcuni. Supponiamo che ci venga fornito un set di test con etichette di classe sconosciute da un client. Cerchiamo di classificare ogni prodotto nel set di test in una delle 17.000 classi, utilizzando il classificatore addestrato sul set di addestramento. Il set di test avrebbe probabilmente distribuito le classi in modo distorto ma probabilmente molto diverso da quello del set di formazione, poiché potrebbero essere correlati a diverse aree di business. Se le distribuzioni delle due classi sono molto diverse, il classificatore addestrato potrebbe non funzionare bene nel set di test. Ciò sembra particolarmente ovvio con il classificatore Naive Bayes.
Esiste un modo di principio per gestire la differenza tra il set di addestramento e un determinato set di test per i classificatori probabilistici? Ho sentito che "SVM transduttiva" fa qualcosa di simile in SVM. Esistono tecniche simili per apprendere un classificatore che funziona meglio su un determinato set di test? Quindi possiamo riqualificare il classificatore per diversi set di test dati, come è consentito in questo scenario pratico.