Supponiamo che io voglia imparare un classificatore che accetta un vettore di numeri come input e fornisce un'etichetta di classe come output. I miei dati di allenamento consistono in un gran numero di coppie input-output.
Tuttavia, quando vengo a provare alcuni nuovi dati, questi dati sono in genere solo parzialmente completi. Ad esempio se il vettore di input ha una lunghezza di 100, solo 30 degli elementi potrebbero ricevere valori e il resto è "sconosciuto".
A titolo di esempio, considerare il riconoscimento dell'immagine laddove è noto che parte dell'immagine è occlusa. Oppure considera la classificazione in senso generale in cui è noto che parte dei dati è corrotta. In tutti i casi, so esattamente quali elementi nel vettore dei dati sono le parti sconosciute.
Mi chiedo come posso imparare un classificatore che funzionerebbe per questo tipo di dati? Potrei semplicemente impostare gli elementi "sconosciuti" su un numero casuale, ma dato che spesso ci sono più elementi sconosciuti di quelli noti, questa non suona come una buona soluzione. Oppure, potrei cambiare casualmente gli elementi nei dati di allenamento in "sconosciuto" e allenarmi con questi piuttosto che con i dati completi, ma ciò potrebbe richiedere un campionamento esaustivo di tutte le combinazioni di elementi noti e sconosciuti.
In particolare, sto pensando alle reti neurali, ma sono aperto ad altri classificatori.
Qualche idea? Grazie!