Si scusa per l'uso improprio di termini tecnici. Sto lavorando a un progetto di segmentazione semantica tramite reti neurali convoluzionali (CNN); cercando di implementare un'architettura di tipo Encoder-Decoder, quindi l'output ha le stesse dimensioni dell'input.
Come si progettano le etichette? Quale funzione di perdita si dovrebbe applicare? Soprattutto nella situazione di forte squilibrio di classe (ma il rapporto tra le classi è variabile da immagine a immagine).
Il problema riguarda due classi (oggetti di interesse e sfondo). Sto usando Keras con il backend tensorflow.
Finora, sto progettando che gli output previsti abbiano le stesse dimensioni delle immagini di input, applicando un'etichettatura pixel-saggia. Il livello finale del modello ha l'attivazione softmax (per 2 classi) o l'attivazione sigmoid (per esprimere la probabilità che i pixel appartengano alla classe degli oggetti). Ho problemi con la progettazione di una funzione oggettiva adatta per tale compito, di tipo:
function(y_pred,y_true)
,
in accordo con Keras .
Cerca di essere specifico con le dimensioni dei tensori coinvolti (input / output del modello). Eventuali pensieri e suggerimenti sono molto apprezzati. Grazie !