Qual è la migliore funzione di costo per formare una rete neurale per eseguire la regressione ordinale , ovvero prevedere un risultato il cui valore esiste su una scala arbitraria in cui è significativo solo l'ordinamento relativo tra valori diversi (ad esempio: prevedere quale dimensione del prodotto ordinerà un cliente : 'small' (codificato come 0), 'medium' (codificato come 1), 'large' (codificato come 2) o 'extra-large' (codificato come 3))? Sto cercando di capire se ci sono alternative migliori della perdita quadratica (modellando il problema come regressione "vaniglia") o della perdita di entropia (modellando il problema come classificazione).