Esistono buoni motivi per preferire i valori binari (0/1) rispetto ai valori normalizzati discreti o continui , ad esempio (1; 3), come input per una rete feedforward per tutti i nodi di input (con o senza backpropagation)?
Certo, sto solo parlando di input che potrebbero essere trasformati in entrambe le forme; ad esempio, quando si dispone di una variabile che può assumere diversi valori, sia alimentarli direttamente come valore di un nodo di input, sia formare un nodo binario per ciascun valore discreto. E il presupposto è che l'intervallo di valori possibili sarebbe lo stesso per tutti i nodi di input. Vedi le foto per un esempio di entrambe le possibilità.
Durante la ricerca su questo argomento, non sono riuscito a trovare fatti concreti su questo; mi sembra che - più o meno - sarà sempre "prova ed errore" alla fine. Naturalmente, i nodi binari per ogni valore di input discreto significano più nodi di layer di input (e quindi più nodi di layer nascosti), ma produrrebbe davvero una migliore classificazione di output rispetto agli stessi valori in un nodo, con una funzione di soglia ben adattata in lo strato nascosto?
Saresti d'accordo sul fatto che si tratta solo di "provare a vedere" o hai un'altra opinione al riguardo?