Sto lavorando al documento Cho 2014 che ha introdotto l'architettura encoder-decoder per la modellazione seq2seq.
Nel documento, sembrano usare la probabilità dell'input dato input (o è la probabilità di log negativo) come funzione di perdita per un input di lunghezza M e output y di lunghezza N :
Tuttavia, penso di vedere diversi problemi con l'utilizzo di questo come una funzione di perdita:
- Sembra presupporre la forzatura dell'insegnante durante l'allenamento (ovvero, invece di utilizzare la congettura del decodificatore per una posizione come input per la successiva iterazione, utilizza il token noto.
- Non penalizzerebbe lunghe sequenze. Poiché la probabilità è compresa tra e N dell'uscita, se il decodificatore generasse una sequenza più lunga tutto dopo il primo N non determinerebbe la perdita.
- Se il modello prevede un token di fine stringa precoce, la funzione di perdita richiede ancora passaggi, il che significa che stiamo generando output basati su un "collettore" non addestrato dei modelli. Sembra sciatto.
Qualcuno di questi dubbi è valido? In tal caso, ci sono stati progressi in una funzione di perdita più avanzata?