Lo standard Unicode ha un numero sufficiente di punti di codice da richiedere 4 byte per memorizzarli tutti. Questo è ciò che fa la codifica UTF-32. Eppure la codifica UTF-8 in qualche modo li comprime in spazi molto più piccoli usando qualcosa chiamato "codifica a larghezza variabile".
In effetti, riesce a rappresentare i primi 127 caratteri di US-ASCII in un solo byte che assomiglia esattamente al vero ASCII, quindi puoi interpretare un sacco di testo ASCII come se fosse UTF-8 senza farci nulla. Trucco pulito. Quindi, come funziona?
Chiederò e risponderò alla mia domanda qui perché ho appena letto un po 'per capirlo e ho pensato che potrebbe far risparmiare tempo a qualcun altro. In più forse qualcuno può correggermi se ho sbagliato qualcosa.