Sulla base dei commenti che ho ricevuto, ho approfondito ulteriormente la questione. Sembra che attualmente la migliore pratica sia quella di rinunciare all'utilizzo di entità HTML e utilizzare invece il carattere UTF-8 effettivo . I motivi elencati sono i seguenti:
- Le codifiche UTF-8 sono più facili da leggere e modificare per coloro che comprendono il significato del carattere e sanno come digitarlo.
- Le codifiche UTF-8 sono altrettanto incomprensibili delle codifiche di entità HTML per coloro che non le capiscono, ma hanno il vantaggio di essere visualizzate come caratteri speciali piuttosto che difficili da comprendere codifiche decimali o esadecimali.
Finché la codifica della tua pagina è impostata correttamente su UTF-8, dovresti utilizzare il carattere effettivo invece di un'entità HTML. Ho letto diversi documenti su questo argomento, ma i più utili sono stati:
Dal UTF-8: Il Segreto di codifica dei caratteri articolo:
Wikipedia è un ottimo caso di studio per un'applicazione che originariamente utilizzava ISO-8859-1 ma è passata a UTF-8 quando è diventato troppo macchinoso per supportare le lingue straniere. I robot ora esamineranno effettivamente gli articoli e convertiranno le entità dei personaggi nei loro corrispondenti personaggi reali per motivi di facilità d'uso e ricercabilità .
L'articolo fornisce anche un bell'esempio sulla codifica cinese. Ecco l'esempio abbreviato per amore della pigrizia:
UTF-8:
這兩個字是甚麼意思
Entità HTML :
這兩個字是甚麼意思
Le codifiche delle entità UTF-8 e HTML sono entrambe prive di significato per me, ma almeno la codifica UTF-8 è riconoscibile come lingua straniera e verrà visualizzata correttamente in una casella di modifica. L'articolo prosegue dicendo quanto segue sulla versione HTML con codifica entità:
Estremamente scomodo per quelli di noi che sanno davvero cosa sono le entità dei personaggi, totalmente incomprensibili ai poveri utenti che non lo sanno! Anche le entità carattere leggermente più user-friendly e "intelligibili" come & theta; lascerà gli utenti che non sono interessati all'apprendimento dell'HTML a grattarsi la testa. D'altra parte, se vedono θ in una casella di modifica, sapranno che è un carattere speciale e lo tratteranno di conseguenza, anche se non sanno come scrivere quel personaggio da soli.
Come altri hanno notato, devi ancora utilizzare le entità HTML per i caratteri XML riservati (e commerciale, minore di, maggiore di).