Nella tua esperienza quali caratteri Unicode, punti di codice, intervalli al di fuori del BMP (Basic Multilingual Plane) sono i più comuni finora? Questi sono quelli che richiedono 4 byte in UTF-8 o surrogati in UTF-16.
Mi sarei aspettato che la risposta fossero caratteri cinesi e giapponesi usati nei nomi ma non inclusi nei set di caratteri multibyte CJK più diffusi, ma sul progetto su cui lavoro di più, il Wikizionario inglese, abbiamo scoperto che l' alfabeto gotico è molto più comune finora.
AGGIORNARE
Ho scritto un paio di strumenti software per scansionare intere Wikipedie alla ricerca di caratteri non BMP e ho scoperto con mia sorpresa che anche l'alfabeto gotico di Wikipedia giapponese è il più comune. Questo è vero anche nella Wikipedia cinese, ma c'erano anche molti caratteri cinesi usati fino a 50 o 70 volte, inclusi "𨭎", "𠬠" e "𩷶".