Sottoinsieme visivamente e chiaramente inequivocabile dell'alfabeto latino?

13

Immagina di dare a qualcuno una carta con sopra il codice "5SBDO0".

In alcuni caratteri, la lettera "S" è difficile da distinguere visivamente dal numero cinque (come con il numero zero e la lettera "O").

Leggendo il codice ad alta voce, potrebbe essere difficile distinguere "B" da "D", necessitando di dire "B come nel ragazzo", "D come nel cane" o usando invece un " alfabeto fonetico ".

Qual è il più grande sottoinsieme di lettere e numeri che, nella maggior parte dei casi, appariranno entrambi inequivocabilmente visivi e sembreranno inequivocabili quando letti ad alta voce?

Sfondo:

Vogliamo generare una breve stringa in grado di codificare il maggior numero possibile di valori pur essendo facile da comunicare.

Immagina di avere una stringa di 6 caratteri, "123456". Nella base 10 questo può codificare 10 ^ 6 valori.

Nell'esadecimale "1B23DF" puoi codificare 16 ^ 6 valori nello stesso numero di caratteri, ma questo può sembrare ambiguo quando letto ad alta voce. ("B" vs. "D")

Allo stesso modo per qualsiasi stringa di N caratteri, ottieni (dimensione dell'alfabeto) ^ N valori.

La stringa è limitata a una lunghezza di circa sei caratteri, a causa della volontà di adattarsi facilmente alla capacità della memoria di lavoro umana .

Pertanto, per trovare il numero massimo di valori che possiamo codificare, dobbiamo trovare il più grande insieme inequivocabile di lettere / numeri. Non c'è motivo per cui non possiamo considerare le lettere GZ e alcuni segni di punteggiatura comuni, ma non voglio andare manualmente a confronto in coppia "G suona come A?", "G suona come B?", "Fa G suona come C "me stesso. Come sappiamo questo sarebbe O (n ^ 2) lavoro linguistico da fare =) ...

design

— elliot42
fonte

6

Nota che le lettere pronunciate simili possono differire molto tra le lingue ...

— Michael Borgwardt,

Inoltre, che cos'è esattamente l' alfabeto latino?

— Salterio il

Vedi anche la mia risposta in una domanda StackOverflow correlata.

— Salterio il

Per la distinzione visiva, Base 32 è una codifica standard che limita le somiglianze dei simboli.

— Barjak,

@MSalters La "scrittura latina" è un'idea linguistica, per i nostri scopi intendo semplicemente "selezionare dal sottoinsieme della scrittura latina che è codificato in Unicode", ad esempio en.wikipedia.org/wiki/ISO/IEC_8859-1

— elliot42

15

Dovresti dividere l'insieme di alfanumerici in gruppi per somiglianza visiva e scegliere un rappresentante “più iconico” di ciascun gruppo. Questo è in qualche modo soggettivo, anche se è possibile eseguire test utente su di esso. Le scelte che fai dipendono anche dal fatto che le figure vengano stampate o scritte a mano. Per esempio:

{ O , 0 , Q , D }
{ I , L , 1 }
{ B , 8 }
{ Z , 2 }
{ S , 5 }
{ 7 , T }
{ U , V , Y }

Allo stesso modo, dividi i personaggi in base alla somiglianza fonetica delle pronunce dei loro nomi:

{ A [ʔeɪ], 8 [ʔeɪ (ʔ / t)]}
= inizia con [ʔeɪ]
{ P [pi:], B [bi:], V [vi:], D [di:], T [ti:], E [ʔi:]}
= stop / fricative + [i:]
{ G [ʤi:], C [si:], Z [zi:], 3 [θɹi:]}
= fricative / affricate (cluster) + [i:]
{ M [ɛm], N [ɛn]}
= [ɛ] + nasale
{ S [ɛs], F [ɛf], X [ɛks]}
= [ɛ] + fricativo / affricato
{ I [ʔaɪ], Y [waɪ], 5 [faɪv], 9 [naɪn]}
= consonante + [aɪ] + (consonante)
{ Q [kjʉ:], U [jʉ:], 2 [t (j) ʉ:]}
= consonante + [(j) ʉ:]

Queste, ovviamente, non sono le uniche partizioni possibili, ma solo ciò che viene in mente al momento. Indipendentemente da ciò, dovrebbero essere sufficienti per iniziare per ulteriori test. Inoltre, questi non sono supportati da alcuna fonte professionale: cito solo i miei background hobbistici in tipografia e fonetica.

— Jon Purdy
fonte

3

Per cominciare con la somiglianza uditiva, dai un'occhiata alle comunicazioni radio come i manuali delle operazioni di controllo del traffico aereo (dove le comunicazioni verbali devono essere interpretate correttamente o le persone muoiono) e Ham Radio. Ad esempio, 5 e 9 sono facili da confondere, quindi detti "cinque" e "nove-a"

— mattnz,

@mattnz: Grazie, ho dimenticato 5 e 9. Anche la qualità audio è un fattore determinante: radio, telefoni, registrazioni in studio e comunicazioni di persona pongono tutti i loro problemi unici.

— Jon Purdy,

1

Tecnicamente questo è "niner", quattro è "fower".

— Patrick Hughes,

3

Puoi usare Mechanical Turk per fare in modo che le persone reali valutino tutte le 26 ^ 2 coppie di lettere per somiglianza uditiva e visiva. Il vantaggio è che potresti persino ottenere dati per varie lingue native in questo modo.

— Michael Borgwardt
fonte

1

Per l'inglese, gli algoritmi soundex e Metaphone codificano quali suoni sono ambigui. Soundex è probabilmente troppo semplice, ma Metaphone incorpora alcuni punti positivi. Vuoi la sequenza "OU"? Ciò potrebbe essere pronunciato in molti modi, poiché questa frase è contraria;)

— MSalters
fonte

0

La risposta di Jon Purdy sopra sembra molto corretta. Per scopi pratici, sto provando z-base-32, una codifica base32 non standard progettata pensando alla comunicabilità. Sembra funzionale, anche se non ideale - ad esempio, non si sono esplicitamente concentrati sulla disambiguazione orale.

http://philzimmermann.com/docs/human-oriented-base-32-encoding.txt

http://pypi.python.org/pypi/zbase32/

— elliot42
fonte