Ci sono alcuni approcci che potrebbero funzionare meglio per alcune lingue rispetto ad altre. Ad esempio, soundex (e un'altra descrizione che mi piace ) è stato progettato per pronunce inglesi di nomi. Con soundex, Michael
diventa M240. Questo ha diversi passaggi:
- La prima lettera è isolata (
M
e ichael
)
- Tutte le vocali vengono rimosse dal resto (
M
e chl
)
- Le consonanti vengono sostituite
- Zeri del pad sinistro.
Il raggruppamento delle conversioni consonanti si basano sulla loro somiglianza fonetica - B
, F
, P
e V
tutto mappa per 1
.
E ci sono variazioni su questo nel tempo . È particolarmente utile nella genealogia in cui l'ortografia di un nome può cambiare nel tempo, ma la pronuncia rimane simile.
Esistono anche approcci come il rating delle partite sviluppato dalle compagnie aeree per i nomi (piuttosto che per la genealogia americana).
La codifica dell'approccio di classificazione delle partite (MRA) è:
- Elimina tutte le vocali non guida (
Michael
diventa Mchl
e Anthony
diventa Anthny
)
- Rimuovere la seconda costante di tutti i doppi
- Se la stringa è più lunga di 6 caratteri, riduci la stringa rimanente a 6 caratteri prendendo i primi tre e gli ultimi tre.
La specifica completa per questo può essere trovata su archive.org - nota che non è "piccola" (il modulo stampato è di 214 pagine).
I confronti hanno una soglia corrispondente in base alla durata del testo.
Esistono anche altri algoritmi fonetici .
Quindi, ciò che ti incoraggio a fare è prendere il soundex così com'è, adottare l'approccio di valutazione della partita così com'è, o modificare il soundex in base alle consonanti rumene e alle consonanti polacche .
Ricorda che con soundex, le consonanti sono raggruppati (in polacco, m
, n
, ɲ
sono tutte consonanti nasali per essere raggruppati, e si sarebbe probabilmente raggruppare le occlusive labiali, dentali, e alveolari - siano essi senza voce o espresso insieme - scontato, non lo faccio conosci il polacco quindi non so se sto solo dicendo cose che non sono vere lì).
Quindi converti tutti i nomi nel database nei due diversi sistemi soundex e scopri quali nomi hanno il minor numero di collisioni nelle diverse lingue. Questo ti dà nomi distinti. In modo che Smith
non si presenti come Smyth
.
Questo, tuttavia, risolve solo il "nome che probabilmente si scontrerà con altri nomi e sarà meschino". Non si rivolge all'altro modo del "nome ascoltato correttamente, scritto in modo errato" e per questo, si dovrebbe focalizzare la propria attenzione su nomi comuni.
Ad esempio, Michael
era un nome molto comune negli Stati Uniti dall'inizio del 1950 alla fine del 1970. Era molto popolare . Tuttavia, per qualche motivo, il nome Micheal
era abbastanza popolare negli anni '50 (arrivò all'83esimo nome più comune al suo apice). E sono certo che le persone nominate Micheal
ottengano costantemente errori di ortografia.
Pertanto, dovresti concentrarti sui nomi in cui esiste un nome che domina la popolarità del nome per una determinata pronuncia. Guardando un altro consumatore di dati per i nomi per anno, si può vedere che i nomi che iniziano con marmellata ... per un ragazzo sono un disastro con Jamaal
, Jamal
, Jamar
e altri. Per inciso, questi nomi hanno suoni sonori leggermente diversi per American ( J540
, J540
e J560
- the l
e r
sono in gruppi diversi anche se sono strettamente correlati in fonetica). Tuttavia, per qualcuno originario del Giappone, esiste un solo suono nella regione fonetica in cui l
er
sono pronunciati in inglese americano. Ciò può anche rappresentare una sfida per le principali consonanti che usano soundex di cui si dovrebbe essere consapevoli (una volta ho lavorato con una donna giapponese che si chiamava Risa (con una "R") piuttosto che Lisa come romanizzazione del suo nome giapponese).
Noterai che i miei esempi sono per gli Stati Uniti. Tali dati sono facilmente accessibili. Apparentemente ci sono alcune cose per la Polonia e l' ungherese , e suggerisce solo la comunanza dei nomi ungheresi ... Ho il sospetto che la ricerca in una lingua diversa dall'inglese possa essere utile lì.
Quindi, dato il soundex per un nome, poche collisioni e l'ortografia reale è nell'insieme delle collisioni. Preferibilmente, questo è un nome comune. Guardando quella lista ungherese, andare avanti Krisztián
probabilmente otterrebbe errori di ortografia mentre, Zoltán
meno probabilmente così (il nome di bambino n. 22 più comune nel 2011 in Ungheria!). Detto questo, non puoi sbagliare Michael
.