Rimuovi i segni diacritici (ń ǹ ň ñ ṅ ņ ṇ ṋ ṉ ̈ ɲ ƞ ᶇ ɳ ȵ) dai caratteri Unicode

Question 1

Sto cercando un algoritmo in grado di mappare tra i caratteri con segni diacritici ( tilde , circonflesso , accento circonflesso , dieresi , caron ) e il loro carattere "semplice".

Per esempio:

ń  ǹ  ň  ñ  ṅ  ņ  ṇ  ṋ  ṉ  ̈  ɲ  ƞ ᶇ ɳ ȵ  --> n
á --> a
ä --> a
ấ --> a
ṏ --> o

Eccetera.

Voglio farlo in Java, anche se sospetto che dovrebbe essere qualcosa di Unicode-y e dovrebbe essere fattibile ragionevolmente facilmente in qualsiasi lingua.
Scopo: per consentire una facile ricerca di parole con segni diacritici. Ad esempio, se ho un database di giocatori di tennis e viene inserito Björn_Borg, terrò anche Bjorn_Borg in modo da poterlo trovare se qualcuno inserisce Bjorn e non Björn.

Question 2

L'ho fatto di recente in Java:

public static final Pattern DIACRITICS_AND_FRIENDS
    = Pattern.compile("[\\p{InCombiningDiacriticalMarks}\\p{IsLm}\\p{IsSk}]+");

private static String stripDiacritics(String str) {
    str = Normalizer.normalize(str, Normalizer.Form.NFD);
    str = DIACRITICS_AND_FRIENDS.matcher(str).replaceAll("");
    return str;
}

Questo farà come hai specificato:

stripDiacritics("Björn")  = Bjorn

ma fallirà, ad esempio, su Białystok, perché il łcarattere non è diacritico.

Se vuoi avere un semplificatore di stringhe in piena regola, avrai bisogno di un secondo round di pulizia, per alcuni caratteri più speciali che non sono segni diacritici. È questa mappa, ho incluso i caratteri speciali più comuni che compaiono nei nomi dei nostri clienti. Non è un elenco completo, ma ti darà l'idea di come estenderlo. ImmutableMap è solo una semplice classe di google-collections.

public class StringSimplifier {
    public static final char DEFAULT_REPLACE_CHAR = '-';
    public static final String DEFAULT_REPLACE = String.valueOf(DEFAULT_REPLACE_CHAR);
    private static final ImmutableMap<String, String> NONDIACRITICS = ImmutableMap.<String, String>builder()

        //Remove crap strings with no sematics
        .put(".", "")
        .put("\"", "")
        .put("'", "")

        //Keep relevant characters as seperation
        .put(" ", DEFAULT_REPLACE)
        .put("]", DEFAULT_REPLACE)
        .put("[", DEFAULT_REPLACE)
        .put(")", DEFAULT_REPLACE)
        .put("(", DEFAULT_REPLACE)
        .put("=", DEFAULT_REPLACE)
        .put("!", DEFAULT_REPLACE)
        .put("/", DEFAULT_REPLACE)
        .put("\\", DEFAULT_REPLACE)
        .put("&", DEFAULT_REPLACE)
        .put(",", DEFAULT_REPLACE)
        .put("?", DEFAULT_REPLACE)
        .put("°", DEFAULT_REPLACE) //Remove ?? is diacritic?
        .put("|", DEFAULT_REPLACE)
        .put("<", DEFAULT_REPLACE)
        .put(">", DEFAULT_REPLACE)
        .put(";", DEFAULT_REPLACE)
        .put(":", DEFAULT_REPLACE)
        .put("_", DEFAULT_REPLACE)
        .put("#", DEFAULT_REPLACE)
        .put("~", DEFAULT_REPLACE)
        .put("+", DEFAULT_REPLACE)
        .put("*", DEFAULT_REPLACE)

        //Replace non-diacritics as their equivalent characters
        .put("\u0141", "l") // BiaLystock
        .put("\u0142", "l") // Bialystock
        .put("ß", "ss")
        .put("æ", "ae")
        .put("ø", "o")
        .put("©", "c")
        .put("\u00D0", "d") // All Ð ð from http://de.wikipedia.org/wiki/%C3%90
        .put("\u00F0", "d")
        .put("\u0110", "d")
        .put("\u0111", "d")
        .put("\u0189", "d")
        .put("\u0256", "d")
        .put("\u00DE", "th") // thorn Þ
        .put("\u00FE", "th") // thorn þ
        .build();


    public static String simplifiedString(String orig) {
        String str = orig;
        if (str == null) {
            return null;
        }
        str = stripDiacritics(str);
        str = stripNonDiacritics(str);
        if (str.length() == 0) {
            // Ugly special case to work around non-existing empty strings
            // in Oracle. Store original crapstring as simplified.
            // It would return an empty string if Oracle could store it.
            return orig;
        }
        return str.toLowerCase();
    }

    private static String stripNonDiacritics(String orig) {
        StringBuffer ret = new StringBuffer();
        String lastchar = null;
        for (int i = 0; i < orig.length(); i++) {
            String source = orig.substring(i, i + 1);
            String replace = NONDIACRITICS.get(source);
            String toReplace = replace == null ? String.valueOf(source) : replace;
            if (DEFAULT_REPLACE.equals(lastchar) && DEFAULT_REPLACE.equals(toReplace)) {
                toReplace = "";
            } else {
                lastchar = toReplace;
            }
            ret.append(toReplace);
        }
        if (ret.length() > 0 && DEFAULT_REPLACE_CHAR == ret.charAt(ret.length() - 1)) {
            ret.deleteCharAt(ret.length() - 1);
        }
        return ret.toString();
    }

    /*
    Special regular expression character ranges relevant for simplification -> see http://docstore.mik.ua/orelly/perl/prog3/ch05_04.htm
    InCombiningDiacriticalMarks: special marks that are part of "normal" ä, ö, î etc..
        IsSk: Symbol, Modifier see http://www.fileformat.info/info/unicode/category/Sk/list.htm
        IsLm: Letter, Modifier see http://www.fileformat.info/info/unicode/category/Lm/list.htm
     */
    public static final Pattern DIACRITICS_AND_FRIENDS
        = Pattern.compile("[\\p{InCombiningDiacriticalMarks}\\p{IsLm}\\p{IsSk}]+");


    private static String stripDiacritics(String str) {
        str = Normalizer.normalize(str, Normalizer.Form.NFD);
        str = DIACRITICS_AND_FRIENDS.matcher(str).replaceAll("");
        return str;
    }
}

Question 3

Il pacchetto principale java.text è stato progettato per affrontare questo caso d'uso (corrispondenza di stringhe senza preoccuparsi di segni diacritici, maiuscole e minuscole, ecc.).

Configura a Collatorper ordinare le PRIMARYdifferenze nei caratteri. Con questo, crea un CollationKeyper ogni stringa. Se tutto il codice è in Java, puoi utilizzare CollationKeydirettamente il file. Se è necessario memorizzare le chiavi in un database o in un altro tipo di indice, è possibile convertirlo in un array di byte .

Queste classi utilizzano i dati di piegatura dei casi standard Unicode per determinare quali caratteri sono equivalenti e supportano varie strategie di scomposizione .

Collator c = Collator.getInstance();
c.setStrength(Collator.PRIMARY);
Map<CollationKey, String> dictionary = new TreeMap<CollationKey, String>();
dictionary.put(c.getCollationKey("Björn"), "Björn");
...
CollationKey query = c.getCollationKey("bjorn");
System.out.println(dictionary.get(query)); // --> "Björn"

Notare che i raccoglitori sono specifici della locale. Questo perché "l'ordine alfabetico" è diverso tra le lingue (e anche nel tempo, come nel caso dello spagnolo). La Collatorclasse ti solleva dal dover tenere traccia di tutte queste regole e tenerle aggiornate.

Question 4

Fa parte di Apache Commons Lang a partire dalla ver. 3.1.

org.apache.commons.lang3.StringUtils.stripAccents("Añ");

ritorna An

Question 5

Puoi usare la classe Normalizer da java.text:

System.out.println(new String(Normalizer.normalize("ń ǹ ň ñ ṅ ņ ṇ ṋ", Normalizer.Form.NFKD).getBytes("ascii"), "ascii"));

Ma c'è ancora del lavoro da fare, poiché Java fa cose strane con caratteri Unicode non convertibili (non li ignora e non genera un'eccezione). Ma penso che potresti usarlo come punto di partenza.

Question 6

C'è una bozza di rapporto sul piegamento dei personaggi sul sito web di Unicode che contiene molto materiale pertinente. Vedere in particolare la sezione 4.1. "Algoritmo di piegatura".

Ecco una discussione e implementazione della rimozione dei segni diacritici utilizzando Perl.

Queste domande SO esistenti sono correlate:

Question 7

Tieni presente che non tutti questi segni sono solo "segni" su un carattere "normale", che puoi rimuovere senza cambiare il significato.

In svedese, å ä e ö sono veri e propri caratteri di prima classe, non una "variante" di qualche altro carattere. Hanno un suono diverso da tutti gli altri personaggi, hanno un ordinamento diverso e fanno cambiare significato alle parole ("mätt" e "matt" sono due parole diverse).

Question 8

Unicode ha caratteri diatrici specifici (che sono caratteri compositi) e una stringa può essere convertita in modo che il carattere e il diatrico siano separati. Quindi, puoi semplicemente rimuovere i diatricts dalla stringa e il gioco è fatto.

Per ulteriori informazioni su normalizzazione, decomposizioni ed equivalenza, vedere The Unicode Standard nella home page di Unicode .

Tuttavia, il modo in cui puoi effettivamente ottenere ciò dipende dal framework / OS / ... su cui stai lavorando. Se stai usando .NET, puoi usare il metodo String.Normalize che accetta l' enumerazione System.Text.NormalizationForm .

Question 9

Il modo più semplice (per me) sarebbe semplicemente mantenere un array di mappatura sparsa che cambia semplicemente i punti del codice Unicode in stringhe visualizzabili.

Ad esempio:

start    = 0x00C0
size     = 23
mappings = {
    "A","A","A","A","A","A","AE","C",
    "E","E","E","E","I","I","I", "I",
    "D","N","O","O","O","O","O"
}
start    = 0x00D8
size     = 6
mappings = {
    "O","U","U","U","U","Y"
}
start    = 0x00E0
size     = 23
mappings = {
    "a","a","a","a","a","a","ae","c",
    "e","e","e","e","i","i","i", "i",
    "d","n","o","o","o","o","o"
}
start    = 0x00F8
size     = 6
mappings = {
    "o","u","u","u","u","y"
}
: : :

L'uso di un array sparso consentirà di rappresentare in modo efficiente le sostituzioni anche quando si trovano in sezioni molto distanziate della tabella Unicode. Le sostituzioni di stringhe consentiranno a sequenze arbitrarie di sostituire i segni diacritici (come il ædivenire grafema ae).

Questa è una risposta indipendente dalla lingua, quindi, se hai in mente una lingua specifica, ci saranno modi migliori (anche se probabilmente arriveranno comunque a questo ai livelli più bassi).

Question 10

Qualcosa da considerare: se segui la strada per cercare di ottenere una singola "traduzione" di ogni parola, potresti perdere alcune possibili alternative.

Ad esempio, in tedesco, quando si sostituisce la "s-set", alcune persone potrebbero usare "B", mentre altri potrebbero usare "ss". Oppure, sostituendo una o dieresi con "o" o "oe". Qualsiasi soluzione tu possa trovare, idealmente, penso che dovrebbe includere entrambi.

Question 11

In Windows e .NET, converto semplicemente usando la codifica di stringa. In questo modo evito la mappatura e la codifica manuali.

Prova a giocare con la codifica delle stringhe.

Question 12

Nel caso del tedesco non si desidera rimuovere i segni diacritici dagli Umlauts (ä, ö, ü). Invece sono sostituiti da una combinazione di due lettere (ae, oe, ue). Ad esempio, Björn dovrebbe essere scritto come Bjoern (non Bjorn) per avere una pronuncia corretta.

Per questo avrei preferito una mappatura hardcoded, dove puoi definire la regola di sostituzione individualmente per ogni gruppo di caratteri speciali.

Question 13

Per riferimento futuro, ecco un metodo di estensione C # che rimuove gli accenti.

public static class StringExtensions
{
    public static string RemoveDiacritics(this string str)
    {
        return new string(
            str.Normalize(NormalizationForm.FormD)
                .Where(c => CharUnicodeInfo.GetUnicodeCategory(c) != 
                            UnicodeCategory.NonSpacingMark)
                .ToArray());
    }
}
static void Main()
{
    var input = "ŃŅŇ ÀÁÂÃÄÅ ŢŤţť Ĥĥ àáâãäå ńņň";
    var output = input.RemoveDiacritics();
    Debug.Assert(output == "NNN AAAAAA TTtt Hh aaaaaa nnn");
}