La lettera N-grammi viene utilizzata al posto delle parole per diversi motivi:
1) L'elenco delle parole necessarie per una determinata lingua è abbastanza grande, forse 100.000 se si considera veloce, più veloce, più veloce, a digiuno, digiuni, digiuno, ... come tutte le parole diverse. Per 80 lingue, sono necessarie circa 80 volte il numero di parole, occupando molto spazio: oltre 50 megabyte.
2) Il numero di trigrammi di lettere per un alfabeto di 26 lettere è 26 ** 3 o circa 17.000 e per i quadgrammi (N = 4) circa 450.000 che coprono TUTTE le lingue usando quell'alfabeto. Numeri simili ma un po 'più grandi per N-grammi in alfabeti più grandi di 30-100 caratteri. Per le lingue CJK con oltre 4000 lettere nello script Han, sono sufficienti unigrammi (N = 1). Per alcuni script Unicode, esiste solo una lingua per script (greco, armeno), quindi non sono necessarie combinazioni di lettere (cosiddetti nil-grammi N = 0)
3) Con le parole, non hai alcuna informazione quando ti viene data una parola che non è nel dizionario, mentre con la lettera N-grammi spesso hai almeno alcune utili combinazioni di lettere all'interno di quella parola.
CLD2 utilizza quadgrammi per la maggior parte degli script Unicode (alfabeti) tra cui latino, cirillico e arabo, unigrammi per gli script CJK, nilgrammi per altri script e include anche un numero limitato di parole complete abbastanza distintive e abbastanza comuni e coppie di parole per distinguere all'interno di gruppi difficili di lingue statisticamente simili, come indonesiano e malese. Le lettere bigram e trigrammi sono forse utili per distinguere tra un piccolo numero di lingue (circa otto, vedi https://docs.google.com/document/d/1NtErs467Ub4yklEfK0C9AYef06G_1_9NHL5dPuKIH7k/edit), ma sono inutili per distinguere dozzine di lingue. Pertanto, CLD2 utilizza i quadgrammi, associando a ciascuna combinazione di lettere le prime tre lingue più probabili usando quella combinazione. Ciò consente di coprire 80 lingue con circa 1,5 MB di tabelle e 160 lingue in modo più dettagliato con circa 5 MB di tabelle.