Vorrei sapere come abbinare gli indirizzi postali quando il loro formato differisce o quando uno di essi è scritto male.
Finora ho trovato diverse soluzioni, ma penso che siano piuttosto vecchie e non molto efficienti. Sono sicuro che esistono alcuni metodi migliori, quindi se hai dei riferimenti da leggere, sono sicuro che è un argomento che potrebbe interessare diverse persone.
La soluzione che ho trovato (gli esempi sono in R):
Distanza di Levenshtein, che equivale al numero di caratteri che devi inserire, eliminare o modificare per trasformare una parola in un'altra.
agrep("acusait", c("accusait", "abusait"), max = 2, value = TRUE)
## [1] "accusait" "abusait"
Il confronto dei fonemi
library(RecordLinkage)
soundex(x<-c('accusait','acusait','abusait'))
## [1] "A223" "A223" "A123"
L'uso di un correttore ortografico (alla fine uno bayesiano come quello di Peter Norvig) , ma non molto efficiente sull'indirizzo, credo.
Ho pensato di utilizzare i suggerimenti di Google suggeriti, ma allo stesso modo, non è molto efficiente sugli indirizzi postali personali.
Puoi immaginare di utilizzare un approccio supervisionato di apprendimento automatico, ma devi aver archiviato le richieste errate degli utenti per farlo, che non è un'opzione per me.