Sono interessato a collegare record tra 2 set di dati per nome, cognome e anno di nascita. Potrebbe essere fattibile con l'algoritmo EM, e se sì, come?
Considera il seguente record nel 1 ° esempio: Carl McCarthy, 1967. Cercherò tutti i record nel secondo set di dati e assegnerò una distanza jaro-winkler tra il 1 ° nome e Carl e una distanza jaro-winkler tra il cognome e McCarthy. Queste distanze sono probabilistiche così come la distanza tra gli anni della nascita. Combiniamo queste 3 probabilità (moltiplicare? Media?) In 1.
Ora arriva la parte della regola decisionale. Classifichiamo tutte le probabilità dal più alto al più basso. Innanzitutto, vogliamo P (il primo colpo è match)> = soglia. In secondo luogo, vogliamo anche P (il primo colpo è match) / P (il secondo colpo è match)> = soglia se P (il secondo colpo è match) esiste. Terzo, vogliamo che il primo hit in questo secondo set di dati corrisponda a non più di 1 persona nel 1 ° set di dati con Carl McCarthy, 1967.
Come possono essere determinate queste soglie?
Preferisco approcci in Stata e / o Perl.
Vedi, ad esempio:
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC1479910/pdf/amia2003_0259.pdf
(Anche se con ciò, non seguo ancora completamente il perché o il come, e quali sono gli input e gli output, così come le ipotesi e quanto siano restrittive).