Ho molte stringhe di indirizzi:
1600 Pennsylvania Ave, Washington, DC 20500 USA
Voglio analizzarli nei loro componenti:
street: 1600 Pennsylvania Ave
city: Washington
province: DC
postcode: 20500
country: USA
Ma ovviamente i dati sono sporchi: provengono da molti paesi in molte lingue, scritti in modi diversi, contengono errori di ortografia, mancano pezzi, hanno spazzatura extra, ecc.
In questo momento il nostro approccio è quello di utilizzare le regole combinate con la corrispondenza fuzzy gazetteer, ma vorremmo esplorare le tecniche di apprendimento automatico. Abbiamo etichettato i dati di addestramento per l'apprendimento supervisionato. La domanda è: che tipo di problema di apprendimento automatico è questo? Non sembra davvero essere il raggruppamento, la classificazione o la regressione ...
Il più vicino che posso trovare sarebbe classificare ogni token, ma poi vorrai davvero classificarli tutti contemporaneamente, soddisfacendo vincoli come "ci dovrebbe essere al massimo un paese;" e in realtà ci sono molti modi per tokenizzare una stringa, e tu vuoi provare ognuna e scegliere il meglio .... So che esiste una cosa chiamata analisi statistica, ma non ne so nulla.
Quindi: quali tecniche di apprendimento automatico potrei esplorare per l'analisi degli indirizzi?