Ho migliaia di elenchi di stringhe e ogni elenco ha circa 10 stringhe. La maggior parte delle stringhe in un determinato elenco sono molto simili, anche se alcune stringhe (raramente) sono completamente estranee alle altre e alcune stringhe contengono parole irrilevanti. Possono essere considerate variazioni rumorose di una stringa canonica. Sto cercando un algoritmo o una libreria che convertirà ogni elenco in questa stringa canonica.
Ecco una di queste liste.
- Star Wars: Episodio IV Una nuova speranza | StarWars.com
- Star Wars Episodio IV - A New Hope (1977)
- Star Wars: Episodio IV - Una nuova speranza - Rotten Tomatoes
- Guarda Star Wars: Episode IV - A New Hope Online Gratis
- Star Wars (1977) - Greatest Films
- [REC] 4 poster promettono la morte per motore fuoribordo - SciFiNow
Per questo elenco, qualsiasi stringa corrispondente all'espressione regolare ^Star Wars:? Episode IV (- )?A New Hope$
sarebbe accettabile.
Ho seguito il corso di Andrew Ng sull'apprendimento automatico su Coursera, ma non sono riuscito a trovare un problema simile.