Molti di noi devono occuparsi dell'input dell'utente, delle query di ricerca e delle situazioni in cui il testo di input può potenzialmente contenere volgarità o linguaggio indesiderato. Spesso questo deve essere filtrato.
Dove si può trovare un buon elenco di parolacce in varie lingue e dialetti?
Sono disponibili API per le fonti che contengono buoni elenchi? O forse un'API che dice semplicemente "sì, questo è pulito" o "no, questo è sporco" con alcuni parametri?
Quali sono alcuni buoni metodi per catturare persone che cercano di ingannare il sistema, come $$, azz o a55?
Punti bonus se offri soluzioni per PHP. :)
Modifica: risposta a risposte che dicono semplicemente evitare il problema programmatico:
Penso che ci sia un posto per questo tipo di filtro quando, ad esempio, un utente può utilizzare la ricerca di immagini pubbliche per trovare immagini che vengono aggiunte a un pool di comunità sensibili. Se riescono a cercare "pene", probabilmente otterranno molte foto di, sì. Se non vogliamo immagini di questo, quindi impedire la parola come termine di ricerca è un buon guardiano, anche se, certamente, non è un metodo infallibile. Ottenere la lista di parole in primo luogo è la vera domanda.
Quindi mi riferisco davvero a un modo per capire che un singolo token è sporco o no e quindi semplicemente non lo autorizzo. Non mi preoccuperei di prevenire un sentimento come il riferimento esilarante della "giraffa dal collo lungo". Niente che tu possa fare lì. :)