Analisi di immagini e contenuti per determinare le differenze tra una fotografia di buon gusto di una persona, una fotografia di costume da bagno, una fotografia di nudo, rappresentazioni di pornografia ... per quanto ne so non è affatto abbastanza sofisticato da fare solo nel software.
Fortunatamente il crowdsourcing dovrebbe essere utile qui, come suggerito da @ammoQ in un commento. Tuttavia, non credo che i membri di 4chan o di qualsiasi altro forum apprezzerebbero il vasto numero di immagini non- corporative, come la grafica web generica per pulsanti, cornici, pubblicità, ecc. Che vengono pubblicati.
La mia raccomandazione sarebbe quella di esaminare le soluzioni di crowdsourcing esistenti, come Amazon Mechanical Turk . (Tuttavia, i termini di servizio possono proibire esplicitamente il coinvolgimento di contenuti pornografici, quindi tieni presente che potresti dover trovare un'altra soluzione o implementare la tua.)
Per rendere possibile il crowdsourcing, il tuo software dovrebbe essere pronto a eseguire alcune o tutte le seguenti operazioni:
- Memorizza le informazioni che collegano il contenuto al computer da cui proviene
- Identifica i duplicati esatti nell'intero inventario e rimuovili (ma le informazioni sull'origine vengono conservate)
- Eseguire il downsampling delle immagini in una dimensione, forse 320x200, che è sufficiente per identificare il contenuto dell'immagine senza conservare i dettagli non necessari e sprecare spazio di archiviazione / larghezza di banda
- Crea immagini fisse di contenuti video a intervalli regolari e applica la stessa regola di downsampling
Infine, il database di immagini ridotte che rappresentano l'immagine originale e i contenuti video viene controllato dagli utenti (o da un team designato se si dispone delle risorse) in base al codice di condotta della propria azienda. Il programma o l'interfaccia potrebbe mostrare una singola immagine alla volta o una schermata di miniature, qualunque cosa tu ritenga meglio per ottenere informazioni accurate.
L'identità del computer da cui provengono le immagini dovrebbe essere assolutamente segreta e sconosciuta alle persone che valutano i dati. Inoltre, dovrebbe essere casuale e ogni immagine probabilmente controllata più di una volta per rimuovere la distorsione.
La stessa tecnica potrebbe essere utilizzata per il testo, ma prima il contenuto potrebbe essere valutato con classifiche di parole chiave che rimuovono la maggior parte del testo dalla revisione del crowdsource. La classificazione di un lungo documento richiederà ovviamente più tempo rispetto alla classificazione di un'immagine.