Nell'ambito dello stackexchange di TeX, abbiamo discusso su come rilevare i "fiumi" nei paragrafi di questa domanda .
In questo contesto, i fiumi sono fasce di spazio bianco che risultano dall'allineamento accidentale di spazi tra parole nel testo. Dal momento che questo può distrarre un lettore, i cattivi fiumi sono considerati un sintomo di una scarsa tipografia. Un esempio di testo con i fiumi è questo, dove ci sono due fiumi che scorrono in diagonale.
È interessante rilevare automaticamente questi fiumi, in modo che possano essere evitati (probabilmente mediante la modifica manuale del testo). Raphink sta facendo progressi a livello di TeX (che conosce solo le posizioni dei glifi e i riquadri di delimitazione), ma sono fiducioso che il modo migliore per rilevare i fiumi sia con una certa elaborazione delle immagini (poiché le forme dei glifi sono molto importanti e non disponibili per TeX) . Ho provato vari modi per estrarre i fiumi dall'immagine sopra, ma la mia semplice idea di applicare una piccola quantità di sfocatura ellissoidale non sembra essere abbastanza buona. Ho anche provato un po 'di RadonHough trasforma il filtraggio basato, ma non sono arrivato da nessuna parte con quelli. I fiumi sono molto visibili ai circuiti di rilevamento delle caratteristiche dell'occhio umano / retina / cervello e in qualche modo penso che questo possa essere tradotto in una sorta di operazione di filtraggio, ma non sono in grado di farlo funzionare. Qualche idea?
Per essere precisi, sto cercando un'operazione che rileverà i 2 fiumi nell'immagine sopra, ma non ha troppe altre rilevazioni di falsi positivi.
EDIT: endolith mi ha chiesto perché sto perseguendo un approccio basato sull'elaborazione delle immagini dato che in TeX abbiamo accesso alle posizioni dei glifi, alle spaziature, ecc. E potrebbe essere molto più veloce e più affidabile utilizzare un algoritmo che esamina il testo reale. La mia ragione per fare le cose nell'altro modo è che la formadei glifi può influire sulla rilevanza di un fiume e, a livello di testo, è molto difficile considerare questa forma (che dipende dal carattere, dalla legatura, ecc.). Per un esempio di come la forma dei glifi può essere importante, considera i seguenti due esempi, in cui la differenza tra loro è che ho sostituito alcuni glifi con altri della stessa larghezza, in modo che un'analisi testuale prenderebbe in considerazione ugualmente buoni / cattivi. Si noti, tuttavia, che i fiumi nel primo esempio sono molto peggio che nel secondo.
ImageLines[]
da Mathematica, con e senza pre-elaborazione. Immagino che tecnicamente stia usando una trasformazione di Hough piuttosto che quella di Radon. Non mi sorprenderò se la corretta preelaborazione (non ho provato il filtro di dilatazione suggerito da datageist) e / o le impostazioni dei parametri possano farlo funzionare.