Un sacco di spam passa attraverso il filtro sul server di posta che eseguo con il trucco relativamente semplice di iniziare con poche righe di perdita di peso (incredibilmente ovvia) o altro testo di truffa nella parte superiore, seguito da un più ampio corpus di testo dalla documentazione di programmazione - o, il più malvagio di tutti, il testo raschiato da Stack Exchange . Nella migliore delle ipotesi, Spamassassin lo considera BAYES_50 e accade che il resto dei messaggi sia costruito con sufficiente attenzione da non colpire altri trigger. (Ad esempio, le intestazioni sono minime e corrette.) Spesso, gli estratti inclusi si allineano abbastanza strettamente con i miei legittimi interessi che il messaggio complessivo è segnato come BAYES_00, perché i token molto spammy sono semplicemente sopraffatti da succose pepite di problem solving sysadmin.
La parte superiore è così evidentemente spammosa (e in effetti tende ad essere molto simile a quella ricevuta in precedenza e addestrata come messaggi spam) che sono un po 'stupito che stia passando, ma chiaramente lo è. Sembra un passaggio separato che ha segnato le prime 25 (circa) righe del messaggio e ha pesato che avrebbe risolto pesantemente il problema. C'è un modo per fare questo?
Diverse persone hanno suggerito di scrivere espressioni regolari personalizzate. Non voglio entrare in questo, poiché questa è una battaglia persa costante. È ciò che le persone hanno fatto prima che lo smistamento dello spam bayesiano venisse diffuso, ed era generalmente terribile. Nessun essere umano può tenere il passo . Non è molto più efficace che premere semplicemente la chiave di eliminazione per ogni messaggio di spam e molto più lavoro da parte mia.
Il filtro antispam bayesiano funziona. Funziona anche su questo spam, se divido la parte " above the fold " e analizzo solo quella parte, con l'esca / la pula rimossa. La domanda è: come posso convincere Spamassassin a farlo?