スパムについて知識を得るためのウェブページとしては
http://ssss.jp/~trombik/index.html
があげられる。うちの大学で管理者のメーリングリストでわけのわからんことをやっているが、彼らはスパムを落とすというのが目的になっていて、以下の苦情
ある大学からのメールが届かない -> DNSが引けない向こうの設定が悪い。向こうが直すまで読めないのは仕方ない。
time-criticalなメールが数日レベルで遅滞する -> SMTPベースのシステムに即時性を求めるな
簡単すぎるキーワードでスパム認定され、メールが捨てられる -> これはさすがに直してた
など、タリバンといわれても仕方ない議論が行われている。常識的に考えて、メールの遅滞・不達は最優先に避けるべきだろうが。私のところは奇跡的に彼らの管理から離れているが、旧帝大のサイトワイドで、メールを勝手に捨てたり、数日レベルの遅滞を起こしたりと、こういうことが平気で行われているのは正直、正気を疑う。
ところで、spamの駆除にはベイジアンフィルタが効果的である。
A Plan for Spam(和訳)やBetter Bayesian Filtering(和訳)
は読んで、可能性などを期待したこともある。たしか2年くらい前のUnix Magazineにも同様の和訳があったような。
自分で使うのならベイジアンフィルタ一本槍でもいいのだが、みんなで使えるものとするならやはり何らかのルールベースが必要になってくる。これにベイジアンフィルタをあわせれば現在の理想的なものとなるだろう。実際、spamassassinはそういう運用が可能であり、個人ベースで、リアルタイムにフィルタのデータベースのアップデートがなされる。ベイジアンフィルタはbsfilter BBSで見つけた最近のspamの例
<p>O</fluctuate>ur U</resistor>
S Li</sevenfold>
censed Doc</thence>tors wi</peoria>ll
<BR> Prescr</identify>ibes Y</borax>
our Me</gao>dication
F</cloister>or F<augustan>ree
</FONT>
には弱いし、0~1pointsで大量の無意味な単語の詰め合わせ(salad)をつけたものにも弱い。こういうのに対してはやはり容赦なくルールベースでhtmlメールに高ペナルティをつけられるほうがいい。それを自動的に学習してくれるともっといい。現行のspamassassinはそれが可能である。