すぱみんぐ・いしゅ~ — Spamming Issue

@Nifty の「迷惑メール」フィルタを使い始めてから、 SPAM が激減した。ベイジアン・フィルタ(Bayesian Filter)。前は、Apache.org に、Brian氏が(Perlでかいてある)オリジナルで作っていたスクリプトを qmail 用に埋め込んで活用していたのだけど(それでも結構効果はあったし、色々と実験できて楽しかったんだが)、それと組み合わせてベイジアン・フィルタ (Bayesian Filter) を使うようにすると非常に効果的。

去年は、「スパム対策」元年であったように思う。実は、去年の丁度今ごろApacheのこみったになるちょっと前あたりに apache@apache.org に「サイトの変更用PATCH」を送った事があるんだが、なかなか更新してくれなくて … 何故だろうと思っていた矢先、インフラチームのメーリングリストに発言しだしたとたん(3週間あとだったんだが)「あの時は、パッチどうもありがとう。先ほどCommitかけました」というメールが。・・深く考えていくと、「もしかすると apache@apache.org に Spam Mails が多量に来ていて、通常のメールが埋もれてしまっていたんじゃあないかな」と思い立ち、Apacheのサーバ内の MailBox (と、 traffic ) を色々と調べていって案の定そうだったわけで。・・と言う事で、去年は「スパム対策」用の実験をずいぶんとしたわけです。
(例えば、Google の PageRank 8 あたりのところにダイレクトにmailto: でアドレスを書いておいて、どこまで「Robot Spam (Spambot?)」が来るか、を Experiment したり。これらの傾向がわかれば、一般のこみったが困ってる事も理解できるでしょ?ッてことで。 …. ここら辺の実験は奇異に思われたかもしれない。これが、一部の連中といざこざを起こした原因なんだろうな・・・)

メーリングリストのモデレータ (Moderator) も暫くやってみた(何個かやってみた)。多量にメールが来てたが、新しくしたスパムフィルタ(実は、僕がマルチバイト対応のスパムフィルタを作ってみたんだが。・・今は悪用されててオレってば「自分で墓穴を掘った」状態になってるけど。ま、 MIME をしらない連中が qmail の管理をしてるってのが不幸中の不幸だな。)とかを活用して結構減らせる事が分かった。・・・それにしても、「放置プレイ」してたリストが沢山あったよなあ、と思う(特に WebServices に)。「少しの工夫」で快適になる、というのに、と思うと「ついお節介」してしまいたくなったんだよな。でも、Axis リストに来るスパムだって相当減っただろっ(去年の8・9月までは最悪だったんじゃあないかな … モデレータがいないリストが実は相当あった、なんて、外部からはわからなかっただろうなあ …)?
何個かモデレータやってて、相当スパムが来て、「ああ、あんな状態だったら、誰だってやる気無くすよなあ」って思って。大体、クリエイティブな人間があんな雑務をしたがるはずがないだろー、って気もしたし。開発者は開発に専念して欲しかったし。announcement@jakarta に投稿しても数日放置プレイされてたりするのも、モデレータが対処しきれなくなってたからだろう、とか想像はついたし(でも、モデレータに苦情言うのは可哀想だし。Apache.org アドレスからのメールのみを受け付けるフィルタ:created by Rodent の場所とかも知ってたんで、それを導入するようアドバイスしてあげればよかったな、今思えば。)。cvs-site@jakarta しかり(これが、「cvs commit メールが来ないよ~」という嘆きメールが来る理由だったりしたのさ)。.qmail-jakarta-***-*** とかに「1行」付け足すだけでみなハッピーになれるのに・・・と思ったりすると当時は不甲斐なかったな。「1行」の違いが何GBの無駄なトラフィックを生んでタってわけだが。ま、そんなんがあって、かなりすぱみんぐ・いしゅーに拘っていたわけだし、インフラチームに提案はしたわけなんだが・・・多分勘違いされてる/たんだろう・・・ま、人生なんて所詮そんなもんさ(悲)。

ま、ともかく、欧米系の人間にしてみればマルチバイトなメールなんて99%「スパム」だろうし、俺らからしてみれば英語(やラテン系)のメールなんて殆どが「スパム」だったりするわけだ。対称性。というわけで、コラボレートすれば少しはスパム対策も発展するだろうし「まさにスパム対策にオープン・マインド、ワールドワイドな知恵を活用する<最先端なApache>という売り込みも出来るようになるよね」なんて夢物語を語ったものだ。
(そういえば、僕がインフラチームにSpamAssassinの導入を提案してその数週間後、SpamAssassinがApache.org仲間になることが決まったんでした。偶然ってば恐ろしいな。(^_^))

まあ、それにしても、ベイジアン・フィルタは本当に心地が良い。誤認識率0に等しい(唯一、最初に nytimes.com からのニュースレターが誤認識されたがあとで教育しなおした)。・・・「たまごっち」みたいに<教育>出来る、ってのもGoodだな。育てる系。
フィルタの精度があがってきたら、「たまごから孵化する」ビジュアルを入れてくれるようなメールソフトクライアントとかウェブメールとかがあると面白いな。・・あ・・そうそう、「他人のスパムフィルタの学習」結果をインポートするなり、自分のをエクスポートするなり出来るともっと良いかも、って思う・・かなり「画期的」だよ。うん。

コメントを残す

以下に詳細を記入するか、アイコンをクリックしてログインしてください。

WordPress.com ロゴ

WordPress.com アカウントを使ってコメントしています。 ログアウト / 変更 )

Twitter 画像

Twitter アカウントを使ってコメントしています。 ログアウト / 変更 )

Facebook の写真

Facebook アカウントを使ってコメントしています。 ログアウト / 変更 )

Google+ フォト

Google+ アカウントを使ってコメントしています。 ログアウト / 変更 )

%s と連携中