word salad対策とspammerの優位性

 お仕事と直接関係はないのだけど、NLPの勉強をしたりしていると、どうしても実問題が気になってくる。spam判定とか。
 word saladというのはここ1,2年ぐらいで有名になった新しいタイプのspamで、適当に単語を並べて文章を作るというもの。文章自体に価値がある訳ではなく、文章の中にリンクを紛れ込ませてそれを踏ませたりするのが目的。
 このword salad、人間が読むと意味が通らないのですぐにspamだとわかるんだけど、機械的に判断するのは難しい。NaiveBayesで判別できないのは当然として、ちょっと細工すればN-gramやHMMでも判別できない文章は簡単に生成できる。試してないから断言はできないけど、簡単なはず。
 現状では、相手の手の内が分かっていれば、すり抜けるのは簡単だ。これは後数年は続くだろう。そんでもって最終的には、splog側はsplogでないのかどうか人間にも判別できないような文章を生成するようになるだろう。10年後にはそれぐらいはできるようになると思う。そうなった時にどうなるか。人間が判断できなくなったら、それを機械で判断するのは無理だ。というか、どこまでをspamとするのか、その定義が曖昧になってしまう。つまり、技術が完全だったとしても、もともとspammerの方が有利な勝負をしているわけだ。
 あと、高度な対策手法をすり抜けるspamを生成するためにはそれなりに計算コストとかがかかったりする訳だけど、計算コストの問題はspammer側にはbotnetがある一方、対策側は自分たちでサーバを用意しなければならない。ここにもspammerの優位性がある。
 結論としては、対策側が後手に回りがちなのはどうしてもしょうがないので、splog対策やってねーXXXなんてウンコとか言わずに、もう少し暖かい目で見てあげるといいんじゃないか、という事です。
 もともとはword saladへの対策になりそうなアイデアを考えた、というエントリを書くつもりだったんだけど、それはまた今度。