Wikipediaのデータを自然言語処理の実験に使うのはやめておけ(2)
前にWikipediaのデータを自然言語処理の実験に使うのはやめておけという日記を書いたが、バグを潰して実際に実験で信頼性の高い結果を得られるようになってきて、また似たような事(でもちょっと違う事)を感じたので書いておく。
当たり前ではあるが、Wikipediaは百科事典なので、繰り返しが非常に少ない。このため、頻出する〜〜を抽出して利用する、とか、文書分類する、とか、そういう実験はやりにくい。やりにくい、というか、良い結果が出ない。
普通の新聞であれば、例えば一年分のデータを使えば、その中には繰り返し報道されるような大事件がいくつか含まれているだろうが、Wikipediaにはそういった大きいレベルでの繰り返しというものがさっぱりない(さっぱり、というのは言い過ぎかもしれないが、あんまり含まれてないように見える)ので、そこからなにかを抽出するのは難しい。本当に非常に局所的な情報、つまりN-gram等であれば問題なく情報が抽出できる(むしろ、いろんな情報が満遍なく含まれている分、使いやすいかもしれない)が、それ以上の、要するに遠距離間の相関的な情報を得ることは難しい。逆に考えると、大きなレベルでのトピックの影響が少ない、という事で、そういったadaptationの影響を出したくない実験をやるときには、もしかすると使い易いデータなのかもしれないな、という気もするけれど。
そもそも自然言語処理の研究をしたい人は普通は自然言語処理の研究室にいくものだと思う(検証やらDNAコンピュータやらやってるところに行くことは通常考えにくい)ので、そういった場所では研究目的にあったデータを購入(もしくは作成)しているだろうから、あんまり関係ないんだろうけど。