Wikipediaのデータを自然言語処理の実験に使うのはやめておけ

 今はWikipediaのデータを使って実験をしているが、これはおすすめできない。素直に新聞とかのデータを買った方が良い。
 理由その1。日本語じゃないデータが入ってる。外人の名前とかはUnicodeを駆使して表記されていたりする。
 理由その2。プレーンテキストじゃない。wiki記法をパースするのは案外めんどくさい。
 理由その3。形態素解析にかなり失敗する。まぁ、「三遊亭小遊三」とか、解析に失敗しても文句は言えないような単語がちらほら。新聞と比較すると砕けた表現が多い、というのもあるかもしれない。
 理由その4。辞書に載ってない単語が多い。かなに開けないので、割と困る。
 まぁ、こういうのが問題にならないようなタイプの研究をしている人にとっては使えるデータなのかもしれない。翻訳の研究とかしてるなら、理由その1なんかは逆に好都合かもしれないし。しかし、文字入力の研究とかに使うのは辛い。その3,4あたりの理由がかなり困る。(結局、そういう文章は取り除いて使用している。)マジメに処理をしようとすればする程、いくらでも時間がかかってしまう。