大規模日本語データ

 Googleが大規模日本語データの公開を検討しているそうだ。どういう形で公開するのかな。やっぱり5-gramとかだろうか。文章は生に近い形で残しておいてもらった方がトピックモデルの研究には使いやすいと思う(というか、そうでないとたぶん無理。文書毎に統計取るとかしてないだろうし。)んだけど、それは著作権的に難しいだろうなぁ。