未知語コストは変換精度にそれほど大きな影響を及ぼさなかった

 4/12の記事で、仮名漢字変換の「未知語コストが変換精度に及ぼす重大な影響」について書く、と書いたが、その後の続きを書かなかったので、いつか続きを書かなければならないと、気になっていた。なんとか今年のうちに書ける気力が戻ってきたのでさっさと書いてしまおう。
 結論はもう既に書いてしまったが、未知語コストは変換精度にそれほど大きな影響を及ぼさなかった。
 より正確に書くと、未知語コストが変換精度に重大な影響を及ぼすのは学習データが非常に少ないときで、データがある程度以上増えると、未知語コストは適当にそこそこ大きな値にしておけば、それだけで割と普通に動く。そもそも未知の単語が変換候補として出てくる機会自体が減るので、単語長にポアソン分布を仮定して…みたいな事をやってもあんまり意味がない。もっとすごい頑張ったモデリングをすると、また話は変わってくるのかもしれないし、そこのところには割と興味があるけど、今のところそこまでは手をつけていない。
 今のChaIMEのデータでは日本語のテキストを1GB以上使っている。(詳しい数値は忘れたのでまたいつか調べる。3GBはなかった気がする。)昨今では大きいサイズとは言えない程度のデータ量だが、これぐらいのサイズでも、既に未知語コストの影響はかなり小さい。こないだのWeb学会の「ウェブデータを使った統計的自然言語処理」の発表でも、スムージングの手法としてKneser-Neyと単なるバックオフを比べて、データ量が増えると両者の差は縮まっていくという話があったが、何となくそんなことを思い出した。