ChaIMEで変換できる単語を増やした
ブログなどをクロールしてきたデータをmecabで解析して作ったコーパスからモデルを学習させていたのだが、mecabは決定的に読みをつけるので、例えば「にほん」で「日本」が変換できない(mecabは"にっぽん"と読みをつける)。日常生活で使っていると、これは結構な問題だ。よく使う駅名が正しい読みで入力できなかったりして、それが結構辛い。と言うわけで、mecabで形態素解析した後に、名詞の読みだけ適当に確率的に揺らしながらつけ直す、という作業をしてコーパスを作り直してみた。変換精度は下がった感じだが、「にほん/日本」問題なんかが解決できたので、だいぶ使いやすくはなったと思う。
名詞であっても適当にunigramで読みを揺らしてやると変換精度が下がるというのは、例えば、「道」をなんと読むべきかは、「自動車道」とか「道の駅」で違う、つまりコンテキストに大きく影響される、ということである。まぁわかっててやったんだけど、許容範囲の精度低下で済んでよかった。
と言う訳で、chaime-snapshotを更新した。置き場や使い方などは全部、以前のエントリ と同じ。注意事項も同じ。システムにインストールしちゃって泣いても知らないよ!!
今後、コーパスの解析に関しては、こんななんちゃって確率的読み推定ではなく、KyTea (京都テキスト解析ツールキット)を使って、確率的に、しかもそれっぽく読みをつけたコーパスを使いたい。その他の変換ロジックの改良なんかは、できてから解説を書きます。書けたら。
これから先、やりたいことはどれも時間がかかるので、次の更新は早くとも4月以降になると思います。