ChaIMEの現状と将来と(1)

 そろそろChaIMEについて一言いっておくか を書いてからもう半年以上になる。あれから日記には何も書いていなかったが、開発の方は地道に進めている。最近、自宅で使うかな漢字変換エンジンはChaIMEに切り替えた。まだまだやらないといけない事はたくさんあるが、とりあえず連文節のかな漢字変換エンジンとして体を成してきたかな、というぐらいのところまでは来たと思う。一応学習機能もついたし。まぁ、これからどうするかは、一旦落ち着いて考えたい。
 変換精度については、Google 日本語N-gramが使えないという事で、最初はガタガタだったのだが、地道にデータを集めては形態素解析にかけ、コスト間の係数や未知語コストを調節して、という作業を何回か繰り返し、以前と比べると、だいぶ良くはなってきた。ただ、これは作者の贔屓目的な面が否めない。改善の余地はそこかしこにある。まず目につく問題としては、かな漢字モデルの弱さに起因して、「にほん」で「日本」が変換できないとか、同じ理由で「あいだ」で「間」が変換できない(できるけどかなり順位が低い)といった点が挙げられる。他にもいろいろ間違うところは多い。ただ、遅いPCを使っているせいもあり、個人的には精度面よりも速度面が今の不満だ、と言える程度にはストレスなく変換できている。
 他にもdbus-glibの話とか、いろいろぐだぐだと書きたい事はあるのだが、最近小町さんもChaIMEで生活を始めたということで、下らない事をいろいろ書くのは一旦後回しにして、興味がある人向けにこっそりコードを出してみる。あくまでも現状どんな感じなのかについて興味がある人向けのお試し用ということでしかないので、以下のような注意書きをつけておく。

  • システムにインストールするとAnthyを壊す可能性があるので、インストールしてはいけない
  • 変換ログまわりのセキュリティとか完全にダメなので、共用マシンで使うべきではない

 コード+辞書は以下のURLでダウンロードできる。αリリース以前の代物なので、正式なリリースなどではなく非公式の怪しいコードであるという認識の元、それでもチャレンジしてみたい人だけが試してみてください。

 ダウンロードと展開をしたら、

cd chaime-snapshot/chaime/decoder;python service.py &; cd ../../compat;./configure;make;./test2.sh

 という感じで動くはず。

  • python 2.5以上, TokyoCabinet, pytc 0.8, python-dbus, glibあたりに依存しているので、事前にその辺をインストールしておく必要あり。
  • test2.shを実行して標準エラー出力に「chaime anthy mimic init.」と出てきたら、テスト成功。