変換と学習

 なんでだろ、とか書いたけど、最近では、その理由は想像がつかないでもない。変換エンジンのパラメータ学習というのは多量のコーパスから学習するか、それとも人手で細かくつけていくか、とにかくアルゴリズムは逐次的ではない。というわけで、後からの学習に関するアルゴリズムアドホックにならざるを得ない。オープンソースでない変換エンジンはよくわからない(オープンソースな変換エンジンもよくわからない)けど、たぶんユーザの入力からの学習アルゴリズムはどれもアドホックな実装になってるだろう。
 学習に関して考えると頭が痛くなるが、ユーザにあわせてカスタマイズするというのは入力効率に一番効くのも確かな部分で、将来的には(10年後ぐらいには)もうちょっとマシなアルゴリズムが考案されてるんじゃないかなぁ、と期待している。