Unsupervised segmentation of Chinese text by use of branching entropy

 Unsupervised segmentation of Chinese text by use of branching entropy(Z. Jin and K. Tanaka-Ishii, 2006)を読んだ。前から知ってたんだけど、実験結果は知らなかったので。基本的なアイデアとしては、単語内ではPerplexityは低いが単語境界ではPerpexityは高くなるであろうという事を利用して、Perlpexityの上昇するところを単語境界とみなそうというもの。言語モデルとしてはN-gramを利用(N=6)。
 実験結果としては精度90%, 再現率80%ぐらい。精度は学習データ量にはほとんど影響を受けない。再現率は使用するデータ量の増加によって向上する。
 失敗するのは以下のような例。

  • 日付とか時間とか、数値
  • 一文字で構成される単語
  • 複合単語(正解コーパスと切り方が変わってしまう場合が出てくる)

 感想を箇条書きにすると以下のような感じ。

  • 論文のアルゴリズム眺めた限りではSmoothingしてないっぽいけど、いいんだろうか?エントロピー求めるだけなら大丈夫なのかな?
  • 違う言語モデルを使ったらどうなるんだろう?PPMとか。精度に影響があるんじゃないかなぁ。
  • 一文字単語の問題は原理的にどうしようもない感じだけどどうにかできないかなぁ
  • エントロピーと実際の後続文字の観測によって得た情報量の比較でなんかできないか?