Why doesn't EM find good HMM POS-taggers?

　Why doesn't EM find good HMM POS-taggers? (Mark Johnson, 2007)を読んだ。EMNLP-CoNLL2007の論文。もう学生じゃないし、仕事とはあんま関係ないから論文読んでも仕方ないんだけど、なんか読んでしまう……。
　Unsupervised HMMの学習に関し、EMとGibbs Sampling(以下GS), Variational Bayes(以下VB)、によるパラメータ推定結果を比較している。GSは意外と結果が悪かったようだ（ただし、どうも収束するところまでサンプリングができてないっぽい、というような考察も書いてあった。数倍の時間を回せば結果は変わってくるかも）。
　評価尺度としては隠れ状態をPOSタグに割り当てたときにどれだけ正しく割り当てられるかが用いられている。ある隠れ状態に対しもっとも共起回数の多いPOSタグを割り当てる、という割り当て方をmany-to-1 accuracyと呼んでいる。他に、隠れ状態とPOSタグの間の関係は一対一に限定する1-to-1 accuracyというのもあるが、これに関しては別の論文が参照されており、定義は書かれていない（そっちはまだ読んでない）。POSタグより隠れ状態の数が多いと確実にあぶれる状態が出てくるわけで、どういう理由でこんな尺度を提案したのかよくわからない。ちょっと気にはなる。評価尺度は他にも2つほどあったけど、めんどいので割愛する。
　many-to-1 accuracyに関してはEMは健闘したが、1-to-1 accuracyではVBの方がEMより明らかに良い結果を出した。これに関して、EMはすべての隠れ状態に対して割り当てる単語数を均等にする傾向があるが、実際のPOSタグは上位6種類で55%を占めるぐらいに分布が偏っているので、良い結果を出せなかった、と書いてある。図3にはPenn Tree BankにおけるPOSタグに割り当てられた単語頻度と、EM, VBにより推定された隠れ状態毎の単語頻度が出ているが、Penn Tree BankとVBによる推定での結果がかなり近くて、ちょっと面白い。
　他にもいろいろと面白い結果が書いてあったのでちょっと列挙してみる。

EMは初期値依存性がかなり強く、数千回のiterationの後でも5%程度のオーダーで精度差が見られる。結果がばらつく現象はGSとVBでも確認された。
EMは数回回すとそこから先は精度が下がっていく現象がよく見られるが、この実験に置いては100回後ぐらいから精度が再び上昇する現象が見られた。精度の上昇は概ね単調であった。つまり、EMは、一般に考えられているよりも収束するまでに多くの計算回数を必要とする。
対数確率を計算する代わりに確率を直接計算する（underflowを避けるために毎回rescalingする）ことでdramatic speedupが達成できた。