2007-01-21 A new method of N-gram statistics for large number of n and automatic extraction of words and phrases from large text data of Japanese 問題設定:コーパスから5-gramを取得したい、もちろん頻度の高い物だけでいい。ただし、コーパスはそれなりに大規模である。 自力では歯が立たなかったので、調べてみたのだが、Count Sketchと表題の論文しかみつけられなかった。一言でまとめると、「You、コーパス全部つなげて接尾辞配列作っちゃいなよ」というアルゴリズム。うーん、ID列に変換しちゃってるので、ソートするのはめんどくさいんだよなぁ。 trigramで妥協する事にした。