2007-01-21から1日間の記事一覧

A new method of N-gram statistics for large number of n and automatic extraction of words and phrases from large text data of Japanese

問題設定:コーパスから5-gramを取得したい、もちろん頻度の高い物だけでいい。ただし、コーパスはそれなりに大規模である。 自力では歯が立たなかったので、調べてみたのだが、Count Sketchと表題の論文しかみつけられなかった。一言でまとめると、「You、…