2006-07-08から1日間の記事一覧

検索の高速化(4)

(3)の結果はあまりよくない予感がするので、別の方法を考えてみた。つまり、SuffixArrayをいくつか(数百か数千ぐらい)に分割して、分割点のみを集めたミニSuffixArrayとでもいうべきものを作ってみる。ミニSuffixArrayのサイズは自由に決められるので、数K…

検索の高速化(3)

文字N-gramのN=3で高速化用のデータを作ってみた。38MB。これではちょっと使えない。N=2で試すと6MB。これもでかすぎる。数百KB程度におさえたい。文字でやるからいけないのかな。先頭2Byteなら、高速化用データは2^16=65536だから、65KB程度で収まる。

検索の高速化

300MB近いSuffixArrayを構築して検索をしている。二回目以降の検索は問題ないのだが、一回目の検索はかなりレスポンスが悪い。これはディスク読み込みに時間がかかっているものと思われる。なんとかならないか、ちょっと考えてみた。 検索時にはたぶん二分探…

検索の高速化(2)

SuffixArrayである限り、元テキストへの大量のランダムアクセスは不可避であるような気がしてきた。実際にやってみないとわからんけど、期待しすぎるとしょんぼりする事になるかもしれない。