2006-12-01から1ヶ月間の記事一覧

Wiiリモコンによる日本語入力

時代はTouchMeKeyか…。

静的構造と動的構造

圧縮全文索引が実用的な技術になろうとしている現在においてDouble Arrayとか研究する意味がどこにあるのか正直よくわからなかったのだが、圧縮全文索引はランダムアクセスは出来ても動的な変更は出来ないので、静的なデータ構造としてしか使えない。(たぶ…

WaveletTreeによる静的DoubleArrayの圧縮

WaveletTreeを用いるとDoubleArrayが圧縮できるのではないか。ないか、というか、圧縮できる。Bit列に対するrankさえ定数時間で実行できれば、lookupのみ可能なWaveletTreeで良ければ実装できるはず。Bit列に対するrankは、元データの1/5程度の量の補助デー…

Continuation Passing Styleと多値

継続に対して複数の引数を渡すという事が多値を返すということであると考えるなら、CPS変換後のプログラムには多値の問題はそもそもそんざいしない。ような気がした。

Double Arrayの非常に効率的な圧縮

「ダブル配列におけるキャッシュの効率化」という論文を見付けた。FIT2006というフォーラムで発表されたものらしい。これはすごい。目から鱗が落ちた。なんかリンク張って良いものか迷うので、とりあえずはリンクしない。 この論文に書いてあることは2つあっ…

anthy-8419

「くわしく」が「桑市区」に変換される。うーん、MEMMというのはLength Biasがかかるのでこういう事は起こりにくいと思ってたんだけど…。理論と現実は違うという事かしら。

最近のDoubleArrayの性能

DoubleArrayの性能に関して、最近は少し改善されているかも知れませんとあるので、具体的にどれぐらい改善されているのか、少し書いてみます。もちろん、現実逃避です。 まず、DoubleArrayがなんなのかというところから説明をします。DoubleArrayは、簡単に…

なぜpLSIはあんな形をしているのか

pLSIは一番最初に出てくる式がp(d,w)という形をしている。dとwの同時確率というのは、LDAを見慣れた目からするとさっぱり意味がわからないのだが、このモデルはもともとLSIを確率的にしたものであるという事を考えると、これが自然な形になるのだろうという…

修論の枚数

最低枚数が8枚らしい。最低枚数としてはそんなもんかなと思う。最低枚数50枚とか言われたら泣くところだった。D論は最低枚数の設定はなく、これまでに1枚半のD論を出した人もいるらしい。よっぽどすごい研究なんだろうな…。

Complement Naive Bayes

今日の輪講で知ったのだけれど、速くてしかもNaive Bayesよりも性能が良い手法らしい。SVMと比較できるぐらいの性能で、速度はずっと速いそうな。 論文はTackling the Poor Assumptions of Naive Bayes Text Classifiers(ICML2003)を参照するとよいらしい。

2-stroke control emacs

CtrlをMeta代わりのEscみたいに2ストロークにして小指の負担を軽減という、非常に素晴らしいアイデアがnosukeさんから発案されましたが、uim.elが動いていると使えない模様…。(´・ω・`)

見えすぎ問題

大きすぎるファイルを削除する関数と小さすぎるファイルを削除する関数を作りたいものとする。 この2つの関数は、ファイルに対する述語の部分を除いては、まったく同一のものになるだろう。クラス指向的プログラミングであれば、まとめたければベースクラス(…

生成モデルと識別モデル

調べた限りでは生成モデルはjoint distribution、識別モデルはconditional distributionとなっているのに、pLSIはなぜjoint distributionなのに「pLSI is not a well-defined generative model」とか書かれてるのかなぁ、と思ったら、ちゃんとLDAの論文に理…

研究の行き詰まり

どうなっているのかよくわからない事になりつつある。Blei版LDA実装(以下B-LDA)とMochihashi版LDA実装(以下M-LDA)で、かなり違う結果が出てくる。B-LDAの方はトピック数を変えてもテストスコアがほとんど変わらない。M-LDAは25トピックが最高性能となんだか…

クズ

「論文の9割はクズである」 …どうやらその9割の方を生産しつつあるような気がしてならないが、完成するまではそこら辺からは全力で目を背けてゆきたい。

Ctrlを使わないエディタ操作がしたい

数日前に左手の小指を痛めてしまった。原因はどう考えてみてもEmacs操作によるCtrlキーの押しすぎである。ノートPCを使っているので、手の平でCtrlを押すという技も使えない。 しかし、Emacsを使っている限り、Ctrlからは逃げられそうに無い。無変換あたりを…

ギリシャ文字の好き嫌い

ψが嫌いだ。ψを見つけると論文を読む気が無くなる。φも好きでは無いが、ψほどではない。ηも嫌いだ。ζも嫌いだ。ξとどっちがどっちかすぐにわかんなくなるので。 γは良い。Γでも良いが、こちらはフォントによっては文字に見えないので、少々微妙ではある。εも…

可変サイズの引数

関数の引数の数ではなく、サイズ自体を変えたい。つまり、a(int b)もa(double c)も使えるようにしたい。CLOSなら総称関数で済む話。Cならstdargでいけそう…に思えたんだけど、可変長引数を使うとfloatは自動的にdoubleに、charとshort intはintに自動的にサ…

学習プロセスが

ノートPCのサスペンド&レジュームに失敗した。2日間走らせてた学習プロセスがお亡くなりに…!!!! まぁ、ノートでそんな長時間の学習なんかさせるのが間違いだったとしか言いようがありません。はい。 ちょうどよい機会なので、Mochihashi版LDAを試してみ…

ACL2007

研究がちょっと一段落…はついてないけど、WISSに来ると論文書かなきゃいかんなぁ、という気になるので、ACL2007の〆切を調べた。2007/01/23が〆切だった。修論の〆切は2007/01/26。ACL2007に出すなら、たぶん地獄を見ることになるな。失敗したら論文がだせな…

改訂第4版 LaTeX2ε美文書作成入門

改訂第4版 LaTeX2ε美文書作成入門は12/12発売らしい。数日前に大学生協の書籍部に大量に第3版が入荷してたんだが、どうするつもりなんだろ…。

mecabのUTF-8化

実験に使ってるデータがUTF-8なので、mecabもUTF-8にしてみた。エンコーディングが影響するのは辞書の方だけらしい。Debianのパッケージでの再構築はよくわからなかったので、tarballを開いて $ ./configure --with-dicdir=/var/lib/mecab/dic --with-charse…

WISS2006

発表もしないくせに行ってくる。申込をしたは良いが、学会に行く前というのはどうにも気が重い…。

ゆらぎシンポジウム

全部聞く気はなかったのだけど、T教授が輪講に遅刻する許可を取ってきてしまわれたので、なんとなく流れで3番目の発表まで聞いてきた。ランジュバン方程式とかリアプノフ安定とか、応用数理Cの講義を思い出す。そういえば、応用数理Cは単位取れたんだっけ。…