2006-01-01から1年間の記事一覧
時代はTouchMeKeyか…。
圧縮全文索引が実用的な技術になろうとしている現在においてDouble Arrayとか研究する意味がどこにあるのか正直よくわからなかったのだが、圧縮全文索引はランダムアクセスは出来ても動的な変更は出来ないので、静的なデータ構造としてしか使えない。(たぶ…
WaveletTreeを用いるとDoubleArrayが圧縮できるのではないか。ないか、というか、圧縮できる。Bit列に対するrankさえ定数時間で実行できれば、lookupのみ可能なWaveletTreeで良ければ実装できるはず。Bit列に対するrankは、元データの1/5程度の量の補助デー…
継続に対して複数の引数を渡すという事が多値を返すということであると考えるなら、CPS変換後のプログラムには多値の問題はそもそもそんざいしない。ような気がした。
「ダブル配列におけるキャッシュの効率化」という論文を見付けた。FIT2006というフォーラムで発表されたものらしい。これはすごい。目から鱗が落ちた。なんかリンク張って良いものか迷うので、とりあえずはリンクしない。 この論文に書いてあることは2つあっ…
「くわしく」が「桑市区」に変換される。うーん、MEMMというのはLength Biasがかかるのでこういう事は起こりにくいと思ってたんだけど…。理論と現実は違うという事かしら。
DoubleArrayの性能に関して、最近は少し改善されているかも知れませんとあるので、具体的にどれぐらい改善されているのか、少し書いてみます。もちろん、現実逃避です。 まず、DoubleArrayがなんなのかというところから説明をします。DoubleArrayは、簡単に…
pLSIは一番最初に出てくる式がp(d,w)という形をしている。dとwの同時確率というのは、LDAを見慣れた目からするとさっぱり意味がわからないのだが、このモデルはもともとLSIを確率的にしたものであるという事を考えると、これが自然な形になるのだろうという…
最低枚数が8枚らしい。最低枚数としてはそんなもんかなと思う。最低枚数50枚とか言われたら泣くところだった。D論は最低枚数の設定はなく、これまでに1枚半のD論を出した人もいるらしい。よっぽどすごい研究なんだろうな…。
今日の輪講で知ったのだけれど、速くてしかもNaive Bayesよりも性能が良い手法らしい。SVMと比較できるぐらいの性能で、速度はずっと速いそうな。 論文はTackling the Poor Assumptions of Naive Bayes Text Classifiers(ICML2003)を参照するとよいらしい。
CtrlをMeta代わりのEscみたいに2ストロークにして小指の負担を軽減という、非常に素晴らしいアイデアがnosukeさんから発案されましたが、uim.elが動いていると使えない模様…。(´・ω・`)
大きすぎるファイルを削除する関数と小さすぎるファイルを削除する関数を作りたいものとする。 この2つの関数は、ファイルに対する述語の部分を除いては、まったく同一のものになるだろう。クラス指向的プログラミングであれば、まとめたければベースクラス(…
調べた限りでは生成モデルはjoint distribution、識別モデルはconditional distributionとなっているのに、pLSIはなぜjoint distributionなのに「pLSI is not a well-defined generative model」とか書かれてるのかなぁ、と思ったら、ちゃんとLDAの論文に理…
どうなっているのかよくわからない事になりつつある。Blei版LDA実装(以下B-LDA)とMochihashi版LDA実装(以下M-LDA)で、かなり違う結果が出てくる。B-LDAの方はトピック数を変えてもテストスコアがほとんど変わらない。M-LDAは25トピックが最高性能となんだか…
「論文の9割はクズである」 …どうやらその9割の方を生産しつつあるような気がしてならないが、完成するまではそこら辺からは全力で目を背けてゆきたい。
数日前に左手の小指を痛めてしまった。原因はどう考えてみてもEmacs操作によるCtrlキーの押しすぎである。ノートPCを使っているので、手の平でCtrlを押すという技も使えない。 しかし、Emacsを使っている限り、Ctrlからは逃げられそうに無い。無変換あたりを…
ψが嫌いだ。ψを見つけると論文を読む気が無くなる。φも好きでは無いが、ψほどではない。ηも嫌いだ。ζも嫌いだ。ξとどっちがどっちかすぐにわかんなくなるので。 γは良い。Γでも良いが、こちらはフォントによっては文字に見えないので、少々微妙ではある。εも…
関数の引数の数ではなく、サイズ自体を変えたい。つまり、a(int b)もa(double c)も使えるようにしたい。CLOSなら総称関数で済む話。Cならstdargでいけそう…に思えたんだけど、可変長引数を使うとfloatは自動的にdoubleに、charとshort intはintに自動的にサ…
ノートPCのサスペンド&レジュームに失敗した。2日間走らせてた学習プロセスがお亡くなりに…!!!! まぁ、ノートでそんな長時間の学習なんかさせるのが間違いだったとしか言いようがありません。はい。 ちょうどよい機会なので、Mochihashi版LDAを試してみ…
研究がちょっと一段落…はついてないけど、WISSに来ると論文書かなきゃいかんなぁ、という気になるので、ACL2007の〆切を調べた。2007/01/23が〆切だった。修論の〆切は2007/01/26。ACL2007に出すなら、たぶん地獄を見ることになるな。失敗したら論文がだせな…
改訂第4版 LaTeX2ε美文書作成入門は12/12発売らしい。数日前に大学生協の書籍部に大量に第3版が入荷してたんだが、どうするつもりなんだろ…。
実験に使ってるデータがUTF-8なので、mecabもUTF-8にしてみた。エンコーディングが影響するのは辞書の方だけらしい。Debianのパッケージでの再構築はよくわからなかったので、tarballを開いて $ ./configure --with-dicdir=/var/lib/mecab/dic --with-charse…
発表もしないくせに行ってくる。申込をしたは良いが、学会に行く前というのはどうにも気が重い…。
全部聞く気はなかったのだけど、T教授が輪講に遅刻する許可を取ってきてしまわれたので、なんとなく流れで3番目の発表まで聞いてきた。ランジュバン方程式とかリアプノフ安定とか、応用数理Cの講義を思い出す。そういえば、応用数理Cは単位取れたんだっけ。…
現実逃避。 デバッグ目的でインタプリタに直接コードを書いてると、しまった、この値は変数に束縛しておくべきだった、というような事がある。例えば、なんか計算して答えがでたんだけど、その答えの桁が多すぎて概算がよくわからない、というような場合。例…
日本機械学会に退会届けを出した。これで所属学会数はゼロです!普通はみんな学会に入ってるもんなんだろうか。うちの研究室は入ってなくてもなんも言われないんだけど。
メインPCにメモリを1GB追加した。実験プログラムを走らせてもスワップしなくなったよ! 自腹なので、卒業するときは忘れずに外さなければ。
以下のsort1とsort2はパフォーマンスが2倍以上も違う。この速度差はどこから来るのか。 (use gauche.time) (define-class () *1 (define l '()) (define i 0) (while ( sort1とsort2で違うところは先に(ref x 'p)の結果をxpに束縛しているかどうかだけだが、…
反省点は以下の通り。 自分で理解できていないところをうまく説明できなかった。きちんと問題を切り分けて説明を練っておくべきだった。 観客の方を向く余裕がなかった。 スライドを一枚修正し忘れてたところがあって、そこで冷静さを失ってしまった。(ボス…
実はedgyになってから、ハイバネートができなくなっていた。Software Suspend2が使われるようになったからだ。(Software Suspend2はfglrxと相性が悪く、resume時にXが復帰しない。fglrxは相性問題を起こしやすいな…。)Software Suspendに戻すためにはカーネ…