2010-01-01から1年間の記事一覧
Shotgunは開発用なので、デフォルトだとlocalhost以外からは見られないようになっている。 shotgun -o 0.0.0.0 って-oオプションをつければ、他のマシンからもアクセスできるようになる。
Ubuntu 10.04 (Lucid Lynx) が4月末にリリースされたので、手持ちのPCをアップグレードした。PDFを見るときには標準の文書ビューワであるevinceを使っているのだが、この10.04からは、Ryuminが指定されている場合、明朝体のフォントを使うようになったみたい…
Sequelのvalidation_helpersの使い方がよくわからなくて、試行錯誤したのでメモしておく。 class Documents < Sequel::Model plugin :validation_helpers def validate validates_min_length 1, :title validates_min_length 1, :body end unless table_exis…
論文を読んでいると、どうにも発音の仕方が分からない単語がしばしば出てくる。固有名詞、特に人名がからむものに、発音がわからない単語が多いようだ。 例えば、Nonparametric Bayes Modelを勉強すると、ほぼ確実にYee Whye Tehという人にたどり着くのだが…
KyTea(京都テキスト解析ツールキット)は京大のGraham Neubigさんが中心となって開発している単語分割&発音推定ツールである。 私はかな漢字変換用の学習データを作るのにこれまではmecabを使っていたのだが、mecab-ipadicのデータには、そもそも読み推定に力…
新年の抱負で1週間に1回ぐらいは更新したい、と書いたが、2月最後の日にして、今月の更新回数は未だ0である。1ヶ月間、1回も更新しないのもアレなので、便利な割にあまり使われていないGreasemonkeyスクリプトを紹介しておきたい。 Google検索は言語設定が日…
転職するまでskypeチャットは使ったことが無かったのだが、skypeチャットにはいろいろと魅力がある。 通信が暗号化されている 中国版は中国政府が検閲できるという話もないではないが… 自分がログインしてなかった期間のチャットログもログインすると適当に…
なんとなくフリック入力が試したくなってiPod touchを購入したのだが、Linuxで初期化しようとしたら失敗して、おまけにWindows XPなマシンにつないでもiTunesから正常に認識されなくなってしまった。認識されるどころか、ケーブルでつないだ瞬間にブルースク…
以前に系列ラベリングの各種アルゴリズムの比較でCRFが予想外に性能が悪かったと報告している論文の話を見たのだが、今日検索をしていて、"CRF versus SVM-Struct for Sequence Labeling" (S. Keerthi, S. Sundararaja, 2007, pdf) というテクニカルレポート…
ブログなどをクロールしてきたデータをmecabで解析して作ったコーパスからモデルを学習させていたのだが、mecabは決定的に読みをつけるので、例えば「にほん」で「日本」が変換できない(mecabは"にっぽん"と読みをつける)。日常生活で使っていると、これは…
何回もハマるのでメモしておく。status=bounced とか Insufficient Address:hoge (in reply to MAIL FROM command) とかログに出たときは注意。 /usr/bin/mail -s "ここにsubjectを書く" $to_address -- -f $from_address << BODYEND ここに本文を書く BODYE…
本当は三が日中にまともなエントリを1本ぐらいは書く予定だったのだが、ちょっと無理だった。というわけで、実質的に新年一本目のエントリです。Large Scale Learning to Rank (D. Sculley, NIPS Workshop on Advances in Ranking, 2009) (pdf) を読んだので…
新年明けましておめでとうございます。今年もよろしくお願いします。 と言う訳で、いよいよ2010年が始まってしまった。新年の計は元旦にあり、などと気張っても長続きなどしない事はわかりきっているので、ぼちぼちとやっていきたい。 去年は良い年ではなか…