2008-01-01から1ヶ月間の記事一覧

品詞を決める意義

かな漢字変換でUnsupervised HMMを使ったらどうかなとか考えてたんだけど、コーパスを増やしたら品詞の割り当てが変わってしまうようでは、(ユーザの)入力結果の学習が非常にやりにくい。品詞体系を決めて学習コーパスを作ってしまえば何の問題もないこと…

MapReduce: A major step backwards

"A major step backwards"は"重大な退化"とでも訳せばいいのかな?"MapReduce: A major step backwards"という記事が話題になっているようだ。続編も出ている。書いた人の1人はIngresやPostgresのmain architectだったらしい。 データベースコミュニティにと…

ThinkPlus USBトラベルキーボードの左クリックボタンが効かなかった件

こないだ書いた話の続き。ボタンの赤い部分よりもちょっと上を押すと、クリックが出来ることに気づいた。どうもセンサの設置位置がずれてるとか、そういう問題っぽい。 分解してセンサ位置をずらせば何とかなりそうなので、ドライバーで分解して見てみたんだ…

レイオフ

会社に入るまでは、15%とかあらかじめ人数だけ決めてレイオフするなんて道理に合わないと思ってたんだけど、会社に入ってからは考えがちょっと変わった。つまり、放っておくとダメ社員はどんどん溜まって行くので、数年もあればダメ社員の割合は15%以上にな…

Pooさんからの手紙

Pooさんといっても、くまのプーさんではない。 A Scary Letter from Poo Lab@UC Berkeley via potasiumchの日記。UC BerkeleyのPoo教授が研究室のメンバーに向けて出したメール。うちの研究室ではこれぐらいはやらないといけないよ、というような事が書いて…

ThinkPlus USBトラベルキーボードを買った

年末年始になんか妙に値段が安くなってた(普段一万円以上するのが6000円ちょっとぐらいだった)ので、ThinkPlus USBトラベルキーボードを買った。さっそく今はそれを使って打っているんだけど、どうもキーの感触が安っぽい気がする。キーの感触は初めて買っ…

Googleの異表記対策

最近というか、今年に入ったぐらいで気づいたんだけど、最近のGoogleの異表記対策はかなり踏み込んだところまでやってる。「TrackPoint」で検索すると検索結果のsnippetで「トラックポイント」も強調表示される。実際に検索結果にまで影響を与えているのかど…

latencytop 0.1

LatencyTOPというツールのバージョン0.1がリリースされたそうだ。Linux用のパフォーマンス測定ツールで、各処理(プロセスのフォークだとかファイルの読み取りだとか)にかかった平均時間と最大時間が計測できる。応答性の高いプログラムを書くためには非常…

幸運な死体

MRIにおいて、なぜ「the lucky stiff(幸運な死体)」が同じことをするように、Sandbox Hackを提供するのだろうか? たしかに、"why the lucky stiff"がハンドルネームだということを知らなければ、正しく訳すのはかなり厳しそうだ。機械翻訳でこれができる…

岐阜大でLDAが流行ってる?

数日前に公開された言語処理学会第14回年次大会のプログラムを見た。 こういうプログラムとか見ると、自分も新しいことしないとな、という気持ちになれて良い なんとLDAに関する発表が2件も。これは気になる。岐阜ではLDAがブーム? 他に興味があるのはC1-3 …

大きな企業に入れば(中略)、自分の前にはセットアップされた段階のサーバーが来る(後略)

いい技術とは何か--日本人学生エンジニアの激論160分(前編)の2ページ目に「大きな企業に入ればそのための専門のエンジニアがいて、自分の前にはセットアップされた段階のサーバーが来るということが可能になります。その手間の省け方は羨ましいですよね。…

お金は銀行に預けるな

お金は銀行に預けるな 金融リテラシーの基本と実践 (光文社新書)を年末に読んだ。 お金は銀行に預けすぎず投資に回せ 分散投資しろ 投資対象はノーロードのインデックスファンドがオススメ という3点を読み取った。この本を読んでから実際にノーロードのイン…

word salad対策とspammerの優位性

お仕事と直接関係はないのだけど、NLPの勉強をしたりしていると、どうしても実問題が気になってくる。spam判定とか。 word saladというのはここ1,2年ぐらいで有名になった新しいタイプのspamで、適当に単語を並べて文章を作るというもの。文章自体に価値があ…

Double Arrayでググると…

ちょっとした小ネタに気づいた。Double Arrayでググると、Googleの求人広告が出てくる。ちなみに、Yahooだと別にそんな事はない。 両社の欲しがってる人材の違いでしょうかね?

goto禁止!

仕事でプログラミングをするようになる前は、gotoなんて適材適所で、使うべき所で使えばいいじゃないのと思ってたんだけど、働くようになってからは、「うん、確かにこれは禁止しといた方が無難かもね…」と考えるようになった。しかし、gotoを禁止した所で、…

robots-nocontentとgoogle_ad_section_start

Web Pageの本文抽出と言うのがそこそこ難しい問題だ(精度と再現率を追求するとそこそこどころではなく難しい問題だ)という事は、一度やってみるとすぐに分かる。 そこで、ページ作者側に自分で本文箇所を指定させるための方法を検索エンジン各社が用意して…

Adaptive Grid-Based Document Layout

ディスプレイ上で表示するドキュメントでも、新聞や雑誌のように動的な格子レイアウトをやろう、という論文。まだあまりちゃんと読めてない。Microsoft Researchの人がFirst Author。 論文の詳しい内容に関しては論文読み Adaptive Grid-Based Document Layo…

C++で高階関数が使いたい

最近はお仕事ではC++ばっかり使っている。Perlを覚えろと言われたのでOJT期間にやった作業はだいたいPerlで書いたが、OJT期間を終了してからというもの、全然Perlのコードは書いてない。おかげでPerlの知識は頭からほとんど抜けてしまった。 C++でSTLを使っ…

NIPS '07 Workshop on Efficient Machine Learningが公開

少し旧聞に属するかもしれないが、昨年のNIPSのWorkshopがvideolectures.netで公開されている。Large Scaleなんちゃらというのが多く、全般的に興味深い。興味があるやつだけ、ちらっと1,2分ほど聞いてみた。 Who is Afraid of Non-Convex Loss Functions? …

Thinkpad T43でfan control

静かな家の中でPCを使っていると、ファンの音が結構気になるので、fan controlの方法を調べてみた。lm-sensorsでいけるのかと思ったら、なんだかうまくいかない。調べてみると、**** WARNING: IBM Thinkpad users should not install lm_sensors! ****という…

考える脳 考えるコンピューター

専門書の紹介だけしていても支払いの日が永遠に来なさそうな感じなので、ちょっと違う感じの本も紹介してみたい。といっても、ニューラルネットワークの話なんだけど…。 Palm社とHandspring社を作ったJeff Hawkinsは、今はnumentaという会社を作ってHierarch…

エラー処理とGUIプログラミング

GUIプログラミングをしていると、ちまちまと少量のメモリ確保を行うような場面が多く、正直、全部の関数呼び出しの戻り値をチェックするなんてやってられない、といった状況になる。だけど、むしろ本当はこういったクライアント側で動作するプログラムの方が…

packrat parsing

packrat parsingのpackratってどういう意味なのかよく分からなかったけど、pack ratで収集癖のある人、という意味があるらしい。使うかどうか分からん情報もmemoizeするから、という事かな?

xrandr便利

新しいノートを買ったのでxrandrを使ってみたけど、これは便利だ。まず、xrandr -qで今使える出力先一覧が見られる。 Screen 0: minimum 320 x 200, current 1280 x 1024, maximum 2800 x 1050 VGA-0 connected 1280x1024+0+0 (normal left inverted right x…

Thinkpad T43買った

年末にThinkpad T43を中古で買った。ファンの音が気になるとか、バックライトが暗くなりすぎて見づらいとかあるけど、やはりトラックポイントは使いやすい。東京に戻ったらバックライトは交換する予定。 メモリは学生のときに買った1GBのを増設したので不満…

明けました

おめでとうございます。今年は去年よりは生産的な方向で頑張って行きたいと考えています。よろしくお願いします。

パターン認識と機械学習

というわけでさっそく紹介。「パターン認識と機械学習」上巻。6825円という値段は純粋に本一冊として考えると割と高いというか、懐に痛い値段だけど、訳もしっかりしてるし、とても良い本だと思う。訳の他にどこら辺が良いかというと、機械学習の手法が概観…

アフィリエイト

今年はどうも収入が減ってしまうことになりそうな予感がするので、アフィリエイトを始めてみた。希望としては毎月の専門書代の半分ぐらいが何とかなってくれると嬉しい。