BM25Fの論文は、Simple bm25 extension to multiple weighted fieldsというタイトルで、Hugo Zaragoza氏のPublicationsのページにありました。
2011/02/09追記:
現在は、http://www.eecs.qmul.ac.uk/~ywang/download/p42-robertson.pdfにあるようです。
20 . . . 本文を読む
rsync -az --delete でコピー元の最後にスラッシュをつけてしまい、ホーム全体を書き換える事故を起こしてしまった。.sshも消されるのでsshでログインできない。とりあえず、.sshを復活させたが、
Permission denied (publickey,gssapi-with-mic,hostbased)
のエラーが表示される。.sshと、その中のauthorized_keysの . . . 本文を読む
一定スレッド数でジョブを実行するスクリプトというタイトルで書いたが、もっとシンプルになるので改めて。
worker_num = 8 # 固定スレッド数を書く。
require 'thread'
jobs = Queue.new # Queueを使えば排他制御は必要ない。
while line = gets
jobs << line.chom . . . 本文を読む
巨大なTokyo Cabinetを構築しようとすると、メモリがあっても、DBのサイズが256Mバイトくらいから、急激に遅くなる。おそらくバッファ(キャッシュとは違う)がOSが指定したサイズを超えているためと考えられる。そこで、RAMディスク(Linuxなら/dev/shmを使うと便利)を使うと、256Mバイトを超えてもストレスなくTokyoCabinetを構築できる。もちろんメモリがある限りだが。 . . . 本文を読む