ホワイト日記

柏での日々をつれづれなるままに書き記したいと思います.

月曜,火曜

2006-09-28 20:02:01 | その他
今日,明日と福岡出張.
飛行機搭乗までの待ち時間に書いていました.

一昨日月曜日はインテリジェントシステムシンポジウム(http://www.race.u-tokyo.ac.jp/fan06/)で発表.
今年は柏キャンパスが会場ということもあり申し込んでみました.
私は共創・価値創成セッションにて発表しました.
人工物からは私を含めHさん,Kさんが発表しました.Hさん,Kさんともご自身の研究の面白さを分かりやすく伝えており,聞いている側も取り組みたくなる課題でした(実際には難しい問題に取り組まれているとは思いますが).
自分の発表はこれまでのまとめのような話で,手法の提案というより分析結果の報告という形の発表でした.いつもながら取り留めのない話で恐縮です.
幸いY先生ともうS研の方からご質問を頂き,ブログの分析方法の検討と他のデータとの関連について調べる必要があると思いました.
夜は懇親会に参加し,K大のOさんと人間の学習過程における時間と効率についてとても面白いお話を伺うことができました.お時間を頂き有難うございました>Oさん.

昨日は都内で打ち合わせ.
N先生,U先生,K先生,M先生,Eさんのお話を伺いました.
N先生とU先生のやりとりを聞くと結構大きな話になりそうです.
U先生は語彙が豊かで,話をしていてもその内容をうまくまとめられて非常にキャッチーな言葉を伺うことができました.さすが言語を研究されている先生です.
その後,神田で飲み会をして帰宅しました.

検索の高速化3

2006-09-26 12:29:37 | 研究
他のサービスが何故高速に検索できているのか調べてみた.

Google Trends
http://www.google.com/trends
これはGoogleに対して発行された検索語の頻度を時間軸上に表示するサービス.
中では,事前に全ての索引語について集計しておき,
検索時には集計結果を返すので高速化できているのではないだろうか.
その場で集計している訳ではないだろう.
事前に集計しておくとして,集計作業に要する時間はどのくらいなのだろうか?
どのくらいの数の索引語に対して集計を行っているんだろうか?
どのくらいの頻度で更新しているんだろう?
(簡体)中国語版もあるようだ.
http://www.google.com/trends?hl=zh-cn

blogWatcher
http://blogwatcher.pi.titech.ac.jp/
残念ながら現在(2006/9/25)はメンテナンス中でアクセスはできない.
以前使ってみた時は,これも確かその場で集計していたんじゃなかろうか.
今確認できないのが残念.

BlogPulse
http://blogpulse.com/
これは検索要求があった時にその場で集計しているようだ.
Webで確認できる対象期間は過去6ヶ月まで.実際はもっと長いだろう.
これもGoogle Trends と同じようにDB中の索引語に対して
定期的に集計しておいて,検索要求時にグラフ化しているのだろう.

ざっと他のサイトを見た感じでは,事前に全ての索引語に対して
集計しているようだ.任意のキーワードに対応するため,索引語は
形態素解析の結果ではなくn-gram で分割しているのかもしれない.

検索の高速化2

2006-09-24 22:25:44 | 研究
まだ高速化部分で格闘しています.
今日は午後から会社に出向き大量データと格闘していました.

検索結果を日付ごとに集計しない場合はHyper Estraier で高速化できそうですが,
集計する場合は時間が掛かってしまいます.

・MySQLでの検索で速度は検索結果のレコード数に依存するようだ.
 1,000件以内の場合は1秒以内に検索可能だが,10,000件を超えると1-2分ほど掛かっている.
 一つ理由として考えられるのは,検索と登録を同じDB 上で実行していること.
 検索用と登録用のDB を分けることも検討しなければ.

・Hyper Estraier を試してみました.
 http://hyperestraier.sourceforge.net/
 100万件のファイルに対して1秒以内の検索が可能でした.
 ただ,日付ごとに検索結果を集計するという使用法は想定していないようで,
 日付順にソートすると途端に遅くなる.インデックス作成時,attr に日付属性を
 指定しても検索時には速くなっていない.逆に非常に遅くなっている.何故だろうか?
 estcmd create -attr @cdate seq -xh -apn testdb
 estcmd search -ic euc-jp -va -ord @cdate testdb hogehoge

・Suffix Array を使った検索(SUFARY, sary)を使うと高速化できそうだ.
 http://cl.aist-nara.ac.jp/lab/nlt/ss/ (SUFARY)
 http://sary.sourceforge.net/ (sary)
 SUFARY の場合,16万件の記事に対して1秒以内に検索できた.
 ただし,両者とも2GB 以内のファイルしか扱えないため,全ての記事(例えば
 1か月分)を一度に扱うことはできず,何日かごとに分けて索引を作るなど考える必要がある.

今日はここまで.まだまだ修行が足りないなあ.
Google様には手も足もでない.

検索の高速化

2006-09-22 20:49:01 | 研究
ブログ記事検索の高速化を目指して頑張っているのですが,なかなか思うように高速化できません.
今日はHyper Estraierで試しに20万ファイルに対して索引を作り,検索してみました.
Hyper Estraier では確かに瞬時に検索結果が得られるのですが,これはスコア順でソートされた結果で,日付順にソートしようとすると途端に時間が掛かってしまいます.

ブログの場合,とにかく量が多いので,検索のプロセスを想定したとき,キーワードに対するスコア順でブラウジングするよりも,そのキーワードがいつどのような文脈で話されていたか,検索結果の概要を知るということも大事だと考えています.
要は検索結果を集計して表示したいのですが,私がまだEstraierの使い方に慣れていないせいかうまく実現できていません.

しかしGoogleやgoo, Yahoo などの商用の検索エンジンは実際に膨大な量のデータに対して瞬時に検索できているので,何か方法があるはずです.
しばらくはトライ&エラーでいろいろなツールも試しながらやって行こうと思います.

ささやかな楽しみ

2006-09-22 01:48:52 | その他
研究とは関係ないですが,今日(昨日)のささやかな楽しみを書こうと思います.
2つあります.

ひとつはお昼ごはんです.
今日は東京でミーティングがあり,その行き掛けに大手町のリトル小岩井に行きました.
ここはスパゲティのお店なのですが,何と言ってよいか独特のスパゲティです.
麺は太く,しっかりと小麦粉が入っています.これをじゃかじゃか炒めたのが小岩井のスパゲティです.
とにかく百聞は一見に如かずです.行ったことの無い方は是非一度足を運んでみてください.
大手町ビルの地下2階,スターバックスの近くにあります.
昼時はだいたい行列が出来ているので分かると思います.
毎日食べるのはしんどいかもしれませんが,忘れた頃にふと食べたくなるボリュームと味です.
# 日経のサイトに紹介記事がありました.
http://www.nikkeibp.co.jp/style/life/topic/satonao/051205_koiwai/

もうひとつの楽しみは成城石井(http://www.seijoishii.co.jp/)での買い物です.
来週の月曜にランチの会を予定しており,そこでのお茶とお菓子を買ってきました.
成城石井は前の職場で同僚の方に教えてもらったのがきっかけで,いつかここで買い物をしようと思っていました.
今回ちょうど良い機会だったので出かけた次第です.
今日は以前食べて美味しかったクッキーがあったのでそれを買ってきました.
人工物工学研究センターにお近くの方がおられましたら,来週の月曜(9/25),
ランチの会をやりますので是非遊びにいらしてください.
このクッキーはお勧めです.お待ちしております.

以上,ささやかな楽しみでした.

学際研究の時代

2006-09-21 17:46:53 | 人工物工学
先日のRACE研究発表会でN先生とお話させて頂いたのですが,
この何年かは学際的な問題に焦点が当てられており学際的な研究が多くなっている,
そしてこの傾向は今後何年か続くというお話でした.
人工物工学の扱う問題もまさに学際的な問題(たとえば人工物のもたらす
環境への影響や社会にもたらす事故など)です.
人工物工学を提唱された吉川弘之先生は社会技術研究というものも提唱されていますが,
これも学際的な研究領域です.

ちなみに,こうした傾向は関東近辺だけの傾向なのでしょうか?
同じ研究分野でも関東と関西では扱う問題が違っていたりするようです.
私自身の少ない経験では関西は基礎的な問題にじっくり取り組んでいるように思います.
特にATR や京都大学の研究を見ているとそう思います.
一方,関東では(と言っても身の回りしか分かりませんが)社会の問題を対象とした
研究や研究プロジェクトが多いような気がします.
と言っても実際に世の中の研究課題を調べた訳ではないので何とも言えませんが.

さて,現在が学際研究の時代だとして,それに真剣に取り組むならば,
研究者自身が他の分野の知識も一所懸命に勉強して博学になるか,あるいは
他の専門分野の研究者と協力して問題に取り組むかのどちらかではないかと思います.
前者は学者にとっての理想なのだと思いますが,なかなか難しいでしょう.
後者のコラボレーションも実際にはなかなか難しいことですが,前者が難しい以上
後者のアプローチで問題に対処するしかないように思います.

ここで大事だと思うのは,研究者が互いに密なコラボレーションを取らないと
行けないということです.そのためにも時には相手の専門領域まで越境することも
必要だと思います.先週の研究会ではA先生がこのことを「移動知」と呼んでおられました.

単に個々の専門知識を持ち寄っただけ,単に個別研究を総和しても問題は
何も解決されないと思います.これは価値創成,人工物工学の研究についても
そうだと思います.
共通の課題に向かってそれぞれの専門知識やスキルを持った研究者が
知識やスキルを融合させることが大事だと思います.
そのためにも,ある程度時間と空間を共有して(本来は同じ場所で仕事をするのが
良いと思いますが)互いの専門を知り,
その上で協働して問題に取り組むという体制が大事ではないかと思います.
そうした体制を考える上で,きっと研究者の協働を支援するIT ツールも
何か考えられるでしょうし,私自身はそうしたツール作りにも取り組みたいと考えています.

検索エンジン

2006-09-21 00:33:40 | 研究
価値創成,人工物工学の研究と平行して本業のブログの収集と分析もやっております.
今日は以前から問題であった検索速度の改善に着手しました.
今までは自分しか検索しなかったので速度度外視でやっていましたが,今回,他の先生にもデータを使って頂くことになり必要最小限の検索機能を準備しています.
検索速度の改善にはデータ収集方針の若干の変更も必要で,今までのデータと整合性を持つよう新たなやり方を検討しています.

今から独自の検索機能を用意するより,既存の検索システムを導入した方が早いかもしれません.
そこで現在,Hyper Estraierというシステムを試しています.
http://hyperestraier.sourceforge.net/
月間で900万件のブログ記事が集まり,今後も継続的に集まる予定なので年間で1億件ほど,それを数秒内に検索できるようにしたいと思っています.
果たしてうまくいくか.
しかしGoogleをはじめ商用の検索エンジンはこれ以上の規模でも瞬時の検索結果を返しているのだから,やり方次第で何か解決できるのでしょう.
改めて検索エンジンの技術に興味が沸きました.

調べてみると山名早人先生が2001年にGoogleの紹介記事を書かれていました.
山名早人,近藤秀和:”サーチエンジンGoogle”,情報処理,Vol.42, No.8,pp.775-780 (2001.8)
http://www.yama.info.waseda.ac.jp/publications/gifimage/papers3/yamana-IPSJ8.pdf
これによると2001年2月の段階でPCが8千台,13.5億ページ(3月時点)とのこと.
現在はもっと増えているのでしょうが,しかしよくこれだけのPCとデータを扱っているものですね.

今,私は10台のPCしか使っていませんが,次は100台のPCを扱えるようになりたいと思います.100台を扱えたなら1,000台,1,000台の次は10,000台と扱えるようになれたらいいなあと思います.
まあ実際には予算の問題,電気の問題,スペースの問題があって無理でしょうが,少なくともスキルとして身に付けられればと思います.
計算機システムに関する知識と経験とともに,検索や計算に関する知識と経験も磨かねば...

取り留めないですが近況報告ということで.

第1回柏ランチ倶楽部

2006-09-19 20:36:14 | その他
今日は先週O先生と話をしていた人工物工学研究センター内のランチの会を行いました.
以前にもランチの会はあったのですが担当の先生がお忙しく,しばらく途絶えていました.
今回,二人のO先生と話し合い,センター内で交流の場があったほうが良いだろうということで,
新装開店の第1回を開催する運びとなりました.

第1回の開催結果は以下の通りです.
- - - - - - - - - - - - - - - - - - - - - -
第一回柏ランチ倶楽部
日時:2006年9月19日(火)12:00-13:00
場所:総合研究棟5階ラウンジ
参加者:O先生、Uさん、Sさん、Tさん、O先生、私(6名)
- - - - - - - - - - - - - - - - - - - - - -
開催が決まったのは今日のお昼で,急なご案内にも係らず皆様にお集まり頂いて感謝しています.

次回は9月25日(月)12時からを予定しています.
もしこのブログをご覧の方でお近くの方は是非お越し頂ければと思います.
=============================================
   第2回柏ランチ倶楽部のご案内

日時:平成18年9月25日(月) 12:00-13:00
場所:柏キャンパス総合研究棟5階 人工物工学研究センター内オープンラウンジ
費用:不要(当日は若干のお茶とお菓子を用意致しますが,
      皆様お弁当をお持ち頂ければ幸いです)
=============================================

趣旨としてはRACEのセンター内だけでなく,柏キャンパスに向けても
オープンにしたいということで『柏ランチ倶楽部』という名称にしています.
ある程度軌道に乗ったら,晴れた日に外に出て(例えば柏の葉公園に出掛けて)
ランチの会をできればと考えています.

開催日としては,曜日を固定すると参加できない方もおられるので,
下記のように週ごとに曜日を変えて実施することにしました.

第一週:金曜
第二週:木曜
第三週:水曜
第四週:火曜
第五週:月曜

価値創成の研究も人工物工学の研究も,結局,研究者同士の交流がなければ
始まらないと思いますので,どのくらいの参加者があるか分かりませんが,
まずはこうした交流の場を設けて行きたいと思います.

Windows Update適用時の自動再起動を止めたい

2006-09-15 17:56:27 | その他
今朝,研究室にやってきてPCにログインすると,昨日まで使っていたウィンドウはどこへ行ったのか,綺麗さっぱりなくなっていました.
どうやらWindows Updateが勝手にPCを再起動した様子です.
何で勝手に再起動するかなー.デスクトップの状態を維持することは昨日の仕事を継続する上で大事なのに,勝手にまっさらな状態にするなんて.一度全てを水に流して仕事しろってことでしょうか.
朝からがっかりしてしまいました.

Windowsの自動再起動を止める方法が以下のURL にありました.
同じような被害に合わない為にもご参照頂ければと思います.
http://support.microsoft.com/kb/912843/ja

絵を描く

2006-09-15 12:17:19 | プロジェクト
山路を登りながら,こう考えた。
智に働けば角が立つ.
情に掉させば流される.
意地を通せば窮屈だ.
とかくにこの世は住みにくい.

夏目漱石の草枕が気になり,昨日本屋まで買いに行きました.
まだ読み始めたばかりで内容をまとめるまでには至っていませんが,
絵描きの主人公が世間の喧騒から離れて小旅行する話(のよう)です.
さすがに文章を書く人だけあって使っている語彙が豊かです.
同時に英語の詩や漢詩,俳句などが取り込まれていてなかなか面白いです.

主人公は途中立ち寄った茶屋のおばあさんをデッサンしたり,
絵の話などをしているのですが,研究プロジェクトも絵を描くということに近いように思いました.
何も描かれていない画用紙なりキャンバスに,線を引き,色を塗り,面を作っていく
ということは,まさにプロジェクトを進めることと同じように思いました.

価値創成プロジェクトもまだ線を引いたり色を塗ったりできる面積が多くあります.
これから自分たちなりの線や色を塗って行きたいと思っています.