徒然なるままに

Mail: topography "AT" mail.goo.ne.jp

Computer News/メモ, 06/02/16-2

2006-02-16 | Computer_News
GOTO BLASで世界的に有名な テキサス大学 Texas Advanced Computing Center (TACC) 研究員
後藤和茂さんの紹介です:
 Texas Advanced Computing Center (TACC): http://www.tacc.utexas.edu/ の表紙を飾られています
"The Human Code
 Researcher’s handcrafted work makes world's fastest computers run even faster", January 26, 2006
 http://www.tacc.utexas.edu/research/users/features/goto_feature.php
 "In at least one battle between man and machine, the man is winning. He is Kazushige Goto,
  a research associate at the Texas Advanced Computing Center (TACC) at The University of
  Texas at Austin. Goto can make supercomputers run faster and more efficiently
  and he can do it better than complex programs developed for that purpose."

 "It was a coup for TACC when it lured Goto from his job as a patent examiner in
  the Japan Patent Office to work in Texas full time."

 "Now that his former hobby is his full-time job, Goto has another problem to solve.
  “I have to find a new hobby,” he said."

Kazushige Goto
 Research Associate
 High Performance Computing
 http://www.tacc.utexas.edu/general/staff/goto/

少しは関係あるかもしれないエントリー:
 IEEE 754-1985 Floating-Point Arithmetic等々のメモ I, 06/01/16
 IEEE 754-1985 Floating-Point Arithmetic等々のメモ II, 2006-01-16
 Fortran Compiler Comparisons, Polyhedron Software, 2006-01-18




Computer News/メモ, 06/02/03で紹介した
 "米エンロン社の電子メール150万通:その利用法(上)", 2006年1月30日
  http://hotwired.goo.ne.jp/news/technology/story/20060201302.html
 "米エンロン社の電子メール150万通:その利用法(下)", 2006年1月30日
  http://hotwired.goo.ne.jp/news/technology/story/20060202305.html
ですが、ここで取り上げられていない研究者のテクニカルレポートが紹介されました:
"Enron Email Database Proves Easy Pickings for LBNL’s FastBit Search Technology", Feb 13, 2006
 http://www.supercomputingonline.com/article.php?sid=10420
 "The Berkeley Lab group decided to conduct a series of searches of the Enron email dataset to see
  how FastBit, an efficient, compressed bitmap indexing technology that was developed by the group,
  stacked up against the MySQL database, which bills itself as “the world’s most popular open source
  database,” in which the data were stored.

  In a report published in January 2006, the group evaluated the performance of MySQL and FastBit
  in handling a number of queries for a dataset of 250,000 unique email messages sent by
  151 Enron employees and found that FastBit outperformed MySQL ― between 10 to 1,000 times faster,
  depending on the size of the search result. To achieve their results, group members conducted
  several experiments."

Dr. Kurt Stockinger
 Scientific Data Management Research Group, Computational Research Division,
 Lawrence Berkeley National Laboratory, University of California
 http://sdm.lbl.gov/~kurts/
 Research: http://sdm.lbl.gov/kurts/research/research.html
  Technical Reports:
  "Analyzing Enron Data: Bitmap Indexing Outperforms MySQL Queries by Several Orders of Magnitude",
   Kurt Stockinger, Doron Rotem, Arie Shoshani, Kesheng Wu,
   Magnitude, Technical Report, LBNL-59437, Berkeley, California, January 2006.
   http://sdm.lbl.gov/kurts/research/enron-fastbit-lbnl-59437.pdf (4Page)
 FastBit: An Efficient Compressed Bitmap Index Technology
  http://sdm.lbl.gov/fastbit/

Hotwiredの記事で紹介された大量データの可視化で面白そうなサイト:
 UC Berkeley Enron Email Analysis
  http://bailando.sims.berkeley.edu/enron_email.html
  exploring enron, visual data mining of e-mail
   http://jheer.org/enron/
   prefuse visualization toolkit (可視化に利用されたツール)
    http://prefuse.sourceforge.net/
    "A Java-based toolkit for building interactive information visualization applications."
    galleryに各種デモがあります (Javaベース)
   Jeffrey Heer (prefuse開発者)
    http://jheer.org/
 Email Visualization Research
  Human-Computer Interaction Lab, University of Maryland
  http://www.cs.umd.edu/hcil/emailviz/
 Enron Email Dataset
  http://www.cs.cmu.edu/~enron/
 Text Retrieval Conference (TREC) workshop
  http://trec.nist.gov/


いずれは、こういう流れとつながるのでしょう:
"US plans massive data sweep", Christian Science Monitor, February 09, 2006
 http://www.csmonitor.com/2006/0209/p01s02-uspo.html?s=hns
 "The US government is developing a massive computer system that can collect huge amounts of
  data and, by linking far-flung information from blogs and e-mail to government records and
  intelligence reports, search for patterns of terrorist activity."

"Majestic Research finds favor with hedge funds", Reuters, Feb 14, 2006
 http://today.reuters.com/investing/financeArticle.aspx?type=fundsFundsNews&storyID=2006-02-14T191858Z_01_N14387237_RTRIDST_0_FINANCIAL-MAJESTIC-HEDGE.XML
 "But the New York-based research firm is winning converts among hedge funds who say
  its brand of Web-based quantitative analysis can be more accurate than traditional Wall Street
  research forecasts."
 "But instead of sales leads, Majestic uses Web data to track sales and forecast financial results
  for target companies - ahead of quarterly earnings releases."
 Majestic Research Corp.
  http://www.majesticresearch.com/

さらには、Computer News/メモ, 06/02/15
 "Bush may end federal tech funding program
  Program for high-risk IT projects is at high risk of elimination", FEBRUARY 12, 2006
"Remarks by Homeland Security Secretary Michael Chertoff at the National Emergency
 Management Association Mid-Year Conference", FEMA, February 13, 2006
  http://www.dhs.gov/dhspublic/interapp/speech/speech_0268.xml
  "The reality is, FEMA lacks technology and information management systems to effectively
   track shipments and manage inventories."
  "We will also begin the process of upgrading FEMA’s outdated information technology
   and computer systems."
  被災地から送られてくる大量の報告の効率的(優先順位をつけた)な処理システムの整備
  ロジステックのデータ管理は昔から最適化問題で大きな課題でした。
  確か、以前の IBM Deep Computing Instituteでは、空港での飛行機配置の最適化
  (空港のロジスティック問題・荷物配達経路のプランニング;エネルギー削減に多大な影響が出ます・
  スケジュール調整)等大規模データ処理の最適化実例が記載されていた気がします。

"Homeland seeks budget boost for IT infrastructure improvements", 2/07/06
 http://www.washingtontechnology.com/news/1_1/daily_news/27922-1.html
"NIST to Focus on Research Initiatives for President’s Innovation Agenda", Feb 07
  http://www.supercomputingonline.com/article.php?sid=10372


データマイニング・テキストマイニング、新しいデータフォーマット策定、それに適したストレージシステム、
データの一貫性を保証した(消せない・変更履歴が残る)ファイルシステム、ネットワークトラフィックを含めた
データ収集技術とその管理までも含めた、大量データからの目的に適して、セキュリティをしっかり確保した
有益で必要最低限のデータの抽出と使い勝手の良い、ユーザにとって新たな負担にならない可視化技術の
研究はますます進む必要があるでしょう。手軽なところでは、ログ管理。

そう言えば、一時期さんざん流行ったインンフォメーション・リトリーバルという言葉の活気が最近薄れてきた
気がします(最近では情報抽出かなぁ)。


米国では、Department of Homeland Securityの当たらしプロジェクトが今年(2006年)から開始されました。
 Focusing on visual analytics to thwart terrorism, 2006-01-19
以前はネットワーク上でのトラフィック可視化がブームでしたが、この頃はここまでターゲットを明確化してます
(ネット上のメールに対するデータマイニングも考慮されているでしょうね)。


大量データの海で溺れて、本当に自分の欲しかったものが判らなくなってしまうことだけは避けたいですね。
でも、大量データのネットサーフィングはそれなりに楽しいですが。
しかしながら、最終的にはデータをどう判断するか(読み解くか)という人間の能力に関わってきますね。
もっとも重要なのは、得られた結果をどう使うかという、人間としての心 (良心) の問題・・・


やっぱり、ストレージシステムから検討した、データストリーミン(データフロー)重視のシステムの
重要性はますます高まりそうです。これはコンピュータ(プロセッサ技術動向も含めて)。
だから、今こそ Chinking Machine-2や DataFlowアーキテクチャを学ぶのです!


※[06/02/21]
"メール検索を容易にする製品が続々登場--規制当局からの記録開示要求の増加受け", 2006/02/21
 http://japan.cnet.com/news/biz/story/0,2000050156,20096879,00.htm
"E-mail sleuthing made easy", January 26, 2006
 http://news.com.com/2100-1012_3-6031027.html


最新の画像もっと見る

コメントを投稿

ブログ作成者から承認されるまでコメントは反映されません。