最適化問題に対する超高速&安定計算

クラスタ計算機やスーパーコンピュータ上での大規模最適化問題やグラフ探索などの研究のお話が中心

リコール

2006年05月31日 02時16分32秒 | Weblog
トヨタ車に大量のリコールが発生した。リコールなんて頻繁に発生しているのだが、結構売れている車が多く、しかも個人的に所有している車も入っていた(ただし私のモデルは油圧式パワーステアリングなので今回は対象外のようだが)。今の車はコンピュータ等による電子制御なので変な動きを経験することがある。たまにギアがバックに入らないことがあった(一度ブレーキを踏んで P に入れてからやり直す)。これだけ車が複雑になって、コスト重視で出来るだけ軽くしようとするといろいろと不具合が出てくるだろう。それほど致命的で無ければリコールは仕方がないと考えるか、それとも1回でも許されないと考えるか難しいところだ。前に乗っていた車も雪深いところで走るとブレーキが利かなくなる可能性があるとかで1度リコールがあった。

不具合の状況
電動式パワーステアリング付車のハンドルとギヤボックスを連結しているインタミディエイトシャフトとスライディングヨークの強度が不足しているため、低速時にハンドルを強く一杯に切ったり、走行中縁石にタイヤを接触させる等、当該部品に過大な力が繰り返し作用すると、連結部が緩亀裂が生することがあります。そのため、そのまま使用を続けると、最悪の場合、連結部が外れたり折損して、かじ取り操作ができなくなるおそれがあります。
コメント
この記事をはてなブックマークに追加

INTEROP と CEATEC Japan

2006年05月30日 00時54分46秒 | Weblog
6月の7,8,9日と幕張メッセにて INTEROP が開催される(カンファレンスは6月5日から9日)。最新のネットワーク環境やソリューションを体感できることになっている。産総研も参加するようで、グリッド関係の研究紹介や展示が行われる予定である。10Gイーサネット関係も多数紹介されるだろう。ちなみに事前登録(無料)はあと三日である。
またはるかに先の話だが、例年参加している CEATEC Japan 2006 も10月3日から7日まで開催される。
コメント
この記事をはてなブックマークに追加

GridMPI と ssh 認証2

2006年05月29日 02時55分05秒 | Weblog
GridMPI のために ssh をホストベース認証に変えると共に MPICH2 の mpd を起動するためのシェルを rsh から ssh に変更する。ssh のホストベース認証もあまり安全なものではないが、グローバルIP を持つマシンで rsh でのログインを許可するのは危険なので rsh は停止した。ASC なども同じ処置をしている(かなり昔からだが)。rsh から ssh に変えても実行時間には影響無いようだ(少なくとも mpd を起動する方式の MPICH2 では)。
コメント
この記事をはてなブックマークに追加

温度センサー

2006年05月28日 04時17分55秒 | Weblog
結局突然電源が切れる Opteron の PC は修理に出すことになった。CPU と CPU ファンの間のシリコングリスの塗り具合が怪しいのだが他の要因も考えられるので業者に出して他の要因も探ってもらうことになっている。CPU には温度センサーが付いていて BIOS 画面から見ることが出来るが、電源を入れてすぐの状態で 55℃から60℃ぐらいの温度になっている(これも怪しい)。しかしその後しばらく動かしてもやはりこの温度範囲内ぐらいを変動し、特に熱暴走している様子はない。
センサーと言えば現在、計画立案と組織編制中の文化財グリッドでも関心の一つになっているが、温度や湿度センサーによって、温湿度の時間変化が分かると、文化財の障壁画の日常管理に大いに役立つそうだ。湿温度の急激な変化が障壁画の破損を起こすので、危険を感知することができる。
コメント
この記事をはてなブックマークに追加

量子化学分野の SDP

2006年05月27日 03時42分39秒 | Weblog
量子化学の SDP は現在実行中の巨大な問題を除けばほぼ実行を終了した。まだ十分な精度が出ていない問題はパラメータを変えて解きなおすことになるが、非常に大きな SDP で p.feas.error や d.feas.error、及び relative gap が 1.0E-7 から 1.0E-8 程度の精度が出るというのは今までの経験から言ってもあまり無いことである。それでもこの分野では 1.0E-8 ぐらいまで精度が出ないと意味が無いので、なかなか1回の実行で終わるのは難しい。
例えば、以下のような四つの問題があったときに
1: 元問題
2: 元問題 + 追加制約 A
3: 元問題 + 追加制約 A + B
4: 元問題 + 追加制約 A + B + C
普通は 1 が一番解きやすく(実行が速く、精度が良い)、2、3とだんだん解きにくくなっていって、4が一番解の精度が悪くなるはずである(上記の三つの指標)。しかし、1と2と4は精度が良いのに、3だけが精度が悪いという SDP が存在する。これは調査と改善の必要があるようだ。
コメント
この記事をはてなブックマークに追加

欲しいものと買えるもの

2006年05月26日 10時47分39秒 | Weblog
任天堂の Wii は 25,000 円以下になるそうだが、6万円台でも一番欲しいのは PS3 のようである。心理学的には 25,000 円と 62,790円とどちらが安いかと言われれば、25,000円は安いと感じるかもしれないが、絶対額で見れば 25,000円でも高い。三つニセモノが出てきてどれが本物かと言われれば、全部ニセモノとは普通思わないのと一緒である。どうせ娯楽品なので 6 万でも 7 万でも最近機能が満杯の方がいいと思う考え方もある。まあ欲しいのと買えるのとは同じではないが。
コメント
この記事をはてなブックマークに追加

マルチコアとロジスティック

2006年05月25日 04時42分54秒 | Weblog
Cell の能力を生かしてプログラミングするのが大変なので PS3 のゲーム開発が苦戦しているという噂を聞くが、要するにマルチコアを効率良く使いこなすのが大変なのだろう。メモリの帯域などの問題で全部のコアにデータを潤沢に出し入れ出来ないのだろうが、これも結局ロジスティックの問題であり、多くの生産設備を用意したが工場に至る道路が細いので十分な資材を輸送できないのと同じ現象である。昨日も書いたが 100 コアをどのように制御して使っていくのか大変楽しみなところである。
Cell に限らないが、ロジスティック的に少し計算したり考えて見れば適正な規模というのはある程度理解できるのではないか(Cell のマルチコアとメモリ帯域との考察はこちら)。例えば太平記は、史学の立場からは誇張が多く価値が低いとされているが(北朝方の正史とする説もあり)、例えば楠木正成の千早城を攻めた幕府勢 100万騎や新田義貞の鎌倉攻めの人数 70万以上(幕府勢は13万以上)などであるが、軍勢を維持する兵糧や参陣。軍功などを報告する着到状や軍忠状の資料からはあり得ないほど大きな規模であると言われている(講談社 日本の合戦 45)。要するにこの規模では兵糧を賄うのも、軍隊として組織するのも不可能に近いということである。実際の規模はこれの 10分の1 ぐらいではと言われている。
EU の国力をもってしても 5~6万の部隊を 1年程度海外に派遣するのは大変なようである(参考資料)。アメリカも部隊のローテーションや現在の財政赤字を考えるとイラクに派遣できるのは現在の15万(3個師団)ぐらいが限界なようだ。
コメント
この記事をはてなブックマークに追加

クァッドコア

2006年05月24日 23時42分24秒 | Weblog
デュアルコアの CPU が普及してきたが、クァッドコア(4コア)の CPU も登場する。さらに Tera-Scale Computing Research Program という名前で 1 Tera flops を目指すために、Many Core (メニイコア)という名前で 10 から 100 個ぐらいのコアを搭載するモデルがある。以下の問題等を上手に克服できれば、主流になれるだろう。
1:高電圧、高温化に対応して電力制御
2:I/Oやメモリの広帯域化
3:多コア、多スレッドによるメモリロック
4:マルチスレッド化に対応したソフトウェア開発ツール
Cell も含めて Many Core が主流になってきたら、ノードの台数を減らして、1ノードあたりのメモリを多くした方が管理的にも費用的にも有利である。ノード数が少なければ 10Gbit ethernet などを用いて接続するのも可能になるだろう。
コメント
この記事をはてなブックマークに追加

Opteron クラスタ停止2

2006年05月23日 22時15分54秒 | Weblog
以前書いたように Opteron クラスタの NIS/NFS サーバを務めるノードが電源が突然落ちてしまう現象が発生しているので、金曜日に業者の人に来てもらって(秋葉原から来てもらうのは申し訳ないが)、修理に出す予定だ。そのため HDD を正常に動作しているノードと交換することにした。このマザーボードは S-ATA2 を 4ポート装備しているが、その4ポートがマザーボードの右下の外側を向く形で設置されている。これが曲者で結局 S-ATA2 のポートにケーブルを挿すだけなのに一度マザーボードをケースから取り外すことになった。10分ぐらいで終わると思っていたのだが、1時間ぐらいの作業になってしまった。結局交換後は HDD を交換して新サーバとなったマシンは無事に動作していて、今後計算ノードになった旧サーバノードはやはり電源が落ちてしまった。クラスタはサーバさえ落ちなければ1ノードぐらい減ってもそれほど実害は無いが。
コメント
この記事をはてなブックマークに追加

SACSIS2006 開催中

2006年05月22日 21時42分29秒 | Weblog
SACSIS2006 が大阪で開催中である(他に用事があって参加していないが)。プログラムを見ていただければわかるように、水曜日に Grid Challenge 2006 の表彰や講評が行われることになっている。その他にも Cellプロセッサ向け実行環境(SPU Centric Execution Model)のチュートリアルなどが行われている。
近所のシネコンにダ・ヴィンチ・コードを見に行った。娯楽映画としてはあまり出来は良くないが、原作を読んだり、キリスト教内部の歴史的争いや秘密結社等について予習していけばそれなりに楽しめる政治的な映画だと思う。予備知識が無いと楽しめない。娯楽と言うよりも学習に近い。
コメント
この記事をはてなブックマークに追加

GridMPI と ssh 認証

2006年05月21日 22時57分48秒 | Weblog
GridMPI は、数ある MPI の中でも YAMPII の系統で、グリッド上の計算資源間でデータをやりとりするためのメッセージパシングライブラリである。上記のページによると一つのアプリケーションをインターネット上で並列計算するアプリケーションに対して、高性能実行環境を提供することを目指している。名前通りに Grid 対応なので、rsh や ssh でログイン出来れば、同じ場所で同じ HUB などに繋がっているクラスタ計算機群や遠隔に位置するクラスタ計算機などを跨いで MPI の実行が出来るようになっている。しかし毎回 rsh や ssh でパスワードやパスフレーズを入力するわけにはいかないので、rsh ならば /etc/hosts.equiv や .rhosts 使ってパスワード無しでログイン出来るようにする。しかしさすがにインターネットを通って rsh 認証&通信は怖いので、ssh によるパスフレーズ無し認証を採用している。ssh-agent を使う公開鍵認証とホストベース認証は共に一長一短なのだが、GridMPI のためにはどちらかを採用するのは仕方が無い。
コメント (2)
この記事をはてなブックマークに追加

Opteron クラスタ停止

2006年05月20日 23時32分41秒 | Weblog
ほとんど内部連絡用だが、4つのクラスタの中で、このマザーボードで構成されているものがあるが、このサーバに異常が発生したので現在停止している。サーバが突然電源が切れてしまう現象が発生する。はじめは熱の問題かと思ったが、空調も良く効いていて他のノードには異常は無い。さらに電圧降下などが原因かと思ったが、やはり他が無事なのでこの可能性も低いだろう。電源かマザーボードかいろいろと原因が考えられるが、結局点検を兼ねて修理に出すことにした。HDD が故障している可能性は低いので、HDD だけ引き出して無事な他のノードに付けることによってクラスタを復活させる予定だ。
コメント
この記事をはてなブックマークに追加

最大の SDP & MPICH2

2006年05月19日 03時35分02秒 | Weblog
5月11日のブログで触れたが、ASC の M64 クラスタ(Itanium 2 1.3GHz, メモリ 16GB)の 8 ノードを用いて解いていた最大規模の SDP(量子化学の T2Prime 条件が付いた水分子(H2O)の基底状態でのエネルギー計算)の実行がやっと終了した。実行時間は 2060237秒(23.8日)である。特殊の構造を持たない(rank 1 など) SDP では、世界最大の大きさの SDP であり、SDPARA の世界記録更新になった。解の精度も良いようだ。
また 17日のブログに MPICH2 の方が MPICH よりも遅くなっていると書いたが、あるクラスタ計算機だけで、その他のクラスタ計算機では MPICH2 の方が速かった。さらに64bit でコンパイルした MPICH2 の方が、32bit でコンパイルした MPICH2 よりもわずかながら速かった。あるクラスタ計算機だけで結果が反対になる理由は調査中だが、まずは世間で言われているような結果になった。ひょっとして Opteron だと遅くなるのだろうか?
コメント (2)   トラックバック (2)
この記事をはてなブックマークに追加

ブログ1周年 & MPICH2

2006年05月18日 19時24分56秒 | Weblog
今日で早いものでブログを開始して1年になった。ほとんど内輪の連絡用だが、一応見る人の興味も考慮して、専門的で難解な内容はなるべく避けるようにした。一番多かったのはやはりクラスタ&グリッド&最適化関係の話だと思うが、大学や建築や地震関係の話題も多かったように思う。さすがに1年経つと検索エンジン等に簡単に引っ掛かるようで、多くの方からコメントや意見等をいただいた。

ところで昨日に続いて MPICH2 の話だが /etc/hosts の書き方が悪いと mpd の起動の所で以下のようなエラーが発生する。

mpdboot_ninf00 (handle_mpd_output 359): failed to ping mpd on ninf00; recvd output={}

対策方法は、こちらのページにも書いてあるが、/etc/hosts の 127.0.0.1 localhost localhost.localdomain のところにホスト名を書いてはいけないようだ。割とありがちなミスだが、MPICH2 の Install manual の Troubleshooting には書いてなかった。

コメント
この記事をはてなブックマークに追加

MPICH2 のインストールと実行

2006年05月17日 02時40分04秒 | Weblog
MPICH2 を試しにインストールして SDPARA を MPICH2 を用いて再コンパイルして実行してみた。SDPARA は ATLAS, CLAPACK, BLACS, SCALAPACK を用いているが、この中でBLACS と SCALAPACK は MPI を用いるので、これらのも MPICH2 を用いて再コンパイルする必要がある。つまり MPICH のバイナリは MPICH2 では正常に動作しない。MPICH2 では、実行する前に各ノードで mpd というプロセスを立ち上げる。その後で mpiexec というコマンドを用いて並列実行を行う。MPICH との互換性も考慮して mpirun コマンドも用意されている。肝心のパフォーマンスだが、理由は良くわからないが概ね SDPARA を実行した場合にはMPICH2 の方が遅くなっている。引き続き調査する必要があるだろう。
明日でちょうどブログを始めて1年になる。
コメント (2)   トラックバック (1)
この記事をはてなブックマークに追加