最適化問題に対する超高速&安定計算

クラスタ計算機やスーパーコンピュータ上での大規模最適化問題やグラフ探索などの研究のお話が中心

フロンティア法

2012年12月31日 01時10分42秒 | Weblog
以下のフロンティア法の並列&高速実装について、当 CREST チームでも連携を計画しています。単純なフロンティア法の実装だけでなく、ZDD(BDD)本体の操作関数等についても同様に実装を考えていく必要があります。

-------------------------
フロンティア法は、与えられたグラフの様々な部分グラフ全体を表現するZDDを構築するアルゴリズムです。 指定した2点間のパス、全域木、マッチング等を表すZDDを構築できます。
コメント
この記事をはてなブックマークに追加

第138回 ハイパフォーマンスコンピューティング研究発表会

2012年12月30日 02時15分36秒 | Weblog
以下の日程で第138回 ハイパフォーマンスコンピューティング研究発表会が開催されます。HPC の世界でもグラフ処理等が含まれるようになりました。当 CREST もビッグデータやグラフ処理などで発表を行う予定です。

◆第138回 ハイパフォーマンスコンピューティング研究発表会
(主査:須田礼仁,幹事:建部修見,三吉郁夫,岩下武史,中田真秀)

■議題:一般
■日時:2013年2月21日(木)~2013年2月22日(金)
■場所:芦原温泉 清風荘 (http://www.seifuso.com/)

2月21日(木)
10:30~11:20 反復解法
11:20~12:10 数値計算
13:00~14:15 数値ライブラリ
14:25~15:15 可視化と実時間シミュレーション
15:25~16:40 通信
16:50~18:05 MPI
18:30~ 懇親会(併設イベント:第1回HPCコンテスト)

2月22日(金)
8:30~ 9:45 アプリケーション
9:55~11:10 GPU応用
11:20~12:35 ビッグデータ
13:35~15:15 プログラミングモデル
15:25~16:40 グラフ処理
コメント
この記事をはてなブックマークに追加

年末の停電に伴う、サーバ・ネットワーク等の停止:終了

2012年12月29日 02時26分07秒 | Weblog
以下の停電&ネットワーク停止は無事に終了して、サーバ等も全て復帰しました。

【ネットワーク停止について】
停止期間 : 12月25日(月)15:00 ~ 12月27日(水)14:00(予定)

【停電について】
停電日時 : 12月26日(火)8:00 ~ 17:00
停電範囲 : 後楽園キャンパス全館
コメント
この記事をはてなブックマークに追加

SandyBridge v.s. Nehalem : Graph500

2012年12月28日 00時57分32秒 | Weblog
昨日の続きで、今回は Graph500 ベンチマークによる比較。SDPA では計算サーバ1と2では約2倍の性能差があったが、Graph500 では僅差となっている。

○計算サーバ1 (1 CPU x 4 コア = 4 コア)
CPU : Intel Core i7 2600 (3.40GHz / 8MB L3)
Memory : 16GB (4 x 4GB)
OS : Fedora 17 for x86_64

----------------------------------------------------------------------
Parallel Breadth-First Search for Graph500 Benchmark version 3.58
----------------------------------------------------------------------
CPU name is Intel(R) Core(TM) i7-2600 CPU @ 3.40GHz
freq / RAM is 3392.287 MHz / 15.59 GB
#cpu, #nodes, #cores is 8 1 8
COMPILER is GCC (GNU C Compiler) version 4.7.2
----------------------------------------------------------------------
scale, edgefactor is 23 16
energy_loop is disable
#threads, #NUMAs is 4 1
mpol_bind is ON(mmap with mbind(MPOL_BIND))
mem_interleave is OFF
switching parameter is 4 1
queue buffer size is 16384
----------------------------------------------------------------------
SCALE: 23
nvtx: 8388608
edgefactor: 16
terasize: 2.14748364799999996e-03
A: 5.69999999999999951e-01
B: 1.90000000000000002e-01
C: 1.90000000000000002e-01
D: 5.00000000000000444e-02
generation_time: 2.06679120063781738e+01
construction_time: 3.17045090198516846e+01
nbfs: 64
min_time: 6.96420669555664062e-02
firstquartile_time: 7.47668147087097168e-02
median_time: 8.54336023330688477e-02
thirdquartile_time: 1.00139021873474121e-01
max_time: 1.51937246322631836e-01
mean_time: 9.03971269726753235e-02
stddev_time: 2.07324407475770744e-02
min_nedge: 1.34216250000000000e+08
firstquartile_nedge: 1.34216250000000000e+08
median_nedge: 1.34216250000000000e+08
thirdquartile_nedge: 1.34216250000000000e+08
max_nedge: 1.34216250000000000e+08
mean_nedge: 1.34216250000000000e+08
stddev_nedge: 0.00000000000000000e+00
min_TEPS: 8.83366345306784749e+08
firstquartile_TEPS: 1.35747398808613539e+09
median_TEPS: 1.58310517464317441e+09
thirdquartile_TEPS: 1.80009671918441296e+09
max_TEPS: 1.92722955919205761e+09
harmonic_mean_TEPS: 1.48474021791168261e+09
harmonic_stddev_TEPS: 4.29018483066712841e+07


○計算サーバ2 (1 CPU x 4 コア = 4 コア)
CPU : Intel Core i7 860 (2.80GHz / 8MB L3)
Memory : 8GB (2 x 4GB)
OS : Fedora 17 for x86_64

----------------------------------------------------------------------
Parallel Breadth-First Search for Graph500 Benchmark version 3.58
----------------------------------------------------------------------
CPU name is Intel(R) Core(TM) i7 CPU 860 @ 2.80GHz
freq / RAM is 2806.964 MHz / 7.79 GB
#cpu, #nodes, #cores is 4 1 4
COMPILER is GCC (GNU C Compiler) version 4.7.2
----------------------------------------------------------------------
scale, edgefactor is 23 16
energy_loop is disable
#threads, #NUMAs is 4 1
mpol_bind is ON(mmap with mbind(MPOL_BIND))
mem_interleave is OFF
switching parameter is 4 1
queue buffer size is 16384
----------------------------------------------------------------------
SCALE: 23
nvtx: 8388608
edgefactor: 16
terasize: 2.14748364799999996e-03
A: 5.69999999999999951e-01
B: 1.90000000000000002e-01
C: 1.90000000000000002e-01
D: 5.00000000000000444e-02
generation_time: 3.14099318981170654e+01
construction_time: 4.24007842540740967e+01
nbfs: 64
min_time: 8.00127983093261719e-02
firstquartile_time: 8.69174003601074219e-02
median_time: 1.01752161979675293e-01
thirdquartile_time: 1.16612851619720459e-01
max_time: 1.82719945907592773e-01
mean_time: 1.06371581554412842e-01
stddev_time: 2.62080855166371765e-02
min_nedge: 1.34216250000000000e+08
firstquartile_nedge: 1.34216250000000000e+08
median_nedge: 1.34216250000000000e+08
thirdquartile_nedge: 1.34216250000000000e+08
max_nedge: 1.34216250000000000e+08
mean_nedge: 1.34216250000000000e+08
stddev_nedge: 0.00000000000000000e+00
min_TEPS: 7.34546244162514091e+08
firstquartile_TEPS: 1.16410484620945454e+09
median_TEPS: 1.33785618677348900e+09
thirdquartile_TEPS: 1.56306818916057491e+09
max_TEPS: 1.67743477088659644e+09
harmonic_mean_TEPS: 1.26176792747359514e+09
harmonic_stddev_TEPS: 3.91668721164102703e+07
コメント
この記事をはてなブックマークに追加

SandyBridge v.s. Nehalem : SDPA

2012年12月27日 01時00分05秒 | Weblog
◯ソフトウェア SDPA 7.4.0 + OpenBLAS 0.2.4
現在、停電のため研究室の全サーバが停止しているので、自宅のマシンで比較実験を行った。

◯ソフトウェア SDPA 7.4.0 + OpenBLAS 0.2.4
----------------------------------------------------------------------------
○問題1:theta6.dat-s
計算サーバ1 : 8.354s
計算サーバ2 : 16.234s

○問題2:FH2+.1A1.STO6G.pqgt1t2p.dat-s
計算サーバ1 : 94.206s
計算サーバ2 : 171.496s

○問題3:nug12_r2.dat-s
計算サーバ1 : 109.608s
計算サーバ2 : 252.843s


○計算サーバ1 (1 CPU x 4 コア = 4 コア)
CPU : Intel Core i7 2600 (3.40GHz / 8MB L3)
Memory : 16GB (4 x 4GB)
OS : Fedora 17 for x86_64

○計算サーバ2 (1 CPU x 4 コア = 4 コア)
CPU : Intel Core i7 860 (2.80GHz / 8MB L3)
Memory : 8GB (2 x 4GB)
OS : Fedora 17 for x86_64
コメント
この記事をはてなブックマークに追加

CREST 研究概要と今年の成果

2012年12月26日 03時43分02秒 | Weblog
1:次世代ポストペタスパコンでの解決すべき課題
○並列数の爆発的増大、不均質化、高密度化
○記憶装置の多階層化・大容量化
○アルゴリズム的、システム的に様々な解決すべき課題と困難が存在
2:大規模グラフ解析及び数理最適化システム
○緊急に取り組むべき課題と実社会へのインパクト  
- Graph500(Green Graph500)ベンチマーク (巨大グラフ, BFS)
- ISC12 : 358GTEPS (世界3位) , 8.15GTEPS (1ノード世界1位)
- SC12 : 5524GTEPS(世界4位), 10.495GTEPS(1ノード世界1位)
○数理計画問題(SDP): (世界記録更新:148万制約 ; 533TFlops)
- SC12(Tech. paper) : 疎&密データ計算(24,480CPUコア & 4080GPU)
3:最適化とHPC系研究者のポストペタスパコン上での Co-design による解決
4:ポストペタスパコン上での基盤ソフトの整備に貢献すると共に安心安全な社会の実現を目指す
コメント
この記事をはてなブックマークに追加

年末の停電に伴う、サーバ・ネットワーク等の停止:本日

2012年12月25日 00時56分34秒 | Weblog
以下の停電&ネットワーク停止はいよいよ本日からとなりました。メールサーバも Web サーバも全て停止します。

【ネットワーク停止について】
停止期間 : 12月25日(月)15:00 ~ 12月27日(水)14:00(予定)

【停電について】
停電日時 : 12月26日(火)8:00 ~ 17:00
停電範囲 : 後楽園キャンパス全館
コメント
この記事をはてなブックマークに追加

Sparse Cholesky とマルチスレッド計算

2012年12月24日 03時03分27秒 | Weblog
SDPA の話題:SCM が Sparse な場合での、bMat の計算と bMat の Cholesky 分解では基本的にマルチスレッド計算の効果は出にくいとされているが、以下のように問題の規模がある程度大きいと効果が出てくることになる。この辺の工夫はまだ改善の余地が大きい。

◯問題:tai12a.dat-s

◯1スレッド:
Make bMat : 35.65s
Cholesky bMat : 411.56s
Total : 458.52s

◯8スレッド:
Make bMat : 16.87s
Cholesky bMat : 62.26s
Total : 88.66s

◯16スレッド:
Make bMat : 11.93s
Cholesky bMat : 38.51s
Total : 60.03s

◯32スレッド:
Make bMat : 9.53s
Cholesky bMat : 30.41s
Total : 49.68s

◯計算サーバ:Intel Xeon SandyBridge-EP 32 コアマシン
CPU Intel Xeon E5-4640 (8-core 2.40GHz 16MB cacheTDP:95w) x 4
Memory 512GB ACTICA製HPC専用メモリ DDR3 1600Mhz (16GB x 32枚) x 32
OS : CentOS 6.3
コメント
この記事をはてなブックマークに追加

Nexus 7 と Kindle Fire HD

2012年12月23日 03時42分04秒 | Weblog
Nexus 7Kindle Fire HD の両方を購入してみた。

明らかに Kindle Fire HD の方が優れているのは、以下のステレオスピーカーだけで、あとは総合的に見ると Nexus 7 の方が優れている。

◯音響が悪いと、せっかくのHDコンテンツの楽しみも台無しに。Kindle Fire HDには専用のドルビーオーディオやデュアルドライバのステレオスピーカー、音質を自動補正するソフトウェアを搭載。HDを最大限楽しめるクリアで爽快な、バランスのとれたサウンドを響かせます。

Kindle Fire HD の方はアプリが少ない、GPS が付いていない(Map が使えない)という弱点がある。どちらか1台というのであれば、Nexus 7 だけで十分。
コメント
この記事をはてなブックマークに追加

第8回戦略的高性能計算システム開発に関するワークショップ

2012年12月22日 03時07分17秒 | Weblog
2月2日(土)に「第8回戦略的高性能計算システム開発に関するワークショップ」が開催される予定です。システムソフトウェア分野の日米協力について議論が行われます。

第8回戦略的高性能計算システム開発に関するワークショップ
日時:2013年2月2日 (土) 10:00~17:30(予定)
会場:フクラシア東京ステーション 会議室5K
   http://www.fukuracia-tokyo.jp/guide/

参加登録: http://goo.gl/769B2 (2013年1月24日(木)まで)

主催:東北大学サイバーサイエンスセンター
   筑波大学計算科学研究センター
   東京大学情報基盤センター
   東京工業大学学術国際情報センター
   京都大学学術情報メディアセンター
   産業技術総合研究所 情報技術研究部門
   科学技術振興機構「ポストペタスケール高性能計算に資するシステムソフトウェア技術の創出」
   理化学研究所(依頼中)
協賛:HPCIコンソーシアム(依頼中)
コメント
この記事をはてなブックマークに追加

MPICH 3.0 released

2012年12月21日 02時04分12秒 | Weblog
MPICH 3.0 がリリースされた。3.0 では MPI-3 (SC12で紹介されていた) がフルサポートされている。いろいろなマシンで試しているが、前のバージョン等との比較実験はまた後日行う予定となっている。

MPICH 3.0 released

A new stable release of MPICH, 3.0, is now available for download. The primary focus of this release is to provide full support for the MPI-3 standard

MPICH BoF Slides from SC12 Available
We had another successful Birds-of-a-Feather session at SC12 this year. Rusty Lusk and Pavan Balaji from the MPICH group gave presentations on the past and future of the MPICH project, followed by presentations by Bill Magro from Intel, Duncan Roweth from Cray, Mark Atkins from IBM and Fab Tillier from Microsoft. Below are links to some of the slides.
コメント
この記事をはてなブックマークに追加

Graph500 の最新結果 その3

2012年12月20日 17時06分15秒 | Weblog
以下の SandyBridge-EP 32 コアマシンでの Graph500 の実行。median_TEPS 値自体は Intel Westmere-EX 40 コアマシンとあまり変わらないが、こちらの方が性能が安定している。

----------------------------------------------------------------------
Parallel Breadth-First Search for Graph500 Benchmark version 3.58
----------------------------------------------------------------------
CPU name is Intel(R) Xeon(R) CPU E5-4640 0 @ 2.40GHz
freq / RAM is 2399.897 MHz / 504.76 GB
#cpu, #nodes, #cores is 64 4 16
COMPILER is GCC (GNU C Compiler) version 4.4.6
----------------------------------------------------------------------
scale, edgefactor is 25 16
energy_loop is disable
#threads, #NUMAs is 64 4
mpol_bind is ON(mmap with mbind(MPOL_BIND))
mem_interleave is OFF
switching parameter is 16 4
queue buffer size is 16384
----------------------------------------------------------------------
SCALE: 25
nvtx: 33554432
edgefactor: 16
terasize: 8.58993459199999983e-03
A: 5.69999999999999951e-01
B: 1.90000000000000002e-01
C: 1.90000000000000002e-01
D: 5.00000000000000444e-02
generation_time: 1.29831960201263428e+01
construction_time: 1.66225228309631348e+01
nbfs: 64
min_time: 4.21020984649658203e-02
firstquartile_time: 4.69795465469360352e-02
median_time: 4.99355792999267578e-02
thirdquartile_time: 5.58062791824340820e-02
max_time: 6.62648677825927734e-02
mean_time: 5.10040558874607086e-02
stddev_time: 5.62889005513698970e-03
min_nedge: 5.36865498000000000e+08
firstquartile_nedge: 5.36865498000000000e+08
median_nedge: 5.36865498000000000e+08
thirdquartile_nedge: 5.36865498000000000e+08
max_nedge: 5.36865498000000000e+08
mean_nedge: 5.36865498000000000e+08
stddev_nedge: 0.00000000000000000e+00
min_TEPS: 8.10181195503765965e+09
firstquartile_TEPS: 9.79472650768978500e+09
median_TEPS: 1.07890366446362000e+10
thirdquartile_TEPS: 1.14714547387674732e+10
max_TEPS: 1.27515139998719730e+10
harmonic_mean_TEPS: 1.05259373722078400e+10
harmonic_stddev_TEPS: 1.46355335638239622e+08

◯計算サーバ:Intel Xeon SandyBridge-EP 32 コアマシン
CPU Intel Xeon E5-4640 (8-core 2.40GHz 16MB cacheTDP:95w) x 4
Memory 512GB ACTICA製HPC専用メモリ DDR3 1600Mhz (16GB x 32枚) x 32
OS : CentOS 6.3
コメント
この記事をはてなブックマークに追加

OpenBLAS と Intel MKL

2012年12月19日 02時23分37秒 | Weblog
SDPA を用いた OpenBLAS と Intel MKL の比較について。MKL が性能面で上回る問題が増えている。

◯ソフトウェア SDPA 7.4.0 + OpenBLAS 0.2.4 (or Intel MKL 13.0.1)

◯問題1:mcp2000-10.dat-s
OpenBLAS 0.2.4 : 25.927s
Intel MKL 13.0.1 : 22.445s

◯問題2:nug12_r2.dat-s
OpenBLAS 0.2.4 : 74.833s
Intel MKL 13.0.1 : 80.311s

◯問題3:FH2+.1A1.STO6G.pqgt1t2p.dat-s
OpenBLAS 0.2.4 : 37.086s
Intel MKL 13.0.1 : 28.031s


◯計算サーバ:Intel Xeon SandyBridge-EP 32 コアマシン
CPU Intel Xeon E5-4640 (8-core 2.40GHz 16MB cacheTDP:95w) x 4
Memory 512GB ACTICA製HPC専用メモリ DDR3 1600Mhz (16GB x 32枚) x 32
OS : CentOS 6.3
コメント
この記事をはてなブックマークに追加

静音クーラーラック

2012年12月18日 00時23分12秒 | Weblog
静音クーラーラックだそうです。詳しい仕組みは知らないのですが、前方のラックのドアを締めても冷却性が維持されるらしいです(部屋自体が涼しければOK)。それでも内部が暑くなる場合では、専用のエアコンを付けることもできるとか。現在、騒音が激しいサーバがたくさんあるので、選択肢としては有り得ます。

http://www.youtube.com/watch?v=6wsfMNlesLo
コメント
この記事をはてなブックマークに追加

Westmere-EX 40 コアマシン v.s. SandyBridge-EP 16 コアマシン v.s. SandyBridge-EP 32 コアマシン

2012年12月17日 01時38分45秒 | Weblog
3台のマシンの性能比較。比較的小さな問題なので、コア数が多くてもそれを使い切るのは難しい。

◯ソフトウェア SDPA 7.4.0 + OpenBLAS 0.2.4

----------------------------------------------------------------------------
○問題1:theta6.dat-s
gcc 4.4.6 : 8.490s
icc 13.0.1 : 8.568s

○問題2:FH2+.1A1.STO6G.pqgt1t2p.dat-s
gcc 4.4.6 : 35.863s
icc 13.0.1 : 37.044s

○問題3:nug12_r2.dat-s
gcc 4.4.6 : 64.224s
icc 13.0.1 : 70.357s

◯計算サーバ:Intel Xeon SandyBridge-EP 32 コアマシン
CPU Intel Xeon E5-4640 (8-core 2.40GHz 16MB cacheTDP:95w) x 4
Memory 512GB ACTICA製HPC専用メモリ DDR3 1600Mhz (16GB x 32枚) x 32
OS : CentOS 6.3

----------------------------------------------------------------------------
○問題1:theta6.dat-s
gcc 4.4.6 : 5.845s
icc 13.0.1 : 6.280s

○問題2:FH2+.1A1.STO6G.pqgt1t2p.dat-s
gcc 4.4.6 : 33.883s
icc 13.0.1 : 36.844s

○問題3:nug12_r2.dat-s
gcc 4.4.6 : 45.509s
icc 13.0.1 : 50.848s

◯計算サーバ:Intel Xeon SandyBridge-EP 16 コアマシン
SandyBridge-EP マシン:Intel Xeon E5-2690 2.90GHz : 8 Core 20M L3 cache x 2
Memory DDR 3 1600 ECC REG 256GB (16GB x 16)
OS : CentOS 6.3

----------------------------------------------------------------------------
○問題1:theta6.dat-s
gcc 4.4.6 : 9.012s
icc 13.0.1 : 9.427s

○問題2:FH2+.1A1.STO6G.pqgt1t2p.dat-s
gcc 4.4.6 : 43.244s
icc 13.0.1 : 40.350s

○問題3:nug12_r2.dat-s
gcc 4.4.6 : 81.118s
icc 13.0.1 : 76.457s

◯計算サーバ:Intel Xeon Westmere-EX 40 コアマシン
CPU Intel Xeon E7-4870 2.40GHz 30M L3 cache x 4
Memory ACTICA DDR3 1333 ECC REG 512GB( 16GB x 32)
HDD 3.5" Enterprize 1TB SATA HDD x 4 : RAID5構成
VGA GLADIAC GTX 580 1.5GB
Supermicro 4 way 4U Tower Server
1400W redundant 電源
OS : CentOS 6.3
コメント
この記事をはてなブックマークに追加