2012年5月のブログ記事一覧-最適化問題に対する超高速＆安定計算

Tesla C1060 と SDPA

2012年05月31日 11時20分30秒 | Weblog

2009 年に Tesla C1060 を購入したが、倍精度演算の性能が低く SDPA の計算等にはあまり役に立たなかった。もちろん Tesla C2075 等を使えば GPU の方が計算が高速となる。

1: SDPA 7.4.0 では ELEMENTS も CHOLESKY も CPU 4コアのみ
2: SDPARA 7.5.0 では ELEMENTS は CPU 4 コアのみで、CHOLESKY は GPU(C1060 1台)のみ。ELEMENTS も計算時間が大きいのは、直接 block-cyclic matrix を生成するため。

◯問題 tai13a.dat-s
◯ソフトウェア SDPA 7.4.0 (CPU 4 コアのみ)
ELEMENTS : 23.87s
CHOLESKY : 254.93s
Total : 284.46s

◯ソフトウェア SDPARA 7.5.0-G (CPU 4 コア + GPU TeslaC1060 1台)
ELEMENTS : 71.49s
CHOLESKY : 458.79s
Total : 568.00s

○計算サーバ (1 CPU x 4 コア = 4 コア)
CPU : Intel Corei7 2600K (3.40GHz / 8MB L3) x 2
Memory : 8GB (4 x 2GB)
OS : CentOS 6.2 for x86_64

講演会「GPUコンピューティングの新しい方向性」

2012年05月30日 00時51分05秒 | Weblog

講演会「GPUコンピューティングの新しい方向性」が今週の金曜日に開催される予定になっています。現時点ではあまり情報量の多くない OpenACC のチュートリアルも開催されます。私も参加予定です。

主催：　　　東京工業大学学術国際情報センター・クレイジャパン共同開催
協賛：　　　GPUコンピューティング研究会
日時：　　　2012年6月1日（金）13:30～17:00
場所：　　　学術国際情報センター・情報棟2F会議室 (キャンパスマップ)
参加費：　　無料（自由参加ですので、会場に直接お越し下さい。）
問合せ：　　office-gpu-computing@sim.gsic. （「＠」を半角へ変換し、 titech.ac.jp を付けて下さい。）

低消費エネルギーで高速計算を可能にするデバイスとして GPU は注目されてきたが、既存のプログラムをCUDAやOpen CL で書き換えるなどの必要があり、その利用を妨げている面がありました。OpenACC は既存のコードを変更せず、指示行（ディレクティブ）の追加のみでGPUを利用する取り組みの標準化であり、大きな期待が寄せられています。それと合わせるように、新しい世代のGPUも登場し、GPUコンピューティングが新しい方向に進もうとしています。

SDPARA 7.5.0-G の計算結果　その５

2012年05月29日 00時09分24秒 | Weblog

今度は OpenMPI と mvapich2 との性能比較（両者との最新版を使用）。意外と OpenMPI の方が速かった。

◯ソフトウェア SDPARA 7.5.0-G
◯問題：tai26a.dat-s
◯mvapich2 1.8
[gpdpotrf] ### END n=211926, nb=1024 took 1637.971177sec --> 1936.980342GFlops ###
◯OpenMPI 1.5.5
[gpdpotrf] ### END n=211926, nb=1024 took 1613.675045sec --> 1966.144287GFlops ###：

◯ 計算サーバ：Intel Xeon + 4 GPU マシン（２台）
CPU：Xeon X5690(3.46GHz,6コア)×2
メモリ：192GB(16GB×12)
HDD：SATA500GB×2(システム、システムバックアップ)
NIC : GbE x 1 & Inifiniband x 1
GPGPU：Tesla C2075×4
OS：CentOS 6.2

SuperMicro 4GPU マシン

2012年05月28日 02時50分14秒 | Weblog

現在は以下の 4GPU 搭載マシンを２台導入している。アプリと性能は最近のブログに書いた通り。

SuperServer 7046GT-TRF-FC475

80PLUS Gold Level 7046GT-TRF-FC475
• Up to 4 Double-Width GPUs:
4x NVIDIA Fermi C2075 GPU Cards (SYS-7046GT-TRF-FC475)
• Dual Quad/Dual-Core Intel® Xeon® processor 5600/5500 series
• Dual Intel® 5520 chipset with QPI up to 6.4 GT/s each
• Up to 192GB DDR3 1333/1066/800 MHz ECC Registered DIMM
• 4 (x16) PCI-E 2.0, 2 (x4) PCI-E 2.0 (in x16 slots),
1 (x4) PCI-E (in x8 slot), 2x PCI 33MHz slots
• 8x 3.5" hot-swap drives trays support up to 6 SATA drives
• Dual LAN with Intel® 82574L Gigabit Ethernet controller
• Redundant 1400W Gold Level high-efficiency power supply

次の導入については、同じ製品を購入するのか、以下の SandyBridge 版を購入するのか検討中。

7047GR-TRF
• GPU Server, Mission-critical app., enterprise server, large database,
e-business, on-line transaction processing, oil & gas, medical app.
• Dual Intel® Xeon® processor E5-2600 family; Socket R (LGA 2011)
• 8 Hot-swap 3.5" SATA HDD Bays, 3x 5.25" peripheral drive bays, 1x 3.5" fixed drive bay
• 16 DIMMs support up to 512GB DDR3 1600MHz reg. ECC memory
• 4 (x16) PCI-E 3.0 (support 4 double width GPU cards),
2 (x8) PCI-E 3.0 (1 in x16), and 1 (x4) PCI-E 2.0 (in x8) slot
• I/O ports: 2 GbE, 1 Video, 1 COM/Serial, 9 USB 2.0
• System management: Built-in Server management tool
(IPMI 2.0, KVM/media over LAN) with dedicated LAN port
• 4 Hot-swap PWM cooling fans and 2 Hot-swap rear fans
• 1620W Redundant Platinum Level Power Supplies

SDPARA 7.5.0-G の計算結果　その４

2012年05月27日 02時20分58秒 | Weblog

今度は以下の計算サーバを２台並べて Infiniband で接続して実行を行ってみた。4CPU, 8GPU で Cholesky 分解については 1966 GFlops の性能だった。

◯ソフトウェア SDPARA 7.5.0-G
◯問題：tai26a.dat-s
[gpdpotrf] ### END n=211926, nb=1024 took 1613.675045sec --> 1966.144287GFlops ###：

◯ 計算サーバ：Intel Xeon + 4 GPU マシン（２台）
CPU：Xeon X5690(3.46GHz,6コア)×2
メモリ：192GB(16GB×12)
HDD：SATA500GB×2(システム、システムバックアップ)
NIC : GbE x 1 & Inifiniband x 1
GPGPU：Tesla C2075×4
OS：CentOS 6.2

SDPARA 7.5.0-G の計算結果　その３

2012年05月26日 03時03分09秒 | Weblog

以下の opt クラスタ(16ノード, 32CPU, 192コア)と　4 GPU 搭載の計算サーバ(1ノード, 2CPU, 12コア)で SDPARA 7.5.0 の比較実験を行った。

◯Cholesky 分解について
opt クラスタ： 35446秒
計算サーバ : 39768秒

32 CPU と 4 GPU では、Cholesky 分解に関してはあまり大きな差が無いことがわかる。

◯問題: tai24a.dat-s
Time(sec) Ratio(% : MainLoop)
Predictor time = 36111.259667, 99.795704
Corrector time = 56.431848, 0.155953
Make bMat time = 597.748313, 1.651915
Make bDia time = 73.065560, 0.201921
Make bF1 time = 0.000000, 0.000000
Make bF2 time = 0.000000, 0.000000
Make bF3 time = 0.000000, 0.000000
Make bPRE time = 0.000000, 0.000000
Make rMat time = 0.517326, 0.001430
Make gVec Mul = 0.159244, 0.000440
Make gVec time = 0.557191, 0.001540
copy gVec time = 0.000011, 0.000000
copy bMat time = 0.000000, 0.000000
symm bMat time = 0.000649, 0.000002
Cholesky bMat = 35446.006529, 97.957235
Ste Pre time = 0.007873, 0.000022
Ste Cor time = 0.411851, 0.001138
solve = 108.443750, 0.299691
copy DyVec = 0.144751, 0.000400
sumDz = 1.708230, 0.004721
makedX = 0.682788, 0.001887
symmetriseDx = 0.042061, 0.000116
makedXdZ = 2.433124, 0.006724
xMatTime = 0.358543, 0.000991
zMatTime = 0.495879, 0.001370
invzMatTime = 0.000000, 0.000000
xMatzMatTime = 0.000000, 0.000000
EigxMatTime = 0.172718, 0.000477
EigzMatTime = 0.176140, 0.000487
EigxMatzMatTime = 0.000000, 0.000000
updateRes = 1.600494, 0.004423
EigTime = 0.348858, 0.000964
sub_total_bMat = 35587.436326, 98.348085
Main Loop = 36185.184639, 100.000000
File Check = 0.000000, 0.000000
File Change = 0.006056, 0.000017
File Read = 11.672031, 0.032256
File Trans = 3.281213, 0.009068
Total = 36196.862726, 100.032273

○ OPT クラスタ
１：PowerEdge M1000e(ブレードエンクロージャー) x 1台
２：PowerEdge M710HD(ブレードサーバ) x 16台
ブレードサーバの仕様：
CPU : インテル(R) Xeon(R) プロセッサー X5670(2.93GHz、12MB キャッシュ、6.4 GT/s QPI) x 2個
メモリ： 128GB (16X8GB/2R/1333MHz/DDR3 RDIMM/CPUx2)
Disk : 73GB x 2(1台のみ 300GB x 2)
NIC : GbE x 1 & Inifiniband QDR(40Gbps) x 1
OS : CentOS 5.6 for x86_64

Time(sec) Ratio(% : MainLoop)
Predictor time = 52208.489161, 98.972120
Corrector time = 491.645597, 0.932017
Make bMat time = 6818.326969, 12.925566
Make bDia time = 143.903450, 0.272799
Make bF1 time = 0.000000, 0.000000
Make bF2 time = 0.000000, 0.000000
Make bF3 time = 0.000000, 0.000000
Make bPRE time = 0.000000, 0.000000
Make rMat time = 1.138909, 0.002159
Make gVec Mul = 0.260366, 0.000494
Make gVec time = 0.974972, 0.001848
copy gVec time = 0.000013, 0.000000
copy bMat time = 0.000001, 0.000000
symm bMat time = 5120.677215, 9.707316
Cholesky bMat = 39768.736191, 75.389965
Ste Pre time = 0.013926, 0.000026
Ste Cor time = 0.519987, 0.000986
solve = 985.750276, 1.868696
copy DyVec = 0.142678, 0.000270
sumDz = 2.018698, 0.003827
makedX = 2.146520, 0.004069
symmetriseDx = 0.061528, 0.000117
makedXdZ = 4.228492, 0.008016
xMatTime = 0.637930, 0.001209
zMatTime = 0.960215, 0.001820
invzMatTime = 0.000000, 0.000000
xMatzMatTime = 0.000000, 0.000000
EigxMatTime = 0.228020, 0.000432
EigzMatTime = 0.201835, 0.000383
EigxMatzMatTime = 0.000000, 0.000000
updateRes = 1.776776, 0.003368
EigTime = 0.429855, 0.000815
sub_total_bMat = 45932.375920, 87.074434
Main Loop = 52750.702889, 100.000000
File Check = 0.000000, 0.000000
File Change = 0.009525, 0.000018
File Read = 4.627067, 0.008772
File Trans = 0.051329, 0.000097
Total = 52755.339481, 100.008790

◯ 計算サーバ：Intel Xeon + 4 GPU マシン（１台）
CPU：Xeon X5690(3.46GHz,6コア)×2
メモリ：192GB(16GB×12)
HDD：SATA500GB×2(システム、システムバックアップ)
NIC : GbE x 1 & Inifiniband x 1
GPGPU：Tesla C2075×4
OS：CentOS 6.2

SDPARA 7.5.0-G の計算結果　その２

2012年05月25日 01時28分36秒 | Weblog

いろいろと実行してみたが、現状では 1057GFlops 程度の性能が 4GPU での Cholesky 分解の限界となっている。

行列サイズ：152928 ：理論計算量 1.1922e+15
[gpdpotrf] ### END n=152928, nb=1024 took 1127.052278sec --> 1057.780875GFlops ###

◯ 計算サーバ：Intel Xeon + 4 GPU マシン（２台）
CPU：Xeon X5690(3.46GHz,6コア)×2
メモリ：192GB(16GB×12)
HDD：SATA500GB×2(システム、システムバックアップ)
NIC : GbE x 1 & Inifiniband x 1
GPGPU：Tesla C2075×4
OS：CentOS 6.2

ちなみに Tesla C1060 だと以下ぐらいの性能になる。
[gpdpotrf] ### END n=16758, nb=1024 took 30.387413sec --> 51.623991GFlops ###

SDPARA 7.5.0-G の計算結果

2012年05月24日 12時59分21秒 | Weblog

とりあえず１ノードだけで、どれだけ性能が上がるかを確認する実験。以下のサーバ１台を使用した。１台でも４GPU で 1TFlops ぐらいの性能はとりあえず出ます。

行列サイズ：88641 ：理論計算量 2.3216e+14
[gpdpotrf] ### END n=88641, nb=1024 took 232.007348sec --> 1000.647111GFlops ###

◯ 計算サーバ：Intel Xeon + 4 GPU マシン（２台）
CPU：Xeon X5690(3.46GHz,6コア)×2
メモリ：192GB(16GB×12)
HDD：SATA500GB×2(システム、システムバックアップ)
NIC : GbE x 1 & Inifiniband x 1
GPGPU：Tesla C2075×4
OS：CentOS 6.2

Cholesky 分解の並列アルゴリズム：３種類

2012年05月23日 02時05分39秒 | Weblog

最新版 SDPARA 7.5.0-G で採用している並列 Cholesky 分解について。性能が良いのはやはり一番下のアルゴリズムとなる。

最適化手法の理論と応用の繋がり

2012年05月22日 00時33分51秒 | Weblog

以下の研究集会が7月に京都で開催されます。講演申し込みは 6/8 となっております。と言いましても私自身は他の用事と重なるために参加できません。

京都大学数理解析研究所(RIMS)研究集会
「最適化手法の理論と応用の繋がり」のご案内
----------------------------------------------------------------------

夏の京都での恒例行事となりました最適化関連RIMS研究集会を今年も7月に開
催いたします．最適化にご興味をお持ちの皆様，奮ってご参加くださいます
ようご案内申しあげます．

研究集会「最適化手法の理論と応用の繋がり」
http://www-sys.ist.osaka-u.ac.jp/rims2012/cfp.html

期間：2012年7月23日(月)～24日(火)
会場：京都大学数理解析研究所111号室
http://www.kurims.kyoto-u.ac.jp/ja/index.html

Kepler 2

2012年05月21日 00時37分05秒 | Weblog

先日、GPU Technology Conference 2012 (GTC 2012)が5月14日より米カリフォルニア州サンノゼで開催され、そこで Kepler 2 の発表が行われた。

詳細はこちらのレポート等を参照していただくとして、以下の機能等は HPC 分野において注目されている。

◯Hyper-Q
これまでは CPUが1つのGPUに対して一度に与えられるMPIタスクは１に制限されていたが、Hyper-Q では最大32タスクまで同時処理が可能となっている。
◯Dynamic Parallelism
GPU内で演算結果の依存性を認識してループや再帰を自動処理し、ネスト(階層構造)を構成することができる。
これによって LU 分解も以下のようなコードに変わる。もちろん Cholesky 分解のコードも同様に変わってくる。

http://pc.watch.impress.co.jp/img/pcw/docs/533/500/html/17.jpg.html

コメント (3)

依頼の SDP の結果

2012年05月20日 04時29分25秒 | Weblog

海外から送られてきた以下の問題。mDIM が 66044 と大きめなので、通常の環境では解きにくい問題となっている(実際に 192 ノードで 5362秒)。さらに全体の計算時間の 92% が Cholesky 分解となっており、先日作成した GPU 版などが有効に動作すると予想。

66044 = mDIM
43 = nBLOCK
-33320 595 34 34 34 34 34 34 34 34 34 34 34 34 34 34 34 34 34 34 34 34 34 34 34 34 34 34 34 34 34 34 34 34 34 34 34 34 34 34 34 34 34 = bLOCKsTRUCT

NumNodes is set as 16
NumThreads is set as 12
Schur computation : DENSE
mu thetaP thetaD objP objD alphaP alphaD beta
0 1.0e+08 1.0e+00 1.0e+00 +0.00e+00 -1.16e+05 3.2e-01 1.6e-01 2.00e-01
1 7.3e+07 6.8e-01 8.4e-01 +1.59e+04 -2.13e+05 5.2e-01 2.8e-01 2.00e-01
2 3.9e+07 3.2e-01 6.0e-01 +1.06e+04 -5.99e+05 6.8e-01 4.9e-01 2.00e-01
3 1.5e+07 1.0e-01 3.0e-01 +1.61e+03 -1.90e+06 8.0e-01 7.8e-01 2.00e-01
4 3.9e+06 2.1e-02 6.8e-02 +8.25e+02 -2.94e+06 8.3e-01 8.7e-01 2.00e-01
5 9.0e+05 3.6e-03 8.8e-03 +1.53e+02 -3.99e+06 8.8e-01 8.8e-01 2.00e-01
6 1.5e+05 4.3e-04 1.1e-03 +2.58e+01 -4.95e+06 7.8e-01 9.4e-01 2.00e-01
7 4.4e+04 9.3e-05 6.3e-05 +1.08e+01 -4.21e+06 7.4e-01 4.4e-01 2.00e-01
8 1.3e+04 2.4e-05 3.5e-05 +8.14e+00 -2.69e+06 5.6e-01 4.8e-01 2.00e-01
9 7.0e+03 1.1e-05 1.8e-05 +8.31e+00 -1.30e+06 7.6e-01 5.5e-01 2.00e-01
10 2.1e+03 2.5e-06 8.1e-06 +9.32e+00 -6.71e+05 6.8e-01 7.5e-01 2.00e-01
11 8.5e+02 8.1e-07 2.0e-06 +9.74e+00 -2.88e+05 5.9e-01 6.1e-01 2.00e-01
12 4.3e+02 3.3e-07 7.9e-07 +9.93e+00 -1.57e+05 6.0e-01 5.9e-01 2.00e-01
13 2.1e+02 1.3e-07 3.3e-07 +9.95e+00 -7.75e+04 5.9e-01 4.1e-01 2.00e-01
14 1.0e+02 5.3e-08 1.9e-07 +9.82e+00 -4.60e+04 5.0e-01 2.8e-01 2.00e-01
15 5.5e+01 2.6e-08 1.4e-07 +9.76e+00 -3.33e+04 7.3e-01 3.4e-01 2.00e-01
16 1.7e+01 7.1e-09 9.2e-08 +9.72e+00 -2.30e+04 6.9e-01 5.2e-01 2.00e-01
17 6.6e+00 2.2e-09 4.4e-08 +9.71e+00 -1.12e+04 6.3e-01 4.3e-01 2.00e-01
18 2.9e+00 8.0e-10 2.5e-08 +9.70e+00 -6.41e+03 6.4e-01 4.0e-01 2.00e-01
19 1.3e+00 2.9e-10 1.6e-08 +9.70e+00 -3.87e+03 6.3e-01 3.6e-01 2.00e-01
20 5.7e-01 1.1e-10 1.9e-08 +9.70e+00 -2.44e+03 5.7e-01 3.2e-01 2.00e-01
21 3.0e-01 4.6e-11 6.2e-08 +9.69e+00 -1.62e+03 5.0e-01 2.3e-01 2.00e-01
22 1.8e-01 2.3e-11 9.7e-08 +9.69e+00 -1.24e+03 6.0e-01 3.4e-01 2.00e-01
23 9.1e-02 9.4e-12 1.7e-07 +9.69e+00 -8.08e+02 2.1e+00 8.8e-01 2.00e-01
24 2.7e-02 9.4e-12 1.9e-07 +9.69e+00 -9.60e+01 4.7e+00 8.2e-01 2.00e-01
25 9.4e-03 9.4e-12 1.1e-07 +9.69e+00 -1.18e+01 6.1e+00 9.0e-01 2.00e-01
26 2.6e-03 9.4e-12 9.2e-08 +9.69e+00 +6.75e+00 2.7e+00 6.5e-01 2.00e-01
27 1.3e-03 9.4e-12 5.5e-07 +9.66e+00 +8.14e+00 4.1e+00 8.6e-01 2.00e-01
28 3.9e-04 9.4e-12 1.3e-07 +9.64e+00 +9.27e+00 3.7e-01 3.2e-01 2.00e-01
29 2.9e-04 9.4e-12 2.0e-07 +9.62e+00 +9.08e+00 6.3e-01 6.1e-01 2.00e-01
30 1.5e-04 9.4e-12 7.6e-08 +9.60e+00 +9.37e+00 3.6e-01 3.0e-01 2.00e-01
31 1.1e-04 9.4e-12 5.0e-08 +9.59e+00 +9.45e+00 6.7e-01 5.1e-01 2.00e-01
32 6.7e-05 9.4e-12 5.0e-08 +9.58e+00 +9.52e+00 9.0e-01 4.7e-01 2.00e-01
33 4.1e-05 9.4e-12 3.0e-08 +9.57e+00 +9.55e+00 7.0e-01 3.8e-01 2.00e-01
34 2.9e-05 9.4e-12 2.1e-08 +9.57e+00 +9.56e+00 1.0e+00 3.8e-01 2.00e-01
35 2.0e-05 9.4e-12 1.3e-08 +9.57e+00 +9.56e+00 1.0e+00 6.3e-01 2.00e-01
36 9.9e-06 9.4e-12 4.8e-09 +9.56e+00 +9.56e+00 9.7e-01 8.2e-01 2.00e-01
37 3.4e-06 9.4e-12 6.7e-10 +9.56e+00 +9.56e+00 7.9e-01 5.9e-01 2.00e-01
38 1.8e-06 9.4e-12 2.6e-10 +9.56e+00 +9.56e+00 9.0e-01 5.4e-01 2.00e-01
39 1.0e-06 9.4e-12 1.2e-10 +9.56e+00 +9.56e+00 1.1e+00 5.5e-01 2.00e-01
40 5.7e-07 9.4e-12 5.5e-11 +9.56e+00 +9.56e+00 1.1e+00 6.5e-01 2.00e-01
41 2.7e-07 9.4e-12 1.9e-11 +9.56e+00 +9.56e+00 7.5e-01 7.5e-01 2.00e-01
42 1.1e-07 9.4e-12 4.8e-12 +9.56e+00 +9.56e+00 4.8e-01 7.7e-01 2.00e-01
43 4.3e-08 9.4e-12 1.1e-12 +9.56e+00 +9.56e+00 6.6e-01 8.0e-01 2.00e-01
44 1.5e-08 9.4e-12 2.2e-13 +9.56e+00 +9.56e+00 9.0e-01 9.0e-01 1.00e-01

phase.value = pdFEAS
Iteration = 44
mu = +1.5412441417828092e-08
relative gap = +1.5872171799034599e-06
gap = -1.5178107195978896e-05
digits = +5.7993636443980030e+00
objValPrimal = +9.5627084577208468e+00
objValDual = +9.5627236358280427e+00
p.feas.error = +9.3597918748855591e-08
d.feas.error = +2.6178006429233847e-08
total time = 5362.233099

Time(sec) Ratio(% : MainLoop)
Predictor time = 5282.395735, 98.535615
Corrector time = 17.587824, 0.328076
Make bMat time = 115.222888, 2.149320
Make bDia time = 0.847531, 0.015809
Make bF1 time = 0.000000, 0.000000
Make bF2 time = 0.000000, 0.000000
Make bF3 time = 0.000000, 0.000000
Make bPRE time = 0.000000, 0.000000
Make rMat time = 0.627434, 0.011704
Make gVec Mul = 0.308126, 0.005748
Make gVec time = 0.587143, 0.010952
copy gVec time = 0.000010, 0.000000
copy bMat time = 218.917643, 4.083599
symm bMat time = 0.000821, 0.000015
Cholesky bMat = 4930.615685, 91.973656
Ste Pre time = 0.003088, 0.000058
Ste Cor time = 2.274815, 0.042433
solve = 31.436030, 0.586395
copy DyVec = 0.105424, 0.001967
sumDz = 1.278744, 0.023853
makedX = 0.993305, 0.018529
symmetriseDx = 0.091862, 0.001714
makedXdZ = 2.363979, 0.044097
xMatTime = 0.427478, 0.007974
zMatTime = 0.613167, 0.011438
invzMatTime = 0.000000, 0.000000
xMatzMatTime = 0.000000, 0.000000
EigxMatTime = 1.030628, 0.019225
EigzMatTime = 1.160540, 0.021648
EigxMatzMatTime = 0.000000, 0.000000
updateRes = 1.135037, 0.021173
EigTime = 2.191168, 0.040873
sub_total_bMat = 5245.677064, 97.850680
Main Loop = 5360.899952, 100.000000
File Check = 0.000000, 0.000000
File Change = 0.004171, 0.000078
File Read = 1.328976, 0.024790
File Trans = 3.163289, 0.059007
Total = 5362.233099, 100.024868

○ OPT クラスタ
１：PowerEdge M1000e(ブレードエンクロージャー) x 1台
２：PowerEdge M710HD(ブレードサーバ) x 16台
ブレードサーバの仕様：
CPU : インテル(R) Xeon(R) プロセッサー X5670(2.93GHz、12MB キャッシュ、6.4 GT/s QPI) x 2個
メモリ： 128GB (16X8GB/2R/1333MHz/DDR3 RDIMM/CPUx2)
Disk : 73GB x 2(1台のみ 300GB x 2)
NIC : GbE x 1 & Inifiniband QDR(40Gbps) x 1
OS : CentOS 5.6 for x86_64

グランドチャレンジ

2012年05月19日 10時25分45秒 | Weblog

東工大 TSUBAME2.0 グランドチャレンジ（超大規模アプリケーション）制度

採択情報を見ると東工大内部の採択だけと言っても良い状況（外部に見えても基本的に TSUBAME 関係者との共同研究）。学外からは敷居が高いと思われる状況もあり、その辺は改善を要する必要があるだろう。さらに残念ながら申請数自体も減っている（２４年春季は当 CREST からの２チームだけ）。ただし、制度自体は大規模実行の機会を狙うユーザにとっては極めて有用で、以下のように今回の SDP の実行に関しては、幾つかの顕著な結果を達成することができた。

採択情報

課題結果概要：内点法アルゴリズムの並列計算による超大規模半正定値計画問題の解決

半正定値計画問題(SDP)は組合せ最適化, システムと制御, データ科学, 量子化学など非常に幅広い応用を持ち、様々な分野で最も注目されている最適化問題の一つとなっている。今後のエネルギー供給計画（スマートグリッド等）では非線形の複雑な最適化問題を扱う必要があり、SDPの高速計算技術の確立が急務である。
SDP に対しては高速かつ安定した反復解法である内点法アルゴリズムが存在しているが、巨大な線形方程式系の生成と計算が大きなボトルネックとなっている。申請者のグループでは、疎性の追求、計算量やデータ移動量などによる計算方法の自動選択などの技術を他に先駆けて実現し、すでに上記のボトルネックの高速化と世界最大規模の SDP を高速に解くことに成功している。今回の利用課題では主要なボトルネックの一つである線形方程式系のCholesky分解に対して、多数GPUの活用や計算と通信のオーバーラップ技術を応用することによって、制約式の数が148万以上となる世界最大規模の巨大 SDP(下図) を解き、SDPの世界記録の更新及び最大で533TFlops(Cholesky分解:4080 GPU)の性能を達成した。

イノベーションジャパン 2012

2012年05月18日 10時55分05秒 | Weblog

イノベーションジャパン 2012 が以下の日時と場所で開催されます。日程的には日本OR学会の RAMP シンポジウム（東北大学）と完全に重なっています。出展ならば私がいなくても可能だということで。。。

イノベーション・ジャパン2012-大学見本市　開催概要
名　称　イノベーション・ジャパン2012‐大学見本市

日時　　　2012年9月27日（木） 9：30～17：30
　　　　 9月28日（金）10：00～17：00
会　場　　東京国際フォーラム（東京都千代田区丸の内3丁目5番1号）
主　催　　独立行政法人科学技術振興機構
入場料　　無料

津波避難施設

2012年05月17日 00時37分45秒 | Weblog

大阪市内の話になるが、東南海・南海地震に上町台地西側10区（淀川区、西淀川区、此花区、福島区、西区、港区、浪速区、大正区、住之江区)に対しては、市内に立地する堅固な施設を津波時に避難できる施設として確保されている。

京セラドーム大阪・周辺デッキ　約9,000名　
OCAT(大阪シティエアターミナルビル) 　約2,500名　
イケア鶴浜　約28,000名 ※ただし、駐車状況等による。
ホテルプラザオーサカ　約2,600名　
ニトリ西成店　約670名避難可能時間：店舗営業時間中

避難所の数は 898 になっている。
http://www.city.osaka.lg.jp/kikikanrishitsu/cmsfiles/contents/0000138/138173/fig.pdf

アクセス
閲覧	224	PV
訪問者	179	IP
トータル
閲覧	4,997,823	PV
訪問者	1,258,642	IP

	goo blogは20周年を迎えました！
	訪問者数に応じてdポイント最大1,000pt当たる！
	皆さんにおすすめしたい人気ブログをご紹介
	今週のお題「#ガーデニング」をチェック

最適化問題に対する超高速＆安定計算

大規模最適化問題、グラフ探索、機械学習やデジタルツインなどの研究のお話が中心