2013年2月のブログ記事一覧-最適化問題に対する超高速＆安定計算

SandyBridge-EP 4-way とバンド幅

2013年02月28日 01時25分07秒 | Weblog

SandyBridge-EP 4-way のメモリバンド幅は広く、改良 stream ベンチマークでは以下のような 200GB/s 程度の性能になっている。

-------------------------------------------------------------
Function Rate (MB/s) Avg time Min time Max time
Copy: 184872.9036 0.0003 0.0002 0.0005
Scale: 188243.6578 0.0003 0.0002 0.0006
Add: 236576.4888 0.0003 0.0002 0.0005
Triad: 221238.0132 0.0003 0.0002 0.0007
-------------------------------------------------------------

SDPA 7.4.0 を実行しながら stream ベンチマークを実行すると、以下のようにメモリバンド幅が半減することもある。
-------------------------------------------------------------
Function Rate (MB/s) Avg time Min time Max time
Copy: 100312.2033 0.0004 0.0003 0.0005
Scale: 91180.5217 0.0004 0.0004 0.0005
Add: 117323.1888 0.0005 0.0004 0.0006
Triad: 109834.4746 0.0005 0.0004 0.0006
-------------------------------------------------------------

しかし、SDPA 7.4.0 が大量のメモリアクセスを行っているときは、以下のようにほとんどバンド幅が残っていない（SDPA がバンド幅を使い切っている）。
-------------------------------------------------------------
Function Rate (MB/s) Avg time Min time Max time
Copy: 1607.8023 0.0201 0.0199 0.0211
Scale: 1702.2122 0.0199 0.0188 0.0201
Add: 2395.0914 0.0201 0.0200 0.0201
Triad: 2402.1500 0.0200 0.0200 0.0200
-------------------------------------------------------------

◯SandyBridge-EP 4-way 計算サーバ
CPU Intel Xeon E5-4640 (8-core 2.40GHz 16MB cacheTDP:95w) x 4
Memory 512GB ACTICA製HPC専用メモリ DDR3 1600Mhz (16GB x 32枚) x 32
OS : CentOS 6.3

静音ラック納品

2013年02月27日 01時28分10秒 | Weblog

いよいよ静音ラックは２７日に納品となりました。

http://www.youtube.com/watch?v=6wsfMNlesLo

そして３月４日にサーバ停止や現ラックの撤去作業。４日と５日に静音ラックへの収納作業を行います。
無事に終われば、部屋内部の騒音はかなり減るはずです。

Intel PC自作キット DC3217IYE

2013年02月26日 01時20分34秒 | Weblog

Intel PC自作キット DC3217IYE を購入して Linux (Fedora 18) のインストールを行いました。今回は以下で Core i7 2600K との簡単な比較を行ってみました。まあそこそこの性能でしょう。

◯主な仕様
CPU : Intel Core i3-3217U 1.8GHz
メモリ 8GB
SSD 128GB

◯stream ベンチマーク : PC自作キット(2コア)
-------------------------------------------------------------
Function Rate (MB/s) Avg time Min time Max time
Copy: 12015.9112 0.0027 0.0027 0.0027
Scale: 11873.4720 0.0027 0.0027 0.0027
Add: 13068.0639 0.0037 0.0037 0.0037
Triad: 13161.1814 0.0037 0.0036 0.0037
-------------------------------------------------------------

◯stream ベンチマーク : 計算サーバ(2コア)
-------------------------------------------------------------
Function Rate (MB/s) Avg time Min time Max time
Copy: 12672.8097 0.0025 0.0025 0.0026
Scale: 12289.8753 0.0026 0.0026 0.0026
Add: 13340.8384 0.0036 0.0036 0.0036
Triad: 13797.0526 0.0035 0.0035 0.0035
-------------------------------------------------------------

◯ s-t パス全列挙(14x14) : PC自作キット(4コア)
./makegrid 15 | OMP_NUM_THREADS=4 ./para_simpath -a 0
np pinned grid n m make[s] enum[s]
4 Core-Major 15 225 420 0.001 29.574

◯ s-t パス全列挙(14x14) : 計算サーバ(4コア)
./makegrid 15 | OMP_NUM_THREADS=4 ./para_simpath -a 0
np pinned grid n m make[s] enum[s]
4 Core-Major 15 225 420 0.000 16.374

◯Graph500 ベンチマーク : PC自作キット(4コア)
SCALE: 22
nvtx: 4194304
edgefactor: 16
terasize: 1.07374182399999998e-03
A: 5.69999999999999951e-01
B: 1.90000000000000002e-01
C: 1.90000000000000002e-01
D: 5.00000000000000444e-02
generation_time: 2.50193269252777100e+01
construction_time: 1.29752070903778076e+01
nbfs: 64
min_time: 6.44381046295166016e-02
firstquartile_time: 6.79354071617126465e-02
median_time: 7.21930265426635742e-02
thirdquartile_time: 7.68384337425231934e-02
max_time: 9.73579883575439453e-02
mean_time: 7.30568356812000275e-02
stddev_time: 6.82990620096857962e-03
min_nedge: 6.71081140000000000e+07
firstquartile_nedge: 6.71081140000000000e+07
median_nedge: 6.71081140000000000e+07
thirdquartile_nedge: 6.71081140000000000e+07
max_nedge: 6.71081140000000000e+07
mean_nedge: 6.71081140000000000e+07
stddev_nedge: 0.00000000000000000e+00
min_TEPS: 6.89292323435727715e+08
firstquartile_TEPS: 8.77082645634088755e+08
median_TEPS: 9.46976933710954309e+08
thirdquartile_TEPS: 9.88877416476561546e+08
max_TEPS: 1.04143525613974023e+09
harmonic_mean_TEPS: 9.18574057776624560e+08
harmonic_stddev_TEPS: 1.08192656146265790e+07

◯Graph500 ベンチマーク : 計算サーバ(4コア)
SCALE: 22
nvtx: 4194304
edgefactor: 16
terasize: 1.07374182399999998e-03
A: 5.69999999999999951e-01
B: 1.90000000000000002e-01
C: 1.90000000000000002e-01
D: 5.00000000000000444e-02
generation_time: 9.75772690773010254e+00
construction_time: 8.59367895126342773e+00
nbfs: 64
min_time: 3.62739562988281250e-02
firstquartile_time: 3.80322933197021484e-02
median_time: 3.93149852752685547e-02
thirdquartile_time: 4.41595911979675293e-02
max_time: 5.25908470153808594e-02
mean_time: 4.09558527171611786e-02
stddev_time: 3.81698127985322534e-03
min_nedge: 6.71081140000000000e+07
firstquartile_nedge: 6.71081140000000000e+07
median_nedge: 6.71081140000000000e+07
thirdquartile_nedge: 6.71081140000000000e+07
max_nedge: 6.71081140000000000e+07
mean_nedge: 6.71081140000000000e+07
stddev_nedge: 0.00000000000000000e+00
min_TEPS: 1.27604170323351860e+09
firstquartile_TEPS: 1.52801152088885689e+09
median_TEPS: 1.71615512115079689e+09
thirdquartile_TEPS: 1.76607008296171379e+09
max_TEPS: 1.85003569633147550e+09
harmonic_mean_TEPS: 1.63854759571104217e+09
harmonic_stddev_TEPS: 1.92394584666955285e+07

◯PC自作キット(1 CPU x 2 コア = 2コア : 4HT)
CPU : Intel Core i3-3217U (1.80GHz / 3MB L3)
Memory : 8GB (4 x 2GB)
OS : Fedora 18

○計算サーバ (1 CPU x 4 コア = 4 コア)
CPU : Intel Core i7 2600K (3.40GHz / 8MB L3)
Memory : 8GB (4 x 2GB)
OS : CentOS 6.3

計算終了

2013年02月25日 00時02分49秒 | Weblog

以下の大きさの問題ですが 59 問全て解き終わりました。2012年11月28日開始で2013年2月24日終了です。

◯解いている問題の大きさ
47688 = mDIM
22 = nBLOCK
16 16 16 16 120 120 256 120 120 256 512 256 256 560 1920 1920 560 6032 6032 1920 1920 -554 = bLOCKsTRUCT

◯ OPT クラスタ
１：PowerEdge M1000e(ブレードエンクロージャー) x 1台
２：PowerEdge M710HD(ブレードサーバ) x 16台
ブレードサーバの仕様：
CPU : インテル(R) Xeon(R) プロセッサー X5670(2.93GHz、12MB キャッシュ、6.4 GT/s QPI) x 2個
メモリ： 128GB (16X8GB/2R/1333MHz/DDR3 RDIMM/CPUx2)
Disk : 73GB x 2(1台のみ 300GB x 2)
NIC : GbE x 1 & Inifiniband QDR(40Gbps) x 1
OS : CentOS 5.9 for x86_64

スパコン

2013年02月24日 19時41分13秒 | Weblog

今年度は東工大 TSUBAME を含めて、日本の４つのスパコンでアカウントを取得しましたが、TSUBAME 以外は全く（あるいはほとんど）使わなかったので、今年度で使用を中止することにしました。使わなかったというよりも様々な理由から使えなかった訳でこれらのスパコンは二度と使用させていただくことは無いでしょう。

筑波大学「地理情報と視覚化」の研究会２０１３

2013年02月23日 00時04分12秒 | Weblog

以前にもアナウンスしました GODIVA 研究会 2013 ですが、以下の HP が更新されました。高校生と学生の発表に挟まれて、お姉さん動画で有名なグラフの s-t パス全列挙の高速化に関する発表が行われます。この内容に関する正式＆詳細な発表は初めてになります。

筑波大学「地理情報と視覚化」の研究会２０１３
（ＧＯＤＩＶＡ研究会２０１３）

日時：2013年2月26日（火曜日）
場所：筑波大学３Ｂ２１０（つくば市天王台１－１－１）
http://www.tsukuba.ac.jp/access/tsukuba_access.html
http://www.tsukuba.ac.jp/access/map_central.html
時間：１３：００－１６：３０
プログラム：
１．高校生発表（90分）
１）日立北高校
２）緑岡高校
３）竜ヶ崎第一高校

２．研究者発表（30分）
　安井雄一郎（中央大学理工学部 & JST CREST)
　　　　Graph500 における BFS 高速化技術を適用した並列パス列挙アルゴリズム

３．学生生発表（60分）
１）笹圭樹（社会工学類４年）
津波時における高台避難の可能性と減災効果に関する研究
２）盆子原歩，浜津桃子（大学院社会システム工学専攻１年）
高萩再生計画
３）石濱友裕（大学院コンピュータサイエンス専攻２年）
『slitherlink』の最適化モデル

4. 表彰式と総括 (10分)

1コアでは大差その２

2013年02月22日 01時03分16秒 | Weblog

昨日の続きで以下の二つのサーバに関して stream ベンチマークでメモリのバンド幅を測定してみた。stream は改良版でインターネットから入手できるものとは異なる。１スレッドでは計算サーバ１の方が高い。計算サーバ２はスレッド数が増えるとバンド幅が上がっていくが、小さい問題を解くには向いていない（やはり大きな問題用である）。

◯計算サーバ１
１スレッド
-------------------------------------------------------------
Function Rate (MB/s) Avg time Min time Max time
Copy: 11917.7524 0.0027 0.0027 0.0027
Scale: 11786.9261 0.0027 0.0027 0.0027
Add: 12966.2261 0.0037 0.0037 0.0037
Triad: 13215.6093 0.0036 0.0036 0.0037
-------------------------------------------------------------

２スレッド
-------------------------------------------------------------
Function Rate (MB/s) Avg time Min time Max time
Copy: 12672.8097 0.0025 0.0025 0.0025
Scale: 12293.2522 0.0026 0.0026 0.0026
Add: 13411.0440 0.0036 0.0036 0.0036
Triad: 13784.7718 0.0035 0.0035 0.0035
-------------------------------------------------------------

４スレッド
-------------------------------------------------------------
Function Rate (MB/s) Avg time Min time Max time
Copy: 12360.0449 0.0026 0.0026 0.0026
Scale: 12021.2923 0.0027 0.0027 0.0027
Add: 12994.6810 0.0037 0.0037 0.0037
Triad: 13296.7830 0.0036 0.0036 0.0036
-------------------------------------------------------------

◯計算サーバ２
１スレッド
-------------------------------------------------------------
Function Rate (MB/s) Avg time Min time Max time
Copy: 6377.0479 0.0051 0.0050 0.0051
Scale: 6373.4141 0.0050 0.0050 0.0051
Add: 6793.9997 0.0071 0.0071 0.0071
Triad: 6899.4720 0.0070 0.0070 0.0070
-------------------------------------------------------------

２スレッド
-------------------------------------------------------------
Function Rate (MB/s) Avg time Min time Max time
Copy: 15016.5281 0.0021 0.0021 0.0022
Scale: 14116.2945 0.0023 0.0023 0.0023
Add: 16182.5088 0.0030 0.0030 0.0030
Triad: 15213.9796 0.0032 0.0032 0.0032
-------------------------------------------------------------

４スレッド
-------------------------------------------------------------
Function Rate (MB/s) Avg time Min time Max time
Copy: 29330.7972 0.0011 0.0011 0.0011
Scale: 27369.0310 0.0012 0.0012 0.0012
Add: 31496.6508 0.0015 0.0015 0.0016
Triad: 29412.2121 0.0016 0.0016 0.0017
-------------------------------------------------------------

８スレッド
-------------------------------------------------------------
Function Rate (MB/s) Avg time Min time Max time
Copy: 53515.8405 0.0006 0.0006 0.0007
Scale: 49146.0007 0.0007 0.0007 0.0007
Add: 56267.9128 0.0009 0.0009 0.0010
Triad: 51556.1055 0.0010 0.0009 0.0011
-------------------------------------------------------------

１６スレッド
-------------------------------------------------------------
Function Rate (MB/s) Avg time Min time Max time
Copy: 64496.7458 0.0007 0.0005 0.0008
Scale: 71889.5169 0.0006 0.0004 0.0008
Add: 75488.0360 0.0008 0.0006 0.0010
Triad: 62176.2174 0.0009 0.0008 0.0010
-------------------------------------------------------------

○計算サーバ１
CPU : Intel Core i7 2600 (3.40GHz / 8MB L3)
Memory : 16GB (4 x 4GB)
OS : CentOS 6.3

◯計算サーバ２
SandyBridge-EP マシン：Intel Xeon E5-2690 2.90GHz : 8 Core 20M L3 cache x 2
Memory DDR 3 1600 ECC REG 256GB (16GB x 16)
OS : CentOS 6.3

1コアでは大差

2013年02月21日 01時08分52秒 | Weblog

以下の二つの計算機について。計算サーバ２は CPU が２個でコア数は合計で１６個ある。計算サーバ１は CPU が１個(4コア)である。以下のように、この両者の計算性能に差がありすぎる。特に１コアのときはかなり大差が付いてしまう。

○問題 theta6.dat-s
○ソフトウェア SDPA 7.4.0

○１コア
計算サーバ１：27.53s
計算サーバ２：77.77s

○２コア
計算サーバ１：14.98s
計算サーバ２：46.53s

○４コア
計算サーバ１：8.57s
計算サーバ２：25.88s

○８コア
計算サーバ２：15.34s

○１６コア
計算サーバ２：10.60s

○計算サーバ１
CPU : Intel Core i7 2600 (3.40GHz / 8MB L3)
Memory : 16GB (4 x 4GB)
OS : CentOS 6.3

◯計算サーバ２
SandyBridge-EP マシン：Intel Xeon E5-2690 2.90GHz : 8 Core 20M L3 cache x 2
Memory DDR 3 1600 ECC REG 256GB (16GB x 16)
OS : CentOS 6.3

日本応用数理学会 2012年度研究部会連合発表会

2013年02月20日 02時45分59秒 | Weblog

日本応用数理学会 2012年度研究部会連合発表会において、ある企画のパネルディスカッションに参加する予定です。

2012年度研究部会連合発表会概要

期間：2013年3月14日(木)、15日(金)
場所：東洋大学白山キャンパス
（交通アクセス）
（〒112-8606　東京都文京区白山5-28-20　TEL:03-3945-7224（代表）　)

サイレントラック　（YNFシリーズ）その２

2013年02月19日 02時12分04秒 | Weblog

以下のサイレントラックを二つ購入して、GPU 関係のサーバなどを格納する予定ですが、これの工事等のため３月４，５，６日あたりに一時的に計算機サービスが停止します。搭載予定サーバは全部で９台になります。

サイレントラック　（YNFシリーズ）

地理情報の解析と視覚化（GODIVA2013）

2013年02月18日 01時32分53秒 | Weblog

以下の研究会で Graph500 やお姉さん動画の数え上げ(s-tパス全列挙)等の高速化の話をする予定です。

筑波大学「地理情報と視覚化」の研究会２０１３
（ＧＯＤＩＶＡ研究会２０１３）

日時：2013年2月26日（火曜日）
場所：筑波大学３Ｂ２１０（つくば市天王台１－１－１）
http://www.tsukuba.ac.jp/access/tsukuba_access.html
http://www.tsukuba.ac.jp/access/map_central.html
時間：１３：００－１６：３０
プログラム：

１．高校生発表（90分）
１）日立北高校
２）緑岡高校
３）竜ヶ崎第一高校

２．研究者発表（30分）
　安井雄一郎（中央大学理工学部 & JST CREST)
　　　　Graph500 における BFS 高速化技術を適用した並列パス列挙アルゴリズム

３．学生生発表（60分）
１）笹圭樹（社会工学類４年）
津波時における高台避難の可能性と減災効果に関する研究
２）盆子原歩，浜津桃子（大学院社会システム工学専攻１年）
高萩再生計画
３）石濱友裕（大学院コンピュータサイエンス専攻２年）
『slitherlink』の最適化モデル

SDPARA の大規模計算の実績について

2013年02月17日 02時58分12秒 | Weblog

これまで SDPARA を用いて様々な計算資源上で大規模計算を実行して、その都度 SDP の世界記録の更新を行ってきた(n = 行列の大きさ, m = 制約式の数とする)。主な結果を以下に記す。

2003年 : 東工大松岡研究室 PREST III クラスタ計算機（64CPU : n = 630, m = 24503）
2006年 : 産総研 AIST Super Cluster (256 CPU : n = 15914, m = 27888)
2010年 : 京大 T2K スーパーコンピュータ (512CPU (2048コア) : n = 19460, m = 36795)
2012年 : 東工大 TSUBAME 2.0 スーパーコンピュータ(2720CPU, 4080GPU) : n = 1,779,204, m = 1,484,406)

社会システム・サービス最適化のためのサイバーフィジカルIT統合基盤の研究」平成24年度研究報告会

2013年02月16日 00時07分35秒 | Weblog

個人的には以下と何の関係もありませんが、２月２２日に東京で開催されるので、ご紹介まで。
-----------------------------------------------------------------------------------------------------------------------------------------------------------
社会システム・サービス最適化のためのサイバーフィジカルIT統合基盤の研究　平成24年度研究報告会
サイバーフィジカルシステムによる新たな価値創造に向けて

主催
国立情報学研究所

共催
北海道大学知識メディア・ラボラトリー、大阪大学、九州大学

開催日時
平成25年2月22日(金) 13：00～18：00 (受付開始 12：30)

フカシギの数え方その３

2013年02月15日 03時35分17秒 | Weblog

またまたお姉さん動画の数え上げについて(サイズは 16x16)。このフロンティア法による s-t パスの全列挙に関しては、HyperThreading の効果が高い。計算サーバ２(SandyBridge-EP 4CPU)と計算サーバ３(Westmere-EP 4CPU)の場合では、ほぼ２倍の性能になる。16x16 で１分切るためには、80 コアぐらいの並列計算が必要となる。

◯計算サーバ１：HyperThreading 未使用
./makegrid 17 | OMP_NUM_THREADS=12 ./para_simpath -a 1
np pinned grid n m make[s] enum[s]
12 Node-Major 17 289 544 0.000 119.025

◯計算サーバ１：HyperThreading 使用
./makegrid 17 | OMP_NUM_THREADS=24 ./para_simpath -a 1
np pinned grid n m make[s] enum[s]
24 Node-Major 17 289 544 0.000 100.261

◯計算サーバ２：HyperThreading 未使用
./makegrid 17 | OMP_NUM_THREADS=32 ./para_simpath -a 1
np pinned grid n m make[s] enum[s]
32 Node-Major 17 289 544 0.001 160.183

◯計算サーバ２：HyperThreading 使用
./makegrid 17 | OMP_NUM_THREADS=64 ./para_simpath -a 1
np pinned grid n m make[s] enum[s]
64 Node-Major 17 289 544 0.001 79.863

◯計算サーバ３：HyperThreading 未使用
./makegrid 17 | OMP_NUM_THREADS=40 ./para_simpath -a 1
np pinned grid n m make[s] enum[s]
40 Node-Major 17 289 544 0.001 90.164

◯計算サーバ３：HyperThreading 使用
./makegrid 17 | OMP_NUM_THREADS=80 ./para_simpath -a 1
np pinned grid n m make[s] enum[s]
80 Node-Major 17 289 544 0.001 46.661

◯計算サーバ１
CPU：Xeon X5690(3.46GHz,6コア)×2
メモリ：192GB(16GB×12)
HDD：SATA500GB×2(システム、システムバックアップ)
NIC : GbE x 1 & Inifiniband(FDR) x 1
GPGPU：Tesla C2075(C2070)×4
OS：CentOS 6.3 for x86_64

◯計算サーバ２
CPU Intel Xeon E5-4640 (8-core 2.40GHz 16MB cacheTDP:95w) x 4
Memory 512GB ACTICA製HPC専用メモリ DDR3 1600Mhz (16GB x 32枚) x 32
OS : CentOS 6.3

◯計算サーバ３
CPU Intel Xeon E7-4870 2.40GHz 30M L3 cache x 4
Memory ACTICA DDR3 1333 ECC REG 512GB( 16GB x 32)
HDD 3.5" Enterprize 1TB SATA HDD x 4 : RAID5構成
VGA GLADIAC GTX 580 1.5GB
Supermicro 4 way 4U Tower Server
1400W redundant 電源
OS : CentOS 6.3

Nexus 10

2013年02月14日 00時50分25秒 | Weblog

Google のアンドロイドタブレット Nexus 10 の在庫がようやく増えてきて、入手しやすくなってきた。

CPU は Dual-core ARM Cortex-A15 なので、CPU 内にコアが二つ搭載となっている。Nexus 7 の CPU は Quad Core なのに Nexus 10 の CPU は Dual Core となっている。メモリは 2GB 搭載なので Graph500 では Scale 21 での実行が可能になると予想される。

Nexus 10
Nexus 10 は鮮やかな 2,560 x 1,600（300 ppi）HD ディスプレイとパワフルなグラフィックプロセッサを搭載しており、優れた画像処理能力を備えています。400 万ピクセル以上のディスプレイで、文字はシャープに、HD 映画はより鮮やかに、写真は細部まで鮮明に映し出されます。

アクセス
閲覧	538	PV
訪問者	267	IP
トータル
閲覧	5,022,363	PV
訪問者	1,275,615	IP

	ブログを読むだけ。毎月の訪問日数に応じてポイント進呈
	gooブロガーの今日のひとこと
	訪問者数に応じてdポイント最大1,000pt当たる！
	goo blogは20周年を迎えました！

最適化問題に対する超高速＆安定計算

大規模最適化問題、グラフ探索、機械学習やデジタルツインなどの研究のお話が中心