最適化問題に対する超高速&安定計算

大規模最適化問題、グラフ探索、機械学習やデジタルツインなどの研究のお話が中心

SandyBridge-EP 4-way とバンド幅

2013年02月28日 01時25分07秒 | Weblog
SandyBridge-EP 4-way のメモリバンド幅は広く、改良 stream ベンチマークでは以下のような 200GB/s 程度の性能になっている。

-------------------------------------------------------------
Function Rate (MB/s) Avg time Min time Max time
Copy: 184872.9036 0.0003 0.0002 0.0005
Scale: 188243.6578 0.0003 0.0002 0.0006
Add: 236576.4888 0.0003 0.0002 0.0005
Triad: 221238.0132 0.0003 0.0002 0.0007
-------------------------------------------------------------

SDPA 7.4.0 を実行しながら stream ベンチマークを実行すると、以下のようにメモリバンド幅が半減することもある。
-------------------------------------------------------------
Function Rate (MB/s) Avg time Min time Max time
Copy: 100312.2033 0.0004 0.0003 0.0005
Scale: 91180.5217 0.0004 0.0004 0.0005
Add: 117323.1888 0.0005 0.0004 0.0006
Triad: 109834.4746 0.0005 0.0004 0.0006
-------------------------------------------------------------

しかし、SDPA 7.4.0 が大量のメモリアクセスを行っているときは、以下のようにほとんどバンド幅が残っていない(SDPA がバンド幅を使い切っている)。
-------------------------------------------------------------
Function Rate (MB/s) Avg time Min time Max time
Copy: 1607.8023 0.0201 0.0199 0.0211
Scale: 1702.2122 0.0199 0.0188 0.0201
Add: 2395.0914 0.0201 0.0200 0.0201
Triad: 2402.1500 0.0200 0.0200 0.0200
-------------------------------------------------------------

◯SandyBridge-EP 4-way 計算サーバ
CPU Intel Xeon E5-4640 (8-core 2.40GHz 16MB cacheTDP:95w) x 4
Memory 512GB ACTICA製HPC専用メモリ DDR3 1600Mhz (16GB x 32枚) x 32
OS : CentOS 6.3
コメント
  • Twitterでシェアする
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

静音ラック納品

2013年02月27日 01時28分10秒 | Weblog
いよいよ静音ラックは27日に納品となりました。

http://www.youtube.com/watch?v=6wsfMNlesLo

そして3月4日にサーバ停止や現ラックの撤去作業。4日と5日に静音ラックへの収納作業を行います。
無事に終われば、部屋内部の騒音はかなり減るはずです。
コメント
  • Twitterでシェアする
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

Intel PC自作キット DC3217IYE

2013年02月26日 01時20分34秒 | Weblog
Intel PC自作キット DC3217IYE を購入して Linux (Fedora 18) のインストールを行いました。今回は以下で Core i7 2600K との簡単な比較を行ってみました。まあそこそこの性能でしょう。

◯主な仕様
CPU : Intel Core i3-3217U 1.8GHz
メモリ 8GB
SSD 128GB

◯stream ベンチマーク : PC自作キット(2コア)
-------------------------------------------------------------
Function Rate (MB/s) Avg time Min time Max time
Copy: 12015.9112 0.0027 0.0027 0.0027
Scale: 11873.4720 0.0027 0.0027 0.0027
Add: 13068.0639 0.0037 0.0037 0.0037
Triad: 13161.1814 0.0037 0.0036 0.0037
-------------------------------------------------------------

◯stream ベンチマーク : 計算サーバ(2コア)
-------------------------------------------------------------
Function Rate (MB/s) Avg time Min time Max time
Copy: 12672.8097 0.0025 0.0025 0.0026
Scale: 12289.8753 0.0026 0.0026 0.0026
Add: 13340.8384 0.0036 0.0036 0.0036
Triad: 13797.0526 0.0035 0.0035 0.0035
-------------------------------------------------------------

◯ s-t パス全列挙(14x14) : PC自作キット(4コア)
./makegrid 15 | OMP_NUM_THREADS=4 ./para_simpath -a 0
np pinned grid n m make[s] enum[s]
4 Core-Major 15 225 420 0.001 29.574

◯ s-t パス全列挙(14x14) : 計算サーバ(4コア)
./makegrid 15 | OMP_NUM_THREADS=4 ./para_simpath -a 0
np pinned grid n m make[s] enum[s]
4 Core-Major 15 225 420 0.000 16.374


◯Graph500 ベンチマーク : PC自作キット(4コア)
SCALE: 22
nvtx: 4194304
edgefactor: 16
terasize: 1.07374182399999998e-03
A: 5.69999999999999951e-01
B: 1.90000000000000002e-01
C: 1.90000000000000002e-01
D: 5.00000000000000444e-02
generation_time: 2.50193269252777100e+01
construction_time: 1.29752070903778076e+01
nbfs: 64
min_time: 6.44381046295166016e-02
firstquartile_time: 6.79354071617126465e-02
median_time: 7.21930265426635742e-02
thirdquartile_time: 7.68384337425231934e-02
max_time: 9.73579883575439453e-02
mean_time: 7.30568356812000275e-02
stddev_time: 6.82990620096857962e-03
min_nedge: 6.71081140000000000e+07
firstquartile_nedge: 6.71081140000000000e+07
median_nedge: 6.71081140000000000e+07
thirdquartile_nedge: 6.71081140000000000e+07
max_nedge: 6.71081140000000000e+07
mean_nedge: 6.71081140000000000e+07
stddev_nedge: 0.00000000000000000e+00
min_TEPS: 6.89292323435727715e+08
firstquartile_TEPS: 8.77082645634088755e+08
median_TEPS: 9.46976933710954309e+08
thirdquartile_TEPS: 9.88877416476561546e+08
max_TEPS: 1.04143525613974023e+09
harmonic_mean_TEPS: 9.18574057776624560e+08
harmonic_stddev_TEPS: 1.08192656146265790e+07

◯Graph500 ベンチマーク : 計算サーバ(4コア)
SCALE: 22
nvtx: 4194304
edgefactor: 16
terasize: 1.07374182399999998e-03
A: 5.69999999999999951e-01
B: 1.90000000000000002e-01
C: 1.90000000000000002e-01
D: 5.00000000000000444e-02
generation_time: 9.75772690773010254e+00
construction_time: 8.59367895126342773e+00
nbfs: 64
min_time: 3.62739562988281250e-02
firstquartile_time: 3.80322933197021484e-02
median_time: 3.93149852752685547e-02
thirdquartile_time: 4.41595911979675293e-02
max_time: 5.25908470153808594e-02
mean_time: 4.09558527171611786e-02
stddev_time: 3.81698127985322534e-03
min_nedge: 6.71081140000000000e+07
firstquartile_nedge: 6.71081140000000000e+07
median_nedge: 6.71081140000000000e+07
thirdquartile_nedge: 6.71081140000000000e+07
max_nedge: 6.71081140000000000e+07
mean_nedge: 6.71081140000000000e+07
stddev_nedge: 0.00000000000000000e+00
min_TEPS: 1.27604170323351860e+09
firstquartile_TEPS: 1.52801152088885689e+09
median_TEPS: 1.71615512115079689e+09
thirdquartile_TEPS: 1.76607008296171379e+09
max_TEPS: 1.85003569633147550e+09
harmonic_mean_TEPS: 1.63854759571104217e+09
harmonic_stddev_TEPS: 1.92394584666955285e+07



◯PC自作キット(1 CPU x 2 コア = 2コア : 4HT)
CPU : Intel Core i3-3217U (1.80GHz / 3MB L3)
Memory : 8GB (4 x 2GB)
OS : Fedora 18

○計算サーバ (1 CPU x 4 コア = 4 コア)
CPU : Intel Core i7 2600K (3.40GHz / 8MB L3)
Memory : 8GB (4 x 2GB)
OS : CentOS 6.3
コメント
  • Twitterでシェアする
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

計算終了

2013年02月25日 00時02分49秒 | Weblog
以下の大きさの問題ですが 59 問全て解き終わりました。2012年11月28日開始で2013年2月24日終了です。

◯解いている問題の大きさ
47688 = mDIM
22 = nBLOCK
16 16 16 16 120 120 256 120 120 256 512 256 256 560 1920 1920 560 6032 6032 1920 1920 -554 = bLOCKsTRUCT

◯ OPT クラスタ
1:PowerEdge M1000e(ブレードエンクロージャー) x 1台
2:PowerEdge M710HD(ブレードサーバ) x 16台
ブレードサーバの仕様:
CPU : インテル(R) Xeon(R) プロセッサー X5670(2.93GHz、12MB キャッシュ、6.4 GT/s QPI) x 2個
メモリ: 128GB (16X8GB/2R/1333MHz/DDR3 RDIMM/CPUx2)
Disk : 73GB x 2(1台のみ 300GB x 2)
NIC : GbE x 1 & Inifiniband QDR(40Gbps) x 1
OS : CentOS 5.9 for x86_64
コメント
  • Twitterでシェアする
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

スパコン

2013年02月24日 19時41分13秒 | Weblog
今年度は東工大 TSUBAME を含めて、日本の4つのスパコンでアカウントを取得しましたが、TSUBAME 以外は全く(あるいはほとんど)使わなかったので、今年度で使用を中止することにしました。使わなかったというよりも様々な理由から使えなかった訳でこれらのスパコンは二度と使用させていただくことは無いでしょう。

コメント
  • Twitterでシェアする
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

筑波大学「地理情報と視覚化」の研究会2013

2013年02月23日 00時04分12秒 | Weblog
以前にもアナウンスしました GODIVA 研究会 2013 ですが、以下の HP が更新されました。高校生と学生の発表に挟まれて、お姉さん動画で有名なグラフの s-t パス全列挙の高速化に関する発表が行われます。この内容に関する正式&詳細な発表は初めてになります。

筑波大学「地理情報と視覚化」の研究会2013
(GODIVA研究会2013)

日時:2013年2月26日(火曜日)
場所:筑波大学3B210(つくば市天王台1-1-1)
http://www.tsukuba.ac.jp/access/tsukuba_access.html
http://www.tsukuba.ac.jp/access/map_central.html
時間:13:00-16:30
プログラム:
1.高校生発表(90分)
1)日立北高校
2)緑岡高校
3)竜ヶ崎第一高校

2.研究者発表(30分)
 安井雄一郎(中央大学理工学部 & JST CREST)
    Graph500 における BFS 高速化技術を適用した並列パス列挙アルゴリズム

3.学生生発表(60分)
1)笹圭樹(社会工学類4年)
津波時における高台避難の可能性と減災効果に関する研究
2)盆子原歩,浜津桃子(大学院社会システム工学専攻1年)
高萩再生計画
3)石濱友裕(大学院コンピュータサイエンス専攻2年)
『slitherlink』の最適化モデル

4. 表彰式と総括 (10分)
コメント
  • Twitterでシェアする
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

1コアでは大差 その2

2013年02月22日 01時03分16秒 | Weblog
昨日の続きで以下の二つのサーバに関して stream ベンチマークでメモリのバンド幅を測定してみた。stream は改良版でインターネットから入手できるものとは異なる。1スレッドでは計算サーバ1の方が高い。計算サーバ2はスレッド数が増えるとバンド幅が上がっていくが、小さい問題を解くには向いていない(やはり大きな問題用である)。

◯計算サーバ1
1スレッド
-------------------------------------------------------------
Function Rate (MB/s) Avg time Min time Max time
Copy: 11917.7524 0.0027 0.0027 0.0027
Scale: 11786.9261 0.0027 0.0027 0.0027
Add: 12966.2261 0.0037 0.0037 0.0037
Triad: 13215.6093 0.0036 0.0036 0.0037
-------------------------------------------------------------

2スレッド
-------------------------------------------------------------
Function Rate (MB/s) Avg time Min time Max time
Copy: 12672.8097 0.0025 0.0025 0.0025
Scale: 12293.2522 0.0026 0.0026 0.0026
Add: 13411.0440 0.0036 0.0036 0.0036
Triad: 13784.7718 0.0035 0.0035 0.0035
-------------------------------------------------------------

4スレッド
-------------------------------------------------------------
Function Rate (MB/s) Avg time Min time Max time
Copy: 12360.0449 0.0026 0.0026 0.0026
Scale: 12021.2923 0.0027 0.0027 0.0027
Add: 12994.6810 0.0037 0.0037 0.0037
Triad: 13296.7830 0.0036 0.0036 0.0036
-------------------------------------------------------------

◯計算サーバ2
1スレッド
-------------------------------------------------------------
Function Rate (MB/s) Avg time Min time Max time
Copy: 6377.0479 0.0051 0.0050 0.0051
Scale: 6373.4141 0.0050 0.0050 0.0051
Add: 6793.9997 0.0071 0.0071 0.0071
Triad: 6899.4720 0.0070 0.0070 0.0070
-------------------------------------------------------------

2スレッド
-------------------------------------------------------------
Function Rate (MB/s) Avg time Min time Max time
Copy: 15016.5281 0.0021 0.0021 0.0022
Scale: 14116.2945 0.0023 0.0023 0.0023
Add: 16182.5088 0.0030 0.0030 0.0030
Triad: 15213.9796 0.0032 0.0032 0.0032
-------------------------------------------------------------

4スレッド
-------------------------------------------------------------
Function Rate (MB/s) Avg time Min time Max time
Copy: 29330.7972 0.0011 0.0011 0.0011
Scale: 27369.0310 0.0012 0.0012 0.0012
Add: 31496.6508 0.0015 0.0015 0.0016
Triad: 29412.2121 0.0016 0.0016 0.0017
-------------------------------------------------------------

8スレッド
-------------------------------------------------------------
Function Rate (MB/s) Avg time Min time Max time
Copy: 53515.8405 0.0006 0.0006 0.0007
Scale: 49146.0007 0.0007 0.0007 0.0007
Add: 56267.9128 0.0009 0.0009 0.0010
Triad: 51556.1055 0.0010 0.0009 0.0011
-------------------------------------------------------------

16スレッド
-------------------------------------------------------------
Function Rate (MB/s) Avg time Min time Max time
Copy: 64496.7458 0.0007 0.0005 0.0008
Scale: 71889.5169 0.0006 0.0004 0.0008
Add: 75488.0360 0.0008 0.0006 0.0010
Triad: 62176.2174 0.0009 0.0008 0.0010
-------------------------------------------------------------


○計算サーバ1
CPU : Intel Core i7 2600 (3.40GHz / 8MB L3)
Memory : 16GB (4 x 4GB)
OS : CentOS 6.3

◯計算サーバ2
SandyBridge-EP マシン:Intel Xeon E5-2690 2.90GHz : 8 Core 20M L3 cache x 2
Memory DDR 3 1600 ECC REG 256GB (16GB x 16)
OS : CentOS 6.3
コメント
  • Twitterでシェアする
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

1コアでは大差

2013年02月21日 01時08分52秒 | Weblog
以下の二つの計算機について。計算サーバ2は CPU が2個でコア数は合計で16個ある。計算サーバ1は CPU が1個(4コア)である。以下のように、この両者の計算性能に差がありすぎる。特に1コアのときはかなり大差が付いてしまう。

○問題 theta6.dat-s
○ソフトウェア SDPA 7.4.0

○1コア
計算サーバ1:27.53s
計算サーバ2:77.77s

○2コア
計算サーバ1:14.98s
計算サーバ2:46.53s

○4コア
計算サーバ1:8.57s
計算サーバ2:25.88s

○8コア
計算サーバ2:15.34s

○16コア
計算サーバ2:10.60s


○計算サーバ1
CPU : Intel Core i7 2600 (3.40GHz / 8MB L3)
Memory : 16GB (4 x 4GB)
OS : CentOS 6.3

◯計算サーバ2
SandyBridge-EP マシン:Intel Xeon E5-2690 2.90GHz : 8 Core 20M L3 cache x 2
Memory DDR 3 1600 ECC REG 256GB (16GB x 16)
OS : CentOS 6.3
コメント
  • Twitterでシェアする
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

日本応用数理学会 2012年度研究部会連合発表会

2013年02月20日 02時45分59秒 | Weblog
日本応用数理学会 2012年度研究部会連合発表会において、ある企画のパネルディスカッションに参加する予定です。

2012年度研究部会連合発表会概要

期間:2013年3月14日(木)、15日(金)
場所:東洋大学 白山キャンパス
(交通アクセス)
(〒112-8606 東京都文京区白山5-28-20 TEL:03-3945-7224(代表) )
コメント
  • Twitterでシェアする
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

サイレントラック (YNFシリーズ) その2

2013年02月19日 02時12分04秒 | Weblog
以下のサイレントラックを二つ購入して、GPU 関係のサーバなどを格納する予定ですが、これの工事等のため3月4,5,6日あたりに一時的に計算機サービスが停止します。搭載予定サーバは全部で9台になります。

サイレントラック (YNFシリーズ)
コメント
  • Twitterでシェアする
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

地理情報の解析と視覚化(GODIVA2013)

2013年02月18日 01時32分53秒 | Weblog
以下の研究会で Graph500 やお姉さん動画の数え上げ(s-tパス全列挙)等の高速化の話をする予定です。

筑波大学「地理情報と視覚化」の研究会2013
(GODIVA研究会2013)

日時:2013年2月26日(火曜日)
場所:筑波大学3B210(つくば市天王台1-1-1)
http://www.tsukuba.ac.jp/access/tsukuba_access.html
http://www.tsukuba.ac.jp/access/map_central.html
時間:13:00-16:30
プログラム:

1.高校生発表(90分)
1)日立北高校
2)緑岡高校
3)竜ヶ崎第一高校

2.研究者発表(30分)
 安井雄一郎(中央大学理工学部 & JST CREST)
    Graph500 における BFS 高速化技術を適用した並列パス列挙アルゴリズム

3.学生生発表(60分)
1)笹圭樹(社会工学類4年)
津波時における高台避難の可能性と減災効果に関する研究
2)盆子原歩,浜津桃子(大学院社会システム工学専攻1年)
高萩再生計画
3)石濱友裕(大学院コンピュータサイエンス専攻2年)
『slitherlink』の最適化モデル
コメント
  • Twitterでシェアする
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

SDPARA の大規模計算の実績について

2013年02月17日 02時58分12秒 | Weblog
これまで SDPARA を用いて様々な計算資源上で大規模計算を実行して、その都度 SDP の世界記録の更新を行ってきた(n = 行列の大きさ, m = 制約式の数とする)。主な結果を以下に記す。

2003年 : 東工大松岡研究室 PREST III クラスタ計算機 (64CPU : n = 630, m = 24503)
2006年 : 産総研 AIST Super Cluster (256 CPU : n = 15914, m = 27888)
2010年 : 京大 T2K スーパーコンピュータ (512CPU (2048コア) : n = 19460, m = 36795)
2012年 : 東工大 TSUBAME 2.0 スーパーコンピュータ(2720CPU, 4080GPU) : n = 1,779,204, m = 1,484,406)
コメント
  • Twitterでシェアする
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

社会システム・サービス最適化のためのサイバーフィジカルIT統合基盤の研究」 平成24年度研究報告会

2013年02月16日 00時07分35秒 | Weblog
個人的には以下と何の関係もありませんが、2月22日に東京で開催されるので、ご紹介まで。
-----------------------------------------------------------------------------------------------------------------------------------------------------------
社会システム・サービス最適化のためのサイバーフィジカルIT統合基盤の研究 平成24年度研究報告会
サイバーフィジカルシステムによる新たな価値創造に向けて

主催
国立情報学研究所

共催
北海道大学知識メディア・ラボラトリー、大阪大学、九州大学

開催日時
平成25年2月22日(金) 13:00~18:00 (受付開始 12:30)
コメント
  • Twitterでシェアする
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

フカシギの数え方 その3

2013年02月15日 03時35分17秒 | Weblog
またまたお姉さん動画の数え上げについて(サイズは 16x16)。このフロンティア法による s-t パスの全列挙に関しては、HyperThreading の効果が高い。計算サーバ2(SandyBridge-EP 4CPU)と計算サーバ3(Westmere-EP 4CPU)の場合では、ほぼ2倍の性能になる。16x16 で1分切るためには、80 コアぐらいの並列計算が必要となる。

◯計算サーバ1:HyperThreading 未使用
./makegrid 17 | OMP_NUM_THREADS=12 ./para_simpath -a 1
np pinned grid n m make[s] enum[s]
12 Node-Major 17 289 544 0.000 119.025

◯計算サーバ1:HyperThreading 使用
./makegrid 17 | OMP_NUM_THREADS=24 ./para_simpath -a 1
np pinned grid n m make[s] enum[s]
24 Node-Major 17 289 544 0.000 100.261

◯計算サーバ2:HyperThreading 未使用
./makegrid 17 | OMP_NUM_THREADS=32 ./para_simpath -a 1
np pinned grid n m make[s] enum[s]
32 Node-Major 17 289 544 0.001 160.183

◯計算サーバ2:HyperThreading 使用
./makegrid 17 | OMP_NUM_THREADS=64 ./para_simpath -a 1
np pinned grid n m make[s] enum[s]
64 Node-Major 17 289 544 0.001 79.863

◯計算サーバ3:HyperThreading 未使用
./makegrid 17 | OMP_NUM_THREADS=40 ./para_simpath -a 1
np pinned grid n m make[s] enum[s]
40 Node-Major 17 289 544 0.001 90.164

◯計算サーバ3:HyperThreading 使用
./makegrid 17 | OMP_NUM_THREADS=80 ./para_simpath -a 1
np pinned grid n m make[s] enum[s]
80 Node-Major 17 289 544 0.001 46.661







◯計算サーバ1
CPU:Xeon X5690(3.46GHz,6コア)×2
メモリ:192GB(16GB×12)
HDD:SATA500GB×2(システム、システムバックアップ)
NIC : GbE x 1 & Inifiniband(FDR) x 1
GPGPU:Tesla C2075(C2070)×4
OS:CentOS 6.3 for x86_64

◯計算サーバ2
CPU Intel Xeon E5-4640 (8-core 2.40GHz 16MB cacheTDP:95w) x 4
Memory 512GB ACTICA製HPC専用メモリ DDR3 1600Mhz (16GB x 32枚) x 32
OS : CentOS 6.3

◯計算サーバ3
CPU Intel Xeon E7-4870 2.40GHz 30M L3 cache x 4
Memory ACTICA DDR3 1333 ECC REG 512GB( 16GB x 32)
HDD 3.5" Enterprize 1TB SATA HDD x 4 : RAID5構成
VGA GLADIAC GTX 580 1.5GB
Supermicro 4 way 4U Tower Server
1400W redundant 電源
OS : CentOS 6.3
コメント
  • Twitterでシェアする
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

Nexus 10

2013年02月14日 00時50分25秒 | Weblog
Google のアンドロイドタブレット Nexus 10 の在庫がようやく増えてきて、入手しやすくなってきた。

CPU は Dual-core ARM Cortex-A15 なので、CPU 内にコアが二つ搭載となっている。Nexus 7 の CPU は Quad Core なのに Nexus 10 の CPU は Dual Core となっている。メモリは 2GB 搭載なので Graph500 では Scale 21 での実行が可能になると予想される。

Nexus 10
Nexus 10 は鮮やかな 2,560 x 1,600(300 ppi)HD ディスプレイとパワフルなグラフィック プロセッサを搭載しており、優れた画像処理能力を備えています。400 万ピクセル以上のディスプレイで、文字はシャープに、HD 映画はより鮮やかに、写真は細部まで鮮明に映し出されます。
コメント
  • Twitterでシェアする
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする