最適化問題に対する超高速&安定計算

大規模最適化問題、グラフ探索、機械学習やデジタルツインなどの研究のお話が中心

Fusion-IO マシン stream ベンチ

2012年12月16日 21時09分31秒 | Weblog
stream ベンチにはいろいろな評価があるのだが、これでメモリバンド幅を測定してみた(メモリバンド幅なので、Fusion-IO は無関係)。32コアで測定。今までいろいろばマシンで測定した中では最高の値が出ている。

-------------------------------------------------------------
Function Rate (MB/s) Avg time Min time Max time
Copy: 233422.1357 0.0002 0.0001 0.0002
Scale: 237133.7951 0.0002 0.0001 0.0002
Add: 265252.4269 0.0002 0.0002 0.0002
Triad: 262144.0000 0.0002 0.0002 0.0003
-------------------------------------------------------------

Case+M/B Intel Lizard Head Pass Quad Xeon Server x 1
CPU Intel Xeon E5-4640 Xeon (8-core 2.40GHz 16MB cacheTDP:95w) x 4
Memory 512GB ACTICA製HPC専用メモリ DDR3 1600Mhz (16GB x 32枚) x 32

コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

Fusion-IO マシン ファイルシステム

2012年12月15日 13時11分20秒 | Weblog
結局 SSD は 600GB x 3 台が RAID で1ドライブとなっていた。Fusion-IO ドライブのフォーマットはこちらで行った。

Filesystem 1K-ブロック 使用 使用可 使用% マウント位置
/dev/sda2 103212320 14998432 82971008 16% /
tmpfs 264639164 0 264639164 0% /dev/shm
/dev/sda1 2064208 123868 1835484 7% /boot
/dev/sda5 358929132 229864 340466644 1% /home
/dev/sdb 2928835792 280309360 2648526432 10% /data
/dev/sdc 1756953152 32928 1756920224 1% /scr
/dev/fioa 1158293572 203528 1099252156 1% /FIO

上記のようなファイルシステムの構成となっている。

/data : HDD Enterprize 3.5" 3TB SATA HDD 3TB x 1
/scr : SSD SATA SSD 600GB 1.8TB x 3
/FIO : SDD Fusion IO 1.2TB SSD Card 1.2TB x 1
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

Fusion-IO マシン 納品

2012年12月14日 17時07分06秒 | Weblog
今日、納品の予定。SSD は今日の時点では1台しか付いていないらしい。

Case+M/B Intel Lizard Head Pass Quad Xeon Server x 1
CPU Intel Xeon E5-4640 Xeon (8-core 2.40GHz 16MB cacheTDP:95w) x 4
Memory 512GB ACTICA製HPC専用メモリ DDR3 1600Mhz (16GB x 32枚) x 32

Card RAID-Card x 1

VGA On Board VGA x 1
ODD DVD-ROMドライブ x 1
電源 1600W Redundant 電源 80 PLUS, Platinum Level Certified x 1

SDD Fusion IO 1.2TB SSD Card 1.2TB x 1
SSD SATA SSD 600GB 1.8TB x 3 x
HDD Enterprize 3.5" 3TB SATA HDD 3TB x 1
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

北大湊ERATO訪問中

2012年12月13日 13時23分54秒 | Weblog
12,13日と北大湊ERATOオフィス訪問中です(HOKKE-20にも参加中です)。12日はこちらのチームからの発表。13日はZDD 関係の講演と議論になります。

かなりの積雪がありまして、12月としてはこちらでも珍しいそうです。






コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

ERATO セミナー

2012年12月12日 01時11分06秒 | Weblog
以下の ERATOセミナー本日となりました。我々メンバーは北大で発表しますが、予定では東京、大阪、九州への TV 会議中継もあるそうです。

-------------------------------------------------------------------------------------------------------------------------------------------------------------

開催日 2012年12月12日(水曜日)
開催時間 15時00分-15時30分
発表者 遠藤敏夫
発表者の紹介 東京工業大学 & JST CREST
タイトル ポストペタスケール時代のメモリ階層の深化に対応するソフトウェア技術
発表の概要
メモリの速度性能・容量の伸びがメニーコア化するプロセッサの伸びに追いつかないという、メモリウォール問題は、今後のスパコンアーキテクチャにおいて顕著となり、科学技術計算を現状よりもさらに大規模化・精緻化する上での障害となると考えられています。その解決を目的として、2012年10月から開始したJST-CRESTプロジェクト「ポストペタスケール時代のメモリ階層の深化に対応するソフトウェア技術」の概要を説明します。本プロジェクトでは、不揮発メモリも含めた異種のメモリを混在させたスパコンアーキテクチャを想定し、それを有効活用するコンパイラ・メモリ管理技術・応用アルゴリズムなどにまたがった新しいソフトウェア技術の研究開発を推進します。
開催場所 北大工学部C304 ERATOセミナ室(TV会議中継あり)
接続サイト 東京,大阪,九州(予定)

開催時間 15時30分-16時00分
発表者 佐藤仁
発表者の紹介 東京工業大学 & JST CREST
タイトル GPU MapReduceによる大規模グラフ処理
発表の概要
MapReduceモデルに基づいたGIM-V(Generalized Iterative Matrix-Vector multiplication)グラフ処理アルゴリズムを複数GPU環境へ適用した事例について紹介する。東工大のTSUBAME2.0スーパーコンピュータの256ノード、768台のGPUを用いて、2^30頂点、2^34辺のグラフに対するPageRank処理を行った結果、87.04 ME/s (mega edges per second)を達成し、スケーラブルな性能を示すことを確認した。
開催場所 北大工学部C304 ERATOセミナ室(TV会議中継あり)
接続サイト 東京,大阪,九州(予定)

開催時間 16時00分-16時45分
発表者 安井雄一郎
発表者の紹介 中央大学, JST CREST
タイトル メモリ階層構造を考慮した大規模グラフ処理の高速化
発表の概要
本発表では基本的なグラフ処理である幅優先探索, 最短路問題, 中心性指標計算に焦点を当てて,メモリ階層構造を考慮した高速計算について述べていく. 我々の実装 NETAL (NETwork Analysis Library) は,2400万点5800万枝からなる全米道路ネットワークに対する各2点間の最短路長を7.75日で,377万点1652万枝からなる特許引用ネットワークに対する中心性指標計算を2.52時間で, 厳密計算に成功している. また,幅優先探索性能は最新の Graph500 List において, CPU 主体の単一計算機上で最も高速かつ, 消費電力あたりの性能が最も高い.これらを実現するために必要な計算機の特徴を捉えたアルゴリズムとデータ構造、その実装方法を紹介する.
開催場所 北大工学部C304 ERATOセミナ室(TV会議中継あり)
接続サイト 東京,大阪,九州(予定)

開催時間 16時45分-17時30分
発表者 藤澤克樹
発表者の紹介 中央大学, JST CREST
タイトル 大規模最適化問題に対するソフトウェア開発と高速&安定計算 --理論からスパコンまで--
発表の概要
最適化手法とコンピュータが生まれてから60年以上の間、常に計算機、最適化アルゴリズム共に進歩を遂げてきました。優れた理論から必ずしも優れたソフトウェアが生まれるとは限らないのですが、今回の講演では 1990年代半ばに誕生した半正定値計画問題(SDP)に対する理論(主双対内点法)を題材に取って、この理論がその後どのような経緯を辿って、ソフトウェア化 --> 一般公開 --> 高精度化 --> スパコン上で大規模並列計算へと進んで行ったのかについてお話したいと思います。内容はSDP に関する最適化理論、定式化等から応用分野、ソフトウェア化、大規模計算までと多岐に渡る予定です。
開催場所 北大工学部C304 ERATOセミナ室(TV会議中継あり)
接続サイト 東京,大阪,九州(予定)
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

Graph500 の最新結果 その2

2012年12月11日 01時11分40秒 | Weblog
AMD Opteron (Istanbul x 4way) マシンでの Graph500 結果。4-way で CPU 24 コアもありながら Median TEPS 値はたったの 1.898 である。これは以下のように CPU affinity が 1x24 になっていることにも原因がある。これを BIOS で 4x6 に変えれば性能が上がるはずである。
< CPU affinity >
[node00 (24cores)] = [ 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 ]

----------------------------------------------------------------------
Parallel Breadth-First Search for Graph500 Benchmark version 3.58
----------------------------------------------------------------------
CPU name is Six-Core AMD Opteron(tm) Processor 8439 SE
freq / RAM is 2792.865 MHz / 125.98 GB
#cpu, #nodes, #cores is 24 1 24
COMPILER is GCC (GNU C Compiler) version 4.7.2
----------------------------------------------------------------------
scale, edgefactor is 25 16
energy_loop is disable
#threads, #NUMAs is 24 1
mpol_bind is ON(mmap with mbind(MPOL_BIND))
mem_interleave is OFF
switching parameter is 24 1
queue buffer size is 16384
----------------------------------------------------------------------
SCALE: 25
nvtx: 33554432
edgefactor: 16
terasize: 8.58993459199999983e-03
A: 5.69999999999999951e-01
B: 1.90000000000000002e-01
C: 1.90000000000000002e-01
D: 5.00000000000000444e-02
generation_time: 2.75891458988189697e+01
construction_time: 6.19592666625976562e+01
nbfs: 64
min_time: 2.29807138442993164e-01
firstquartile_time: 2.60692536830902100e-01
median_time: 2.85002946853637695e-01
thirdquartile_time: 3.10482501983642578e-01
max_time: 3.48581075668334961e-01
mean_time: 2.83587876707315445e-01
stddev_time: 3.04778817111883149e-02
min_nedge: 5.36865498000000000e+08
firstquartile_nedge: 5.36865498000000000e+08
median_nedge: 5.36865498000000000e+08
thirdquartile_nedge: 5.36865498000000000e+08
max_nedge: 5.36865498000000000e+08
mean_nedge: 5.36865498000000000e+08
stddev_nedge: 0.00000000000000000e+00
min_TEPS: 1.54014527888717723e+09
firstquartile_TEPS: 1.75144256147688866e+09
median_TEPS: 1.89826446279116297e+09
thirdquartile_TEPS: 2.09229057059855938e+09
max_TEPS: 2.33615675142822838e+09
harmonic_mean_TEPS: 1.89311864891208506e+09
harmonic_stddev_TEPS: 2.56333092578224689e+07
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

TSUBAME 2.0 と icc と mvapich2

2012年12月10日 02時27分56秒 | Weblog
TSUBAME 2.0 に Intel Compiler と mvapich2 の新バージョンがインストールされている。

Intel Compiler : icc version 13.0.0 (gcc version 4.3.0 compatibility)
mvapich2 : 1.8.1

これらを使うためには、以下のように環境変数を設定する必要がある。

export PATH=/usr/apps/isv/intel/2013.0.079/bin:/usr/apps/mvapich2/1.8.1/intel/bin:$PATH
export LD_LIBRARY_PATH=/usr/apps/isv/intel/2013.0.079/lib/intel64:/usr/apps/isv/intel/2013.0.079/mkl/lib/intel64:/usr/apps/mvapich2/1.8.1/intel/lib:$LD_LIBRARY_PATH
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

Graph500 の最新結果

2012年12月09日 01時56分32秒 | Weblog
Graph500 用プログラムの最新結果。以下の80コアマシン(HT)で最速の10GTEPS越え。というわけなので、SandyBridge の 4-way マシンにも期待。

----------------------------------------------------------------------
Parallel Breadth-First Search for Graph500 Benchmark version 3.58
----------------------------------------------------------------------
CPU name is Intel(R) Xeon(R) CPU E7- 4870 @ 2.40GHz
freq / RAM is 2400.101 MHz / 504.78 GB
#cpu, #nodes, #cores is 80 4 20
COMPILER is GCC (GNU C Compiler) version 4.4.6
----------------------------------------------------------------------
scale, edgefactor is 25 16
energy_loop is disable
#threads, #NUMAs is 80 4
mpol_bind is ON(mmap with mbind(MPOL_BIND))
mem_interleave is OFF
switching parameter is 20 4
queue buffer size is 16384
----------------------------------------------------------------------
SCALE: 25
nvtx: 33554432
edgefactor: 16
terasize: 8.58993459199999983e-03
A: 5.69999999999999951e-01
B: 1.90000000000000002e-01
C: 1.90000000000000002e-01
D: 5.00000000000000444e-02
generation_time: 1.24387509822845459e+01
construction_time: 1.37996511459350586e+01
nbfs: 64
min_time: 4.20968532562255859e-02
firstquartile_time: 4.82609272003173828e-02
median_time: 5.12219667434692383e-02
thirdquartile_time: 5.69275021553039551e-02
max_time: 6.75561428070068359e-02
mean_time: 5.19287958741188049e-02
stddev_time: 5.63412806482527055e-03
min_nedge: 5.36865498000000000e+08
firstquartile_nedge: 5.36865498000000000e+08
median_nedge: 5.36865498000000000e+08
thirdquartile_nedge: 5.36865498000000000e+08
max_nedge: 5.36865498000000000e+08
mean_nedge: 5.36865498000000000e+08
stddev_nedge: 0.00000000000000000e+00
min_TEPS: 7.94695309253678989e+09
firstquartile_TEPS: 9.70066545801282120e+09
median_TEPS: 1.06109048921927681e+10
thirdquartile_TEPS: 1.12622232967597618e+10
max_TEPS: 1.27531028205915718e+10
harmonic_mean_TEPS: 1.03384931031603718e+10
harmonic_stddev_TEPS: 1.41320586034279168e+08

◯計算サーバ:Intel Xeon Westmere-EX 40 コアマシン
CPU Intel Xeon E7-4870 2.40GHz 30M L3 cache x 4
Memory ACTICA DDR3 1333 ECC REG 512GB( 16GB x 32)
HDD 3.5" Enterprize 1TB SATA HDD x 4 : RAID5構成
VGA GLADIAC GTX 580 1.5GB
Supermicro 4 way 4U Tower Server
1400W redundant 電源
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

Convex optimization approaches to maximally predictable portfolio selection

2012年12月08日 00時58分23秒 | Weblog
以下の論文が Optimization: A Journal of Mathematical Programming and Operations Research に掲載されました。足掛け4年で大変長かったです。初めに実験したときは SDPARA 7.3.1 を使いましたので(現在の最新版は 7.5.0-G)。


Convex optimization approaches to maximally predictable portfolio selection

Jun-ya Gotoh & Katsuki Fujisawa

Abstract

In this article we propose a simple heuristic algorithm for approaching the maximally predictable portfolio, which is constructed so that return model of the resulting portfolio would attain the largest goodness-of-fit. It is obtained by solving a fractional program in which a ratio of two convex quadratic functions is maximized, and the number of variables associated with its nonconcavity has been a bottleneck in spite of continuing endeavour for its global optimization. The proposed algorithm can be implemented by simply solving a series of convex quadratic programs, and computational results show that it yields within a few seconds a (near) Karush–Kuhn–Tucker solution to each of the instances which were solved via a global optimization method in [H. Konno, Y. Takaya and R. Yamamoto, A maximal predictability portfolio using dynamic factor selection strategy, Int. J. Theor. Appl. Fin. 13 (2010) pp. 355–366]. In order to confirm the solution accuracy, we also pose a semidefinite programming relaxation approach, which succeeds in ensuring a near global optimality of the proposed approach. Our findings through computational experiments encourage us not to employ the global optimization approach, but to employ the local search algorithm for solving the fractional program of much larger size.
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

Westmere-EX 40 コアマシン v.s. SandyBridge-EP 16 コアマシン

2012年12月07日 00時44分08秒 | Weblog
以下のように

gcc 速い > Intel icc 遅い
SandyBridge-EP 16 コアマシン 速い > Westmere-EX 40 コアマシン 遅い

という関係になっている。というわけなので SandyBridge-EP 32 コアマシン(4-way)は性能的には期待できそうだ。

◯ソフトウェア SDPA 7.4.0 + OpenBLAS 0.2.4

----------------------------------------------------------------------------
○問題1:theta6.dat-s
gcc 4.4.6 : 5.845s
icc 13.0.1 : 6.280s

○問題2:FH2+.1A1.STO6G.pqgt1t2p.dat-s
gcc 4.4.6 : 33.883s
icc 13.0.1 : 36.844s

○問題3:nug12_r2.dat-s
gcc 4.4.6 : 45.509s
icc 13.0.1 : 50.848s

◯計算サーバ:Intel Xeon SandyBridge-EP 16 コアマシン
SandyBridge-EP マシン:Intel Xeon E5-2690 2.90GHz : 8 Core 20M L3 cache x 2
Memory DDR 3 1600 ECC REG 256GB (16GB x 16)
OS : CentOS 6.3

----------------------------------------------------------------------------
○問題1:theta6.dat-s
gcc 4.4.6 : 9.012s
icc 13.0.1 : 9.427s

○問題2:FH2+.1A1.STO6G.pqgt1t2p.dat-s
gcc 4.4.6 : 43.244s
icc 13.0.1 : 40.350s

○問題3:nug12_r2.dat-s
gcc 4.4.6 : 81.118s
icc 13.0.1 : 76.457s

◯計算サーバ:Intel Xeon Westmere-EX 40 コアマシン
CPU Intel Xeon E7-4870 2.40GHz 30M L3 cache x 4
Memory ACTICA DDR3 1333 ECC REG 512GB( 16GB x 32)
HDD 3.5" Enterprize 1TB SATA HDD x 4 : RAID5構成
VGA GLADIAC GTX 580 1.5GB
Supermicro 4 way 4U Tower Server
1400W redundant 電源
OS : CentOS 6.3
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

計算開始 その4

2012年12月06日 01時23分20秒 | Weblog
現在5問解き終わっているが、各問題を解くときには以下のような実行時間の構成となっている。全体の実行時間(Main Loop)と ELEMENTS (SCM の計算:以下では Make bMat time) 及び CHOLESKY(SCM の Cholesky 分解:以下では Cholesky bMat) は以下の通りで、やはり ELEMENTS が全体の90 % 以上を占めている。

Make bMat time = 107635.521918, 92.606180
Cholesky bMat = 1486.900476, 1.279282
makedXdZ = 1067.956766, 0.918836
Main Loop = 116229.308103, 100.000000

◯解いている問題の大きさ
47688 = mDIM
22 = nBLOCK
16 16 16 16 120 120 256 120 120 256 512 256 256 560 1920 1920 560 6032 6032 1920 1920 -554 = bLOCKsTRUCT

◯ OPT クラスタ
1:PowerEdge M1000e(ブレードエンクロージャー) x 1台
2:PowerEdge M710HD(ブレードサーバ) x 16台
ブレードサーバの仕様:
CPU : インテル(R) Xeon(R) プロセッサー X5670(2.93GHz、12MB キャッシュ、6.4 GT/s QPI) x 2個
メモリ: 128GB (16X8GB/2R/1333MHz/DDR3 RDIMM/CPUx2)
Disk : 73GB x 2(1台のみ 300GB x 2)
NIC : GbE x 1 & Inifiniband QDR(40Gbps) x 1
OS : CentOS 5.6 for x86_64
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

年末の停電に伴う、サーバ・ネットワーク等の停止

2012年12月05日 11時00分06秒 | Weblog
毎年恒例ですが、年末に全館停電と電気関係の点検があります。それに伴いまして以下の日時は全てのサーバ等が停止します。27日の14時という復旧時間はあくまでも目安ですので、何かトラブルがあればさらに復旧は遅れます。

2012年12月25日(火)16:00 ~ 2012年12月27日(木)14:00
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

Fusion-IO マシン

2012年12月04日 00時36分50秒 | Weblog
来週末までには以下のマシンが納入されるようです。学内で様々な問題があって発注等が遅れました。初めの価格よりは大分下がりましたが、かなり価格は高めになってます(特に Fusion-IO)。

Case+M/B Intel Lizard Head Pass Quad Xeon Server x 1
CPU Intel Xeon E5-4640 Xeon (8-core 2.40GHz 16MB cacheTDP:95w) x 4
Memory 512GB ACTICA製HPC専用メモリ DDR3 1600Mhz (16GB x 32枚) x 32

Card RAID-Card x 1

VGA On Board VGA x 1
ODD DVD-ROMドライブ x 1
電源 1600W Redundant 電源 80 PLUS, Platinum Level Certified x 1

SDD Fusion IO 1.2TB SSD Card 1.2TB x 1
SSD SATA SSD 600GB 1.8TB x 3 x
HDD Enterprize 3.5" 3TB SATA HDD 3TB x 1
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

ビジュアリゼーションカンファレンス

2012年12月03日 00時17分10秒 | Weblog
すでに本日となりましたが、ビジュアリゼーションカンファレンスが開催されます。すでに当日ということなので参加お申し込みの受付は終了しています。

日時 2012年12月3日(月)10:00~17:00
会場 タイム24ビル (東京都江東区青海)[アクセス]
主催 一般社団法人 可視化情報学会(後援:日刊工業新聞社)
協賛(予定) AVSコンソーシアム
サイバネットシステム株式会社
日本SGI株式会社
富士通株式会社
株式会社富士通システムズ・イースト

コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

Intel Compiler 13.0.1 登場 その3

2012年12月02日 02時55分23秒 | Weblog
Intel Compiler 13.0.1 に関して、以下の環境下での SDPARA 7.5.0 及び SDPARA 7.5.0-G の動作確認ができました。現在は TSUBAME 2.0 での動作確認を行います。

◯コンパイラ:icc version 13.0.1 (Intel MKL ライブラリを含む)
◯ライブラリ:
NVIDIA : CUDA 5.0 (CUBLAS 等も含む)
BLAS : GotoBLAS2 1.13 or OpenBLAS 0.2.4
ScaLAPACK : 2.0.1 (ILP64 対応済み)
◯Infiniband : OFED 1.5.4.1
◯MPI : MVAPICH2 1.8.1
◯OS:CentOS 6.3
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする