最適化問題に対する超高速&安定計算

クラスタ計算機やスーパーコンピュータ上での大規模最適化問題やグラフ探索などの研究のお話が中心

Intel Compiler 15.0.0 登場

2014年08月31日 03時29分20秒 | Weblog
Intel Compiler 15.0.0 と MKL 11.2 が登場したので、少し比較実験をしてみました。全体的に gcc 4.4.7 と Intel MKL 11.2 の組合せが良い結果を出してます。

◯ ソフトウェア SDPA 7.4.0

◯問題1:karate.dat-s
gcc 4.4.7 + Intel MKL 11.1-2 : 155.16s
gcc 4.4.7 + Intel MKL 11.1-3 : 180.40s
gcc 4.4.7 + Intel MKL 11.2 : 141.34s
icc 14.0.2 + Intel MKL 11.1-2 : 160.61s
icc 14.0.3 + Intel MKL 11.1-3 : 183.93s
icc 15.0.0 + Intel MKL 11.2 : 174.25s

◯問題2:nug12_r2.dat-s
gcc 4.4.7 + Intel MKL 11.1-2 : 60.58s
gcc 4.4.7 + Intel MKL 11.1-3 : 57.92s
gcc 4.4.7 + Intel MKL 11.2 : 43.37s
icc 14.0.2 + Intel MKL 11.1-2 : 60.98s
icc 14.0.3 + Intel MKL 11.1-3 : 53.58s
icc 15.0.0 + Intel MKL 11.2 : 52.50s

◯問題3:NH3+.2A2\".STO6G.pqgt1t2p.dat-s
gcc 4.4.7 + Intel MKL 11.1-2 : 113.60s
gcc 4.4.7 + Intel MKL 11.1-3 : 104.40s
gcc 4.4.7 + Intel MKL 11.2 : 100.36s
icc 14.0.2 + Intel MKL 11.1-2 : 110.00s
icc 14.0.3 + Intel MKL 11.1-3 : 125.03s
icc 15.0.0 + Intel MKL 11.2 : 98.55s

◯計算サーバ:Intel Xeon SandyBridge-EP 32 コアマシン
CPU Intel Xeon E5-4650 (8-core 2.70GHz 16MB cache) x 4
Memory 512GB ACTICA製HPC専用メモリ DDR3 1600Mhz (16GB x 32枚) x 32
OS : CentOS 6.5
コメント

Intel コンパイラ 2015.0.090 登場 その2

2014年08月30日 03時27分58秒 | Weblog
CentOS 5.9 で Intel コンパイラ 2015.0.090 を使うと以下のようなエラーが出ます。

/opt/intel/composerxe/mkl/lib/intel64/libmkl_intel_thread.so: undefined reference to `__isoc99_sscanf'
/opt/intel/composerxe/mkl/lib/intel64/libmkl_core.so: undefined reference to `__isoc99_fscanf'

これは CentOS 5.9 の glibc が古いことが原因ではないかと推測します。
コメント (2)

Intel コンパイラ 2015.0.090 登場

2014年08月29日 03時38分30秒 | Weblog
Intel コンパイラ 2015.0.090 登場しました。性能評価等はこれからです。

icc -v
icc version 15.0.0 (gcc version 4.4.7 compatibility)

ifort -v
ifort version 15.0.0

Intel MKL のバージョンは 11.2 になっています。
コメント

九州大学(伊都)共進化社会システムイノベーションセンター

2014年08月28日 00時54分02秒 | Weblog
九州大学(伊都)共進化社会システムイノベーションセンターについて。センター内部の設備に関する構想や準備は少しずつ進んでいます。来年の2月に完成し竣工の予定です。

福岡県福岡市西区大字元岡744番地 九州大学構内
「地域資源等を活用した産学連携による国際科学イノベーション拠点整備事業」に採択された「多様性の持続的発展を支える共進化社会システム研究開発拠点」となる研究施設の新営(RC3、延床面積7,800㎡)

九州大学共進化社会システム創成拠点 Facebook


コメント

2014年秋季研究発表会 (特別テーマ「ORの普及」)28日から

2014年08月27日 17時17分09秒 | Weblog
いよいよ28日より開催となりました。私はОR学会秋季シンポジウムには参加しないで、北大の湊 ERATO オフィス訪問予定です。

2014年秋季研究発表会 (特別テーマ「ORの普及」)に関して再送いたします。
多くの方々のご参加をお待ちしております。

--------------------------------------------
日 程:2014年8月28日(木),29日(金)
場 所:北海道科学大学(札幌市手稲区前田7条15丁目4番1号)
http://www.hus.ac.jp/access/index.html
実行委員長:大堀隆文(北海道科学大学)

特別講演
  1. 日時:8月28日(木)11 : 10~12 : 10
    講師:腰塚武志 氏(前OR学会会長,南山大学)
    題目:「都市空間のモデル化-都市のOR40年-」
  2. 日時:8月29日(金)13 : 10~14 : 10
    講師:藤井純一 氏(前近畿大学教授)
    題目:「スポーツビジネスへの挑戦」
  3. 日時:8月29日(金)14 : 20~15 : 20
    講師:平井広志 氏(OR学会「研究賞」受賞者,東京大学)
    題目:「多品種流と距離空間」

特別企画:オーガナイズドセッション「サービスサイエンスとOR」
    日 時:8月29日(金)10 : 20~11 : 40
    オーガナイザー:北守一隆( 北海道科学大学)
    講 師: 北守一隆 氏(北海道科学大学),角田美知江 氏(北海学園大学)
         関 哲人 氏(北海学園大学),青山ゆう子 氏(北海道大学)

特別企画:チュートリアル講演
    日 時:8月29日(金)10 : 20~11 : 20
    講 師:藤澤克樹 氏(九州大学)
    題 目:「グラフ解析・ネットワーク分析入門」

参加費 (事前振込み):正・賛助会員6,000円,学生会員1,000円,非会員 8,000円
      (当日申込み):正・賛助会員7,000円,学生会員2,000円,非会員10,000円
      *学生非会員の方は,当日受付にて学生証提示で学生会員と同等になります.
登壇料:非会員(学生を含む)のみ1件につき2,000円を参加費とは別途当日受付にてお支払いください.

プレゼンテーション賞:2014年秋季研究発表会では,春季大会に引き続き優秀な発表に対して,「プレゼンテー
ション賞」を授与します.各会場の聴取者の評価結果に基づき実行委員会で受賞者を選出し,記念の楯を贈
呈します.

懇親会 日 時:8月28日(木)19 : 00~21 : 00( 発表会終了後,北海道科学大から送迎バスがあります)
      場 所:サッポロビール園(札幌市東区北7条東9丁目2–10)
       http://www.sapporo-bier-garten.jp/special/access.php
      会費:事前振込み5,000円,当日申込み6,000円

見学会 日 時:8月30日(土)9 : 00~13 : 00
      場 所:空知管内砂川・滝川方面(松尾ジンギスカン,ワイナリー他)
      参加費:2,000円(当日受付のみ)
     
問合せ先:2014年秋季研究発表会実行委員会( E-mail: nc2014f@orsj.or.jp)
研究発表会HP:http://www.orsj.or.jp/~nc2014f/

研究発表会実行委員長:大堀 隆文(北海道科学大学)
備考:前日の8月27日は、同じ会場でОR学会秋季シンポジウムが開催されます。
コメント

CUDA ドロップインライブラリ : CUDA 6.0 と 6.5RC と 6.5

2014年08月26日 01時05分54秒 | Weblog
前回のドロップインライブラリの続き。CUDA 6.5 の正式版がリリースされたので性能を比較してみました。CUDA 6.5 と 6.5RC では性能は変わらないみたいです。

ソフトウェア SDPA 7.4.0

○ mcp2000-10.dat-s
19.31s (CPU)
10.96s (CPU + GPU CUDA 6.0)
10.47s (CPU + GPU CUDA 6.5RC)
10.54s (CPU + GPU CUDA 6.5)

○ mcp5000-10.dat-s
258.35s (CPU)
101.43s (CPU + GPU 6.0)
90.75s (CPU + GPU 6.5RC)
91.08s (CPU + GPU 6.5)

○実行マシンのスペック
Intel(R) Core(TM) i7-3930K CPU @ 3.20GHz + GeForce GTX TITAN x 2 + メモリ 12GB + CentOS 6 + CUDA 6.0 と 6.5RC + Intel Compiler 14.0.3
コメント

九大スパコン:HA8000

2014年08月25日 01時02分59秒 | Weblog
以前解いたときは、研究室 PC クラスタを使いましたが、666578秒程度掛かりました。以下は九大スパコン HA8000 (128ノード, 256 CPU)での実行結果になります。128CPU のジョブキューの実行時間制限が12時間なので、12時間以内で解けると大変便利です。

問題名:C2.1Sigmag+.VDZ.pqgt1t2p.dat-s
76554 (= mDIM)
22 (= nBLOCK)
18 18 18 18 153 153 324 153 153 324 648 324 324 816 2754 2754 816 8604 8604 2754 2754 -694 (= bLOCKsTRUCT)

SDPA start at [Fri Aug 22 18:17:40 2014]
param is /home/usr2/i70202a/sdpa-src/sdpara.7.4.0.src/param.sdpa
data is /home/usr2/i70202a/data/C2.1Sigmag+.VDZ.pqgt1t2p.dat-s : sparse
out is /home/usr2/i70202a/sdpa-src/sdpara.7.4.0.src/out.C2.1Sigmag+.VDZ.pqgt1t2p.0
NumNodes is set as 256
NumThreads is set as 12
Schur computation : DENSE
mu thetaP thetaD objP objD alphaP alphaD beta
0 1.0e+04 1.0e+00 1.0e+00 -0.00e+00 -6.66e+04 4.8e-02 1.0e+00 2.00e-01
1 1.0e+04 9.5e-01 8.2e-16 -5.59e+02 -5.95e+05 7.1e-01 7.1e-01 2.00e-01
2 3.8e+03 2.8e-01 6.9e-15 -2.10e+02 -7.67e+05 7.4e-01 7.4e-01 2.00e-01
3 1.3e+03 7.2e-02 5.4e-15 -9.50e+01 -9.85e+05 7.9e-01 7.9e-01 2.00e-01
4 3.8e+02 1.5e-02 2.5e-14 -6.19e+01 -1.23e+06 8.3e-01 8.3e-01 2.00e-01
5 1.1e+02 2.6e-03 4.7e-14 -5.41e+01 -1.33e+06 8.1e-01 1.1e+00 2.00e-01
6 3.2e+01 4.9e-04 3.5e-14 -5.28e+01 -7.05e+05 8.4e-01 1.1e+00 2.00e-01
7 5.8e+00 7.7e-05 4.4e-14 -5.26e+01 -1.36e+05 8.4e-01 1.1e+00 2.00e-01
8 9.9e-01 1.2e-05 2.2e-14 -5.26e+01 -2.15e+04 8.8e-01 1.1e+00 2.00e-01
9 1.4e-01 1.5e-06 5.1e-13 -5.30e+01 -2.89e+03 9.0e-01 9.5e-01 2.00e-01
10 3.2e-02 1.5e-07 1.7e-11 -5.65e+01 -8.74e+02 7.1e-01 8.1e-01 2.00e-01
11 1.1e-02 4.4e-08 7.3e-10 -6.80e+01 -3.56e+02 3.5e-01 3.8e-01 2.00e-01
12 8.1e-03 2.9e-08 1.1e-09 -7.43e+01 -2.75e+02 3.6e-01 5.0e-01 2.00e-01
13 5.2e-03 1.8e-08 2.2e-09 -7.90e+01 -2.02e+02 8.2e-01 9.0e-01 2.00e-01
14 1.5e-03 3.3e-09 2.3e-09 -8.51e+01 -1.22e+02 5.5e-01 7.4e-01 2.00e-01
15 6.8e-04 1.5e-09 3.3e-08 -8.67e+01 -1.02e+02 4.2e-01 4.9e-01 2.00e-01
16 4.3e-04 8.5e-10 5.9e-08 -8.79e+01 -9.77e+01 4.8e-01 3.2e-01 2.00e-01
17 2.9e-04 4.4e-10 6.8e-08 -8.88e+01 -9.59e+01 5.5e-01 2.3e-01 2.00e-01
18 2.3e-04 4.4e-10 1.0e-07 -8.95e+01 -9.49e+01 5.4e-01 4.2e-01 2.00e-01
19 1.5e-04 4.4e-10 9.6e-08 -8.99e+01 -9.34e+01 6.6e-01 2.4e-01 2.00e-01
20 1.1e-04 4.4e-10 5.5e-08 -9.03e+01 -9.29e+01 4.3e-01 3.5e-01 2.00e-01
21 7.9e-05 4.4e-10 6.8e-08 -9.05e+01 -9.23e+01 5.2e-01 1.9e-01 2.00e-01
22 6.4e-05 4.4e-10 4.9e-08 -9.06e+01 -9.21e+01 5.3e-01 2.9e-01 2.00e-01
23 4.7e-05 4.4e-10 4.0e-08 -9.07e+01 -9.18e+01 6.8e-01 2.7e-01 2.00e-01
24 3.5e-05 4.4e-10 3.2e-08 -9.08e+01 -9.16e+01 6.7e-01 3.1e-01 2.00e-01
25 2.6e-05 4.4e-10 1.9e-08 -9.09e+01 -9.14e+01 7.9e-01 4.3e-01 2.00e-01
26 1.6e-05 4.4e-10 1.1e-08 -9.09e+01 -9.13e+01 6.3e-01 3.8e-01 2.00e-01
27 1.1e-05 4.4e-10 6.5e-09 -9.09e+01 -9.12e+01 6.5e-01 2.4e-01 2.00e-01
28 8.7e-06 4.4e-10 5.3e-09 -9.10e+01 -9.11e+01 5.9e-01 3.3e-01 2.00e-01
29 6.3e-06 4.4e-10 2.9e-09 -9.10e+01 -9.11e+01 7.4e-01 3.9e-01 2.00e-01
30 4.2e-06 4.4e-10 1.6e-09 -9.10e+01 -9.11e+01 7.0e-01 4.8e-01 2.00e-01
31 2.5e-06 4.4e-10 1.1e-09 -9.10e+01 -9.10e+01 7.3e-01 3.5e-01 2.00e-01
32 1.8e-06 4.4e-10 6.8e-10 -9.10e+01 -9.10e+01 7.3e-01 4.7e-01 2.00e-01
33 1.1e-06 4.4e-10 3.8e-10 -9.10e+01 -9.10e+01 6.8e-01 4.4e-01 2.00e-01
34 7.0e-07 4.4e-10 2.0e-10 -9.10e+01 -9.10e+01 7.1e-01 5.8e-01 2.00e-01
35 3.7e-07 4.4e-10 7.9e-11 -9.10e+01 -9.10e+01 7.3e-01 5.8e-01 2.00e-01
36 2.0e-07 4.4e-10 3.7e-11 -9.10e+01 -9.10e+01 8.1e-01 6.5e-01 2.00e-01
37 9.4e-08 4.4e-10 1.2e-11 -9.10e+01 -9.10e+01 8.6e-01 7.1e-01 2.00e-01
38 4.1e-08 4.4e-10 3.5e-12 -9.10e+01 -9.10e+01 8.4e-01 8.1e-01 2.00e-01
39 1.4e-08 4.4e-10 6.5e-13 -9.10e+01 -9.10e+01 8.7e-01 8.3e-01 1.00e-01
40 3.6e-09 4.4e-10 1.2e-13 -9.10e+01 -9.10e+01 7.7e-01 9.1e-01 1.00e-01
41 6.6e-10 4.4e-10 1.2e-14 -9.10e+01 -9.10e+01 7.7e-01 9.1e-01 1.00e-01

phase.value = pdOPT
Iteration = 41
mu = +6.6214867971701101e-10
relative gap = +6.1128644913070690e-08
gap = +5.5613330545156714e-06
digits = +7.2137552314521436e+00
objValPrimal = -9.0977526042756352e+01
objValDual = -9.0977531604089407e+01
p.feas.error = +7.3192481556670750e-08
d.feas.error = +7.8904704992055485e-10
total time = 37131.050935

高性能アプリケーションサーバ HA8000-tc/HT210
◯CPUノード
Intel Xeon E5-2697 v2 (2.7 GHz, 12core)×2
主記憶容量 256GB
◯Xeon Phiノード
Intel Xeon E5-2697 v2 (2.7 GHz, 12core)×2 Intel Xeon Phi 5100P (1,010.88 GFLOPS)×2
主記憶容量 256GB
総ノード数 965ノード
(CPU : 860ノード, Xeon Phi : 105ノード)
総CPUコア数 23,160コア
理論演算性能(倍精度実数)の総和 712.46TFLOPS
(CPU : 500.26TFLOPS, Xeon Phi : 212.2TFLOPS)
主記憶容量の総和 約241.25TB
ディスクアレイ装置 実効容量 3.57PB
コメント

Intel® Xeon® Processor E7-4890 v2

2014年08月24日 01時38分29秒 | Weblog
以下の Xeon E7-4890 を 4-way にして、メモリも 1.5TB ぐらいして、さらにストレージも増やして超大規模データ処理に使ってみたいと思います。

Intel® Xeon® Processor E7-4890 v2 (37.5M Cache, 2.80 GHz)

ステータス Launched
発売日 Q1'14
プロセッサー・ナンバー E7-4890V2
コアの数 15
スレッド数 30
動作周波数 2.8 GHz
ターボ・ブースト利用時の最大周波数 3.4 GHz
キャッシュ 37.5 MB
インテル® QPI 速度 8 GT/s
QPI リンク数 3
命令セット 64-bit
命令セット拡張 Intel® Advanced Vector Extensions (Intel® AVX)
組込み機器向けオプションの提供 No
リソグラフィー 22 nm
スケーラビリティ S4S
最大 TDP 155 W
希望カスタマー価格 TRAY: $6619.00
データシート Link
製品概要 Link
追加情報の URL Link
-メモリーの仕様
最大メモリーサイズ (メモリーの種類に依存) 1536 GB
メモリーの種類 DDR3-1066/1333/1600
メモリーチャネル数 4
最大メモリー帯域幅 85 GB/s
物理アドレス拡張 46-bit
ECC メモリー対応 ‡ Yes
-拡張オプション
PCI Express リビジョン 3.0
PCI Express 構成 ‡ x4, x8, x16
PCI Express レーンの最大数 32
-パッケージの仕様
最大 CPU 構成 4
TCase 77°C
パッケージサイズ 52mm x 45mm
対応ソケット FCLGA2011
低ハロゲンオプションの提供 MDDS を参照
-高度なテクノロジー
インテル® ターボ・ブースト・テクノロジー ‡ 2.0
インテル® ハイパースレッディング・テクノロジー ‡ Yes
ダイレクト I/O 向けインテル® バーチャライゼーション・テクノロジー (VT-d) ‡ Yes
インテル® VT-x 拡張ページテーブル (EPT) ‡ Yes
インテル® TSX-NI No
インテル® 64 ‡ Yes
アイドルステート Yes
拡張版 Intel SpeedStep® テクノロジー Yes
サーマル・モニタリング・テクノロジー Yes
インテル® インストラクション・リプレイ・テクノロジー No
-インテル® データ・プロテクション・テクノロジー
AES-NI Yes
セキュアキー Yes
-インテル® プラットフォーム・プロテクション・テクノロジー
トラステッド・エグゼキューション・テクノロジー ‡ Yes
エグゼキュート・ディスエーブル・ビット ‡ Yes

コメント

総合研究棟(理学系)

2014年08月23日 02時17分51秒 | Weblog
竣工まで1年を切った総合研究棟(理学系)。移転準備も少しずつ進んでいます。

http://www.sci.kyushu-u.ac.jp/html/iten/iten_130911.html






コメント

メモリプラス ワークショップ

2014年08月22日 00時13分58秒 | Weblog
MemoryPlus Workshop (メモリプラス ワークショップ)
― メモリとファイルストレージとOSと ―

日時 2014年9月17日(水)10:00 – 18:40 予定 ( 9:40 開場 )
場所 品川駅前, JAIST 品川サテライトオフィス( Room D-E ) http://www.jaist.ac.jp/satellite/sate/access/
参加費 無料
参加登録 (人数把握のため, 9/3までに、以下から参加登録をお願いします)
https://docs.google.com/forms/d/1xxOk2CcmuY4Y9AefIT2KUndko1Z7XgD8Sk6oL2sZMog/viewform?usp=send_form

高性能不揮発性メモリなどの新しいメモリの出現は,単に記憶階層の変革にとどまらず,ファイル・ストレージとメモリを区別してきた従来のプログラミングモデルや,新しい記憶モデルに対応するOSカーネルの変革などを巻き込んだ,コンピュータシステムの基本にかかわる大きな変革の潮流となりつつあります.本ワークショップは,ファイル・ストレージ, 記憶階層,OS, ランタイムシステム,アプリケ―ションなど,メモリとメモリを取り巻く様々なソフトウエア分野にかかわる研究者,技術者に横断的な議論の場を提供し,互いの知見を交換し,なんらかの化学反応を期待するラフでオープンなミーティングです.


ワークショップの内容

*招待講演
◯ 菅野 伸一 (東芝) (NAND型フラッシュメモリーとSSD)

◯ Le Moal Damien (HGST) (大容量SMRディスクとホストシステムソフトウエアへの影響)

◯ 大山 恵弘(電通大)(Linuxのページ回収処理による高性能計算アプリケーションへの影響)

◯ 吉田 雅徳, 早坂 光雄 (日立,横浜研究所) (Linuxのメモリ管理)

◯ 建部 修見 (筑波大) (不揮発性メモリ向けファイルシステムの設計)

◯ 追川 修一(筑波大)(Linuxにおける不揮発性メインメモリとストレージの融合とその応用)

◯ 佐藤 仁 (東工大)(不揮発性メモリを考慮した大規模なグラフの高速処理)

*研究紹介

◯ 遠藤 敏夫 (東工大) (格子系アルゴリズムの局所性向上とHHRTライブラリ上の実装)

◯ 佐藤 幸紀 (JAIST) (Exanaツールによるメモリアクセスプロファイリング)

◯ 緑川 博子 (成蹊大) (Flash SDD利用による大規模ステンシル計算)

*パネル+フリー議論

招待講演者+参加者の皆様と自由な雰囲気での議論.各講演者が日頃感じる関連分野における一番重要だと思うこと,現状の問題点,一番最初にやるべきこと,今後やりたいこと,他分野の人に(早くぜひ)やってほしこと,今後の展望と夢,あるべき姿,予想図,面白いと思うトレンドや,注目すべき動向,など「言いたい放題?」な提案や議論で,口火を切って頂ければと思っております.

*懇親会 (終了後,品川予定)
コメント

QAPLIB : tai35b その2

2014年08月21日 03時08分48秒 | Weblog
前回の続きで 九大 CX400 での Cholesky 分解の性能値は 128GPU (NVIDIA K20m)で以下の通り。nb の値が異なるので単純に比較は出来ないが、プロセス数も 128 (8 x 16)よりも 121 (11 x 11)の方が良いかもしれない。

[gpdpotrf] ### END n=709275, nb=1024, 8x16 procs, ver 30: 1353.033721sec --> 87905.101987GFlops ###
[gpdpotrf] ### END n=709275, nb=2048, 8x16 procs, ver 50: 1383.818sec --> 85949.558GFlops ###
---------------------------------------------------------------------------------------------------------------

QAPLIB の Tai35b の問題では、現在の上界値が 283315445 で下界値が 242172800 となっている。

Tai35b 35 283315445 (Ro-TS) 242172800 (SDRMS-SUM) 14.52 %

九州大学情報基盤研究開発センターのスパコン CX400 の 128 ノード (256CPU + 128GPU) 上で Tai35b に対する DNN 緩和問題(SDP) を SDPARA 7.6.0-G を用いて解いてみたところ、下界値は 269741042.72 (整数値にすると 269741043) となった。

コメント

SDPARA 7.6.0 における計算と通信のオーバーラップ その2

2014年08月20日 01時39分05秒 | Weblog

SDPARA 7.6.0 における計算と通信のオーバーラップについて。Ver. 5.0 + nb = 2048 がベストの組合せになっている。

1: Ver. 3.0 + nb = 1024 --> [gpdpotrf] ### END n=286552, nb=1024, 4x4 procs, ver 30: 2703.368847sec --> 2901.240774GFlops ###
2: Ver. 3.0 + nb = 2048 --> [gpdpotrf] ### END n=286552, nb=2048, 4x4 procs, ver 30: 2073.063414sec --> 3783.349739GFlops ###
3: Ver. 4.0 + nb = 1024 --> [gpdpotrf] ### END n=286552, nb=1024, 4x4 procs, ver 40: 2750.220973sec --> 2851.815910GFlops ###
4: Ver. 4.0 + nb = 2048 --> [gpdpotrf] ### END n=286552, nb=2048, 4x4 procs, ver 40: 2050.098699sec --> 3825.729918GFlops ###
5: Ver. 5.0 + nb = 2048 --> [gpdpotrf] ### END n=286552, nb=2048, 4x4 procs, ver 50: 1938.388sec --> 4046.209GFlops ###
6: Ver. 5.0 + nb = 2560 --> [gpdpotrf] ### END n=286552, nb=2560, 4x4 procs, ver 50: 1999.140sec --> 3923.250GFlops ###


◯計算サーバ:GPU 計算クラスタ
Intel Xeon + 4 GPU マシン(4台)
CPU:Xeon X5690(3.46GHz,6コア)×2
メモリ:192GB(16GB×12)
HDD:SATA500GB×2(システム、システムバックアップ)
NIC : GbE x 1 & Inifiniband(FDR) x 1
GPGPU:Tesla C2075(C2070)×4
OS:CentOS 6.3 for x86_64
[gpdpotrf] ### END n=286552, nb=2048, 4x4 procs, ver 50: 1938.388sec --> 4046.209GFlops ###

コメント

CUDA ドロップインライブラリ : CUDA 6.0 と 6.5RC

2014年08月19日 01時27分24秒 | Weblog
前回のドロップインライブラリの続き。CUDA 6.0 と 6.5RC では後者の方が速くなっている。

ソフトウェア SDPA 7.4.0

○ mcp2000-10.dat-s
19.31s (CPU)
10.96s (CPU + GPU CUDA 6.0)
10.47s (CPU + GPU CUDA 6.5RC)

○ mcp5000-10.dat-s
258.35s (CPU)
101.43s (CPU + GPU 6.0)
90.75s (CPU + GPU 6.5RC)

○実行マシンのスペック
Intel(R) Core(TM) i7-3930K CPU @ 3.20GHz + GeForce GTX TITAN x 2 + メモリ 12GB + CentOS 6 + CUDA 6.0 と 6.5RC + Intel Compiler 14.0.3
コメント

QAPLIB : tai34a

2014年08月18日 02時58分39秒 | Weblog
QAPLIB の tai34a の問題では制約条件数が 630598 なので、Cholesky 分解に必要な演算量は以下のように計算できる。

octave:10> N = 630598; N * (1/3 + N * (1/2 + N / 6)) + N * (N * N - 1) / 6
ans = 8.3587e+16

以下の HA8000 での結果: 256 CPU (3072コア) 使用時では 20.05TFlops (ピーク性能は 66.35TFlops)でピーク性能比 30.22%


高性能アプリケーションサーバ HA8000-tc/HT210
◯CPUノード
Intel Xeon E5-2697 v2 (2.7 GHz, 12core)×2
主記憶容量 256GB
◯Xeon Phiノード
Intel Xeon E5-2697 v2 (2.7 GHz, 12core)×2 Intel Xeon Phi 5100P (1,010.88 GFLOPS)×2
主記憶容量 256GB
総ノード数 965ノード
(CPU : 860ノード, Xeon Phi : 105ノード)
総CPUコア数 23,160コア
理論演算性能(倍精度実数)の総和 712.46TFLOPS
(CPU : 500.26TFLOPS, Xeon Phi : 212.2TFLOPS)
主記憶容量の総和 約241.25TB
ディスクアレイ装置 実効容量 3.57PB
コメント

QAPLIB : tai35a その4

2014年08月17日 01時39分34秒 | Weblog
QAPLIB tai35a に対する DNN 緩和問題を解いた結果:SDPARA 7.6.0-G の Cholesky 分解時の性能について:
2048 コア時と 23616 コア時のピーク性能比の差が非常に大きいので、かなりの性能低下が発生している。

1: 256 CPU (2048コア) 使用時では 17.9TFlops (ピーク性能は 44.2TFlops)でピーク性能比 40.5%
2: 2952 CPU (23616コア) 使用時では 101.1TFlops (ピーク性能は 510.1TFlops)でピーク性能比 20%


高性能演算サーバシステム (Fujitsu PRIMERGY CX400)

演算ノード 理論演算性能 345.6GFLOPS
主記憶容量 128GB
メモリバンド幅 102.4GB/s
総ノード数 1476ノード
総プロセッサ (コア) 数 2952プロセッサ (23616コア)
理論演算性能(倍精度実数)の総和 966.2TFLOPS
(CPU: 510.1TF, GPGPU[K20m&K20Xm]: 456.1TF)
コメント