最適化問題に対する超高速&安定計算

大規模最適化問題、グラフ探索、機械学習やデジタルツインなどの研究のお話が中心

X10 版 SDPA

2012年02月29日 01時18分36秒 | Weblog
PGAS 言語 X10 を用いた SDP に対する内点法の実装に関する発表を以下の研究発表会で行います。実際には SDPA の X10 化になります。

第133回ハイパフォーマンスコンピューティング研究発表会
■日時: 2012年3月26日(月)~2012年3月27日(火)
■場所: 有馬ビューホテルうらら

■カーネルチューニング(14:55 - 16:10)
PGAS 言語 X10 を用いた半正定値計画問題の実装と性能評価
†渡部優(東工大、JST CREST)○,藤澤克樹(中央大、JST CREST),
鈴村豊大郎(東工大、IBM 東京基礎研、 JST CREST)

コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

TSUBAME 2.0 と SDPA, SDPARA その11

2012年02月28日 02時55分40秒 | Weblog
昨日続きで性能効率 14.6 % ということは 6.2730e+13 FLOPS * (290.08 / 1975.6) = 9.2107e+12 FLOPS なので、要するに 410 ノード(2CPU)で約 9.2 TFLOPS しか出ていないことになる。
原因としては
1:各ノードでの行列サイズが小さい
2:ネットワーク性能の低下
が考えられる。
ちなみに 2CPU + 3GPU 構成では行列の大きさは異なるが、16 ノードで 10TFlops を越える性能になっている。

◯東工大 TSUBAME 2.0
HP Proliant SL390s G7 1408台
HP Proliant SL390s G7
CPU: Intel Xeon 2.93GHz 6コア×2ソケット = 12コア(Hyperthreading時 = 24コア)
GPU: NVIDIA Tesla M2050 3GPU
Memory: 54GB (一部は96GB)
SSD: 120GB (一部は240GB)
ネットワーク: QDR InfiniBand x 2 = 80Gbps

◯1ノードあたりの性能(倍精度)
CPU 140GF(2.93GHz) + GPU 1545GF = 1685GF
CPU 153GF(3.2GHz : TB) + GPU 1545GF = 1698GF
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

TSUBAME 2.0 と SDPA, SDPARA その10

2012年02月27日 02時04分42秒 | Weblog
TSUBAME 2.0 における Cholesky 分解(ScaLAPACK)の性能評価について。

◯QAPLIB (tai30a.dat-s) の DNN 緩和問題
mDIM = 379350
nBLOCK = 2
bLOCKsTRUCT = -485758 842

この問題では N = 379,350 なので、Cholesky 分解の FLOPS 値は = 1.8197e+16 となる。
TSUBAME 2.0 410 ノード(CPU のみ)で浮動小数点演算のピーク性能は TubroBoost ON と仮定すると効率 410 * 153GF = 6.2730e+13 FLOPS となる。よって、ピーク性能時の N = 379,350 の Cholesky 分解の実行時間は 1.8197e+16 / 6.2730e+13 = 290.08 秒となる。
今回の実行時における Cholesky 分解の実行時間は 1975.6秒であるので、性能効率は 290.08 / 1975.6 = 14.6% となる。

当初、性能効率 40 %と予想して実行は約9時間としていたが、実際には 14.6% なので 24 時間経っても終了しない。


◯東工大 TSUBAME 2.0
HP Proliant SL390s G7 1408台
HP Proliant SL390s G7
CPU: Intel Xeon 2.93GHz 6コア×2ソケット = 12コア(Hyperthreading時 = 24コア)
GPU: NVIDIA Tesla M2050 3GPU
Memory: 54GB (一部は96GB)
SSD: 120GB (一部は240GB)
ネットワーク: QDR InfiniBand x 2 = 80Gbps

◯1ノードあたりの性能(倍精度)
CPU 140GF(2.93GHz) + GPU 1545GF = 1685GF
CPU 153GF(3.2GHz : TB) + GPU 1545GF = 1698GF
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

Gurobi 4.6.1 v.s. CPLEX 12.4 その2

2012年02月26日 02時29分45秒 | Weblog
昨日と同じ実験を Intel Xeon Westmere-EX 40 コアマシンで行ってみた。全体的にメモリ消費量は Gurobi の方が大きいが、性能的にも Gurobi の方が上になる。

◯問題 gmu-35-40.mps (MIPLIB2010) 最適解 -2.4065401670e+06
Gurobi 4.6.1 : 43.55秒
CPLEX 12.4 : 21.22秒

○問題 S-20-20-2-3.mps(ロットサイズ決定問題): 最適解 337697
Gurobi 4.6.1 : 43.25秒
CPLEX 12.4 : 51.05秒

○問題 gmpl-10-0.2.mps (仮想マシンマイグレーション問題):最適解 155
Gurobi 4.6.1 : 141.85秒
CPLEX 12.4 : 272.83秒

○問題 roll3000.mps (MIPLIB2003) : 最適解 12890
Gurobi 4.6.1 : 18.21秒
CPLEX 12.4 : 23.92秒

○問題 mod011.mps (MIPLIB2003) : 最適解 -5.4558535014e+07
Gurobi 4.6.1 : 22.44秒
CPLEX 12.4 : 35.98秒

○問題 net12.mps (MIPLIB2003) : 最適解 214
Gurobi 4.6.1 : 75.63秒
CPLEX 12.4 : 109.16秒

◯サーバ:Intel Xeon Westmere-EX 40 コアマシン
CPU Intel Xeon E7-4870 2.40GHz 30M L3 cache x 4
Memory ACTICA DDR3 1333 ECC REG 512GB( 16GB x 32)
HDD 3.5" Enterprize 1TB SATA HDD x 4 : RAID5構成
VGA GLADIAC GTX 580 1.5GB
Supermicro 4 way 4U Tower Server
1400W redundant 電源
OS : CentOS 6.2
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

Gurobi 4.6.1 v.s. CPLEX 12.4 その1

2012年02月25日 03時20分53秒 | Weblog
Gurobi と CPLEX の最新版の比較を行った。以前の結果と比較すると CPLEX の性能が上がってきたという印象を受ける。

◯問題 gmu-35-40.mps (MIPLIB2010) 最適解 -2.4065401670e+06
Gurobi 4.6.1 : 18.17秒
CPLEX 12.4 : 10.10秒

○問題 S-20-20-2-3.mps(ロットサイズ決定問題): 最適解 337697
Gurobi 4.6.1 : 78.95秒
CPLEX 12.4 : 58.41秒

○問題 gmpl-10-0.2.mps (仮想マシンマイグレーション問題):最適解 155
Gurobi 4.6.1 : 365.32秒
CPLEX 12.4 : 65.74秒

○問題 roll3000.mps (MIPLIB2003) : 最適解 12890
Gurobi 4.6.1 : 15.93秒
CPLEX 12.4 : 61.26秒

○問題 mod011.mps (MIPLIB2003) : 最適解 -5.4558535014e+07
Gurobi 4.6.1 : 15.46秒
CPLEX 12.4 : 25.86秒

○問題 net12.mps (MIPLIB2003) : 最適解 214
Gurobi 4.6.1 : 208.81秒
CPLEX 12.4 : 146.75秒

◯ GPU サーバ:Intel Xeon + 4 GPU マシン(2台)
CPU:Xeon X5690(3.46GHz,6コア)×2
メモリ:192GB(16GB×12)
HDD:SATA500GB×2(システム、システムバックアップ)
GPGPU:Tesla C2075×4
OS:CentOS 6.2

コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

MIPLIB2010 の現状

2012年02月24日 01時40分01秒 | Weblog
MIPLIB2010 の現状について。最適解が判明した問題が以下のように増えつつあり、open から easy(1時間以内), あるいは hard に分類される問題が増えてきた。

News
(a complete and more detailed changelog can be found here)

Feb 2012 buildingenergy solved, moved from open to easy.
Feb 2012 toll-like solved, moved from open to hard.
Jan 2012 12 open instances solved, b2c1s1, maxgasflow, opm2-z10-s2, opm2-z11-s8, opm2-z12-s14, opm2-z12-s7, rmatr200-p10, satellites3-40-fs, satellites3-40, and wnq-n100-mw99-14 moved to hard; transportmoment moved to easy.

現時点では easy 204, hard 41, open(未解決) 116 となっている。

Solvability of the instances


コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

SDPA 対 SDPARA 対 CSDP

2012年02月23日 01時48分02秒 | Weblog
SDP ソフトウェアの比較に CSDP に追加した。この問題では SDPARA > SDPA > CSDP の順に速い。SDPA だけ HT 使用時(80コア)に高速となっている。

◯問題 Be.1S.SV.pqgt1t2p.dat-s
SDPA 7.4.0 (40コア) : 471.30s
SDPA 7.4.0 (80コア) : 443.66s
SDPARA 7.4.0 (4CPU x 10 コア) : 119.95s
SDPARA 7.4.0 (4CPU x 20 コア) : 123.65s
CSDP 6.1.1 (40コア) : 833.20s
CSDP 6.1.1 (80コア) : 1107.23s

◯サーバ1:Intel Xeon Westmere-EX 40 コアマシン
CPU Intel Xeon E7-4870 2.40GHz 30M L3 cache x 4
Memory ACTICA DDR3 1333 ECC REG 512GB( 16GB x 32)
HDD 3.5" Enterprize 1TB SATA HDD x 4 : RAID5構成
VGA GLADIAC GTX 580 1.5GB
Supermicro 4 way 4U Tower Server
1400W redundant 電源
OS : CentOS 6.2
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

SDPARA-C

2012年02月22日 01時39分43秒 | Weblog
このブログでも過去に取り上げているが、SDPARA-C というソフトウェアがある。こちらの記事などに登場。SDPA Online Solver からも使用することができる。

◯SDPARA-C
行列補完の理論を用いて特殊な疎性を持つ問題に対応

K. Nakata, M. Yamashita, K. Fujisawa and M. Kojima, `` A Parallel Primal-Dual Interior-Point Method for Semidefinite Programs Using Positive Definite Matrix Completion'', Parallel Computing, Vol 32, 24--43, 2006.

1個だけ、他のソフトウェアと比較実験を行う。

◯問題:control11.dat-s
SDPA-DD-7.1.8 (GPU サーバ) : 912.12s : pdOPT
SDPARA 7.4.0 (OPT クラスタ) : 28.60s : pFEAS
SDPARA-C 1.0.1 (OPT クラスタ) :485.69s : pFEAS

◯ GPU サーバ:Intel Xeon + 4 GPU マシン(2台)
CPU:Xeon X5690(3.46GHz,6コア)×2
メモリ:192GB(16GB×12)
HDD:SATA500GB×2(システム、システムバックアップ)
GPGPU:Tesla C2075×4
OS:CentOS 6.2

○ OPT クラスタ
1:PowerEdge M1000e(ブレードエンクロージャー) x 1台
2:PowerEdge M710HD(ブレードサーバ) x 16台
ブレードサーバの仕様:
CPU : インテル(R) Xeon(R) プロセッサー X5670(2.93GHz、12MB キャッシュ、6.4 GT/s QPI) x 2個
メモリ: 128GB (16X8GB/2R/1333MHz/DDR3 RDIMM/CPUx2)
Disk : 73GB x 2(1台のみ 300GB x 2)
NIC : GbE x 1 & Inifiniband QDR(40Gbps) x 1
OS : CentOS 5.7
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

TSUBAME 2.0 と SDPA, SDPARA その9

2012年02月21日 01時30分11秒 | Weblog
前回の続きでより詳細な内容。

TSUBAME 2.0 での長時間の実験用に SDPARA にチェックポイント機能を追加した。
注意点:再開前と再開後の各種パラメータは基本的に同じにしておくこと。

◯途中で Ctrl-C で強制的に切ってしまう。
time mpiexec -machinefile /home/fujisawa/mpd.hosts -n 16 numactl -i all ./sdpara -ds ~/data/quantum/LiH.1Sigma+.STO6G.pqgt1t2p.dat-s -o out -p param.sdpa
SDPA start at [Tue Feb 21 01:27:00 2012]
param is param.sdpa.1
data is /home/fujisawa/data/quantum/LiH.1Sigma+.STO6G.pqgt1t2p.dat-s : sparse
out is out
NumNodes is set as 16
NumThreads is set as 12
Schur computation : DENSE
mu thetaP thetaD objP objD alphaP alphaD beta
0 1.0e+04 1.0e+00 1.0e+00 +0.00e+00 -2.98e+04 8.5e-01 1.0e+00 2.00e-01
1 2.1e+03 1.5e-01 1.9e-15 +5.34e+00 -4.88e+04 8.1e-01 8.1e-01 2.00e-01
2 5.6e+02 2.8e-02 7.4e-15 -6.03e+00 -6.28e+04 7.9e-01 7.9e-01 2.00e-01
3 1.8e+02 6.0e-03 3.3e-15 -5.62e+00 -7.20e+04 6.5e-01 1.3e+00 2.00e-01
4 7.6e+01 2.1e-03 3.7e-15 -5.30e+00 -5.14e+04 8.6e-01 1.5e+00 2.00e-01
Killed by signal 2.
Killed by signal 2.
Killed by signal 2.
Killed by signal 2.
Killed by signal 2.
Killed by signal 2.
Killed by signal 2.
Killed by signal 2.
Ctrl-C caught... cleaning up processes

◯最後に保存した初期点等の情報から再開が可能:pdOPT となり正常に終了した。
time mpiexec -machinefile /home/fujisawa/mpd.hosts -n 16 numactl -i all ./sdpara -ds ~/data/quantum/LiH.1Sigma+.STO6G.pqgt1t2p.dat-s -o out -p param.sdpa -id sdpara.init
SDPA start at [Tue Feb 21 01:28:28 2012]
param is param.sdpa
data is /home/fujisawa/data/quantum/LiH.1Sigma+.STO6G.pqgt1t2p.dat-s : sparse
init is sdpara.init : dense
out is out
NumNodes is set as 16
NumThreads is set as 12
Schur computation : DENSE
mu thetaP thetaD objP objD alphaP alphaD beta
0 1.3e+01 2.9e-04 6.0e-15 -5.01e+00 -1.37e+04 8.8e-01 1.1e+00 2.00e-01
1 2.1e+00 3.6e-05 6.1e-15 -4.98e+00 -2.61e+03 8.5e-01 1.1e+00 2.00e-01
2 3.6e-01 5.6e-06 4.9e-14 -4.99e+00 -4.35e+02 8.8e-01 1.1e+00 2.00e-01
3 5.3e-02 6.8e-07 2.9e-12 -5.09e+00 -6.79e+01 8.9e-01 9.3e-01 2.00e-01
4 1.3e-02 7.1e-08 3.4e-10 -5.83e+00 -2.28e+01 5.4e-01 8.5e-01 2.00e-01
5 5.0e-03 3.3e-08 4.8e-09 -7.10e+00 -1.33e+01 9.0e-01 4.0e-01 2.00e-01
6 2.7e-03 3.3e-09 1.1e-08 -7.98e+00 -1.17e+01 8.5e-01 8.6e-01 2.00e-01
7 8.1e-04 4.8e-10 1.1e-07 -8.44e+00 -9.56e+00 6.8e-01 5.1e-01 2.00e-01
8 4.4e-04 4.8e-10 1.3e-06 -8.69e+00 -9.29e+00 3.8e-01 4.7e-01 2.00e-01
9 2.8e-04 4.8e-10 2.1e-06 -8.76e+00 -9.14e+00 8.8e-01 3.6e-01 2.00e-01
10 1.5e-04 4.8e-10 1.5e-06 -8.88e+00 -9.08e+00 7.8e-01 7.8e-01 2.00e-01
11 5.6e-05 4.8e-10 8.4e-07 -8.93e+00 -9.00e+00 9.9e-01 6.3e-01 2.00e-01
12 2.0e-05 4.8e-10 4.6e-07 -8.96e+00 -8.98e+00 9.4e-01 7.1e-01 2.00e-01
13 7.7e-06 4.8e-10 1.3e-07 -8.96e+00 -8.97e+00 7.8e-01 7.3e-01 2.00e-01
14 3.1e-06 4.8e-10 3.5e-08 -8.97e+00 -8.97e+00 6.8e-01 6.9e-01 2.00e-01
15 1.4e-06 4.8e-10 1.1e-08 -8.97e+00 -8.97e+00 6.3e-01 6.1e-01 2.00e-01
16 7.1e-07 4.8e-10 4.3e-09 -8.97e+00 -8.97e+00 6.8e-01 5.9e-01 2.00e-01
17 3.5e-07 4.8e-10 1.8e-09 -8.97e+00 -8.97e+00 7.7e-01 6.0e-01 2.00e-01
18 1.7e-07 4.8e-10 6.9e-10 -8.97e+00 -8.97e+00 7.7e-01 6.2e-01 2.00e-01
19 7.9e-08 4.8e-10 2.6e-10 -8.97e+00 -8.97e+00 7.8e-01 5.7e-01 2.00e-01
20 4.0e-08 4.8e-10 1.1e-10 -8.97e+00 -8.97e+00 9.0e-01 7.5e-01 2.00e-01
21 1.5e-08 4.8e-10 2.9e-11 -8.97e+00 -8.97e+00 7.4e-01 6.1e-01 1.00e-01
22 6.7e-09 4.8e-10 1.1e-11 -8.97e+00 -8.97e+00 7.3e-01 6.3e-01 1.00e-01
23 2.8e-09 4.8e-10 4.1e-12 -8.97e+00 -8.97e+00 7.2e-01 5.7e-01 1.00e-01
24 1.3e-09 4.8e-10 1.8e-12 -8.97e+00 -8.97e+00 7.2e-01 5.7e-01 1.00e-01

phase.value = pdOPT
Iteration = 24
mu = +1.3323273642402624e-09
relative gap = +9.4821007543915363e-08
gap = +8.5027952856364664e-07
digits = +7.0230954342898109e+00
objValPrimal = -8.9672057941133740e+00
objValDual = -8.9672066443929026e+00
p.feas.error = +5.3885537029493580e-08
d.feas.error = +2.2866706098079170e-09
total time = 9.421919
main loop time = 9.129251
total time = 9.421919
file check time = 0.000000
file change time = 0.000211
file read time = 0.292457
SDPA end at [Tue Feb 21 01:28:40 2012]
ALL TIME = 12.052906
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

第133回ハイパフォーマンスコンピューティング研究発表会

2012年02月20日 03時01分40秒 | Weblog
以下の日程で第133回ハイパフォーマンスコンピューティング研究発表会が開催されます。発表申し込みはすでに終了しておりますが、宿泊を希望される方は早めに申し込み下さい。

◆第133回 ハイパフォーマンスコンピューティング研究発表会

■議題:一般
■日時:2012年3月26日(月)~2012年3月27日(火)
■場所:有馬ビューホテルうらら

3 月 26 日
09:00 - 10:40 4 性能解析・モデリング
10:50 - 12:30 4 システム評価
13:30 - 15:10 4 プログラミングモデルと処理系
15:20 - 17:00 4 通信ライブラリ
17:10 - 18:50 4 ストレージ・クラウド

3 月 27 日
09:00 - 10:40 4 数値計算
10:50 - 12:30 4 四倍精度・多倍長
13:30 - 14:45 3 共役勾配法
14:55 - 16:10 3 カーネルチューニング
16:20 - 18:00 4 アプリチューニング
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

TSUBAME 2.0 と SDPA, SDPARA その8

2012年02月19日 03時21分27秒 | Weblog
TSUBAME 2.0 での長時間の実験用に SDPARA に以下の機能を追加した。SDPA に同様の機能を追加するのも有効だろう。

1:各反復の終了時に変数行列とベクトル、及び thetaP と thetaD の値をファイルに書き出す。
2:1の情報から初期点などの情報を作成して、実行を再会できるようにする。
3:その他の変更が複数箇所

これを TSUBAME 2.0 にインストールして、大規模実行に用いる予定。
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

「FX10スーパーコンピュータシステム」利用説明会

2012年02月18日 10時11分34秒 | Weblog
東大の新スパコン FX10 の利用説明会が以下の日程で開催されます。事前登録が必要となっています。一般ユーザーが富士通の SPARC システムを使えるのは京よりもこちらの方が早いでしょう。

「FX10スーパーコンピュータシステム」利用説明会

2012 年 2 月 20 日 (月) 10:00 ~ 12:00
東京大学柏キャンパス 第2総合研究棟 会議室2(3F)(地図)
【柏会場】事前登録はこちら

2012 年 2 月 24 日 (金) 10:00 ~ 12:00
東京大学情報基盤センター 本館 遠隔講義室(4F)(地図)
【浅野会場】事前登録はこちら

プログラム

システム概要
運用方法、スケジュール、試験運転について
大規模HPCチャレンジ
質疑
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

SDPA 対 SDPARA

2012年02月17日 22時16分01秒 | Weblog
Xeon Westmere-EX 40 コアマシンについて。これだけコア数が多いと 40 コアをフラットに並べて計算するよりも、4CPU x 10 コアと言ったように MPI と OpenMP で二段階並列にした方が速くなる問題も多い。

◯問題 Be.1S.SV.pqgt1t2p.dat-s
SDPA 7.4.0 (40コア) : 471.30s
SDPA 7.4.0 (80コア) : 443.66s
SDPARA 7.4.0 (4CPU x 10 コア) : 119.95s
SDPARA 7.4.0 (4CPU x 20 コア) : 123.65s

◯サーバ1:Intel Xeon Westmere-EX 40 コアマシン
CPU Intel Xeon E7-4870 2.40GHz 30M L3 cache x 4
Memory ACTICA DDR3 1333 ECC REG 512GB( 16GB x 32)
HDD 3.5" Enterprize 1TB SATA HDD x 4 : RAID5構成
VGA GLADIAC GTX 580 1.5GB
Supermicro 4 way 4U Tower Server
1400W redundant 電源
OS : CentOS 6.2
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

Westmere-EX 40 コアマシンは速い

2012年02月16日 02時16分35秒 | Weblog
Westmere-EX 40 コアマシンと Magny-cours 48 コアマシンとの比較を行った。大きな MIP では、やはり Westmere-EX 40 コアマシンは速い。

◯最適化ソフトウェア CPLEX 12.3.0.1

◯問題 gmu-35-40.mps (MPILIB2010) 最適解 -2.4065401670e+06
計算サーバ1 : 35.95秒
計算サーバ2 : 15.11秒

○問題 S-20-20-2-3.mps(ロットサイズ決定問題): 最適解 337697
計算サーバ1 : 113.81 秒
計算サーバ2 : 47.99秒

○問題 gmpl-10-0.2.mps (仮想マシンマイグレーション問題):最適解 155
計算サーバ1 : 789.99秒
計算サーバ2 : 104.01秒

○問題 roll3000.mps (MIPLIB2003) : 最適解 12890
計算サーバ1 : 20.09秒
計算サーバ2 : 33.28秒

○問題 mod011.mps (MIPLIB2003) : 最適解 -5.4558535014e+07
計算サーバ1 : 35.18秒
計算サーバ2 : 23.76秒

○問題 net12.mps (MIPLIB2003) : 最適解 214
計算サーバ1 : 884.76秒
計算サーバ2 : 563.50秒

○計算サーバ1 : (4 CPU x 12 コア = 48 コア)
CPU : AMD Opteron 6174 (2.20GHz / 12MB L3) x 4個
メモリ : 256GB (16 x 16GB / 1066MHz)
OS : Fedora 16

◯計算サーバ2:Intel Xeon Westmere-EX 40 コアマシン
CPU Intel Xeon E7-4870 2.40GHz 30M L3 cache x 4
Memory ACTICA DDR3 1333 ECC REG 512GB( 16GB x 32)
HDD 3.5" Enterprize 1TB SATA HDD x 4 : RAID5構成
VGA GLADIAC GTX 580 1.5GB
Supermicro 4 way 4U Tower Server
1400W redundant 電源
OS : CentOS 6.2
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

Westmere-EX 40 コアマシン

2012年02月15日 00時52分14秒 | Weblog
Westmere-EX 40 コアマシンが到着したので、以下の三つの計算サーバで簡単な数値実験を行った。なおサーバ1と2は HyperThreading(HT)に対応している。やはりサーバ1が他よりもかなり速いという結果になっている。



◯問題 Be.1S.SV.pqgt1t2p.dat-s
サーバ1(40コア) : 471.30s
サーバ1(80コア) : 443.66s
サーバ2(12コア) : 1738.06s
サーバ2(24コア) : 1779.86s
サーバ3(48コア) : 751.85s

◯サーバ1:Intel Xeon Westmere-EX 40 コアマシン
CPU Intel Xeon E7-4870 2.40GHz 30M L3 cache x 4
Memory ACTICA DDR3 1333 ECC REG 512GB( 16GB x 32)
HDD 3.5" Enterprize 1TB SATA HDD x 4 : RAID5構成
VGA GLADIAC GTX 580 1.5GB
Supermicro 4 way 4U Tower Server
1400W redundant 電源
OS : CentOS 6.2

◯サーバ2:Intel Xeon + 4 GPU マシン(2台)
CPU:Xeon X5690(3.46GHz,6コア)×2
メモリ:192GB(16GB×12)
HDD:SATA500GB×2(システム、システムバックアップ)
GPGPU:Tesla C2075×4
OS:CentOS 6.2

◯サーバ3:AMD Magny-cours 48 コアマシン (4 CPU x 12 コア = 48 コア)
CPU : AMD Opteron 6174 (2.20GHz / 12MB L3) x 4個
メモリ : 256GB (16 x 16GB / 1066MHz)
OS : Fedora 16 for x86_64
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする