最適化問題に対する超高速&安定計算

クラスタ計算機やスーパーコンピュータ上での大規模最適化問題やグラフ探索などの研究のお話が中心

SDPA と様々な BLAS その3

2012年04月30日 00時26分46秒 | Weblog
研究室所有の PC と iMac が同じ以下の CPU だったので、SDPA 7.4.0 の性能比較を行った。今度は BLAS として ATLAS を加えて行ってみる予定。OS やコンパイラなどの環境が異なるので、ちょっとした参考まで。

CPU : Intel(R) Core(TM) i7-2600K CPU @ 3.40GHz
◯iMac
OS : Mac OS X 10.7 Lion
メモリ : 16GB
コンパイラ : gcc 4.8.0
◯PC
OS : CentOS 6.2
メモリ : 8GB
コンパイラ : gcc 4.4.6

○問題1:theta6.dat-s
iMac : 17.461s
PC : 8.499s

○問題2:FH2+.1A1.STO6G.pqgt1t2p.dat-s
iMac : 144.921s
PC : 106.297s

○問題3:nug12_r2.dat-s
iMac : 249.182s
PC : 191.934s
コメント
この記事をはてなブックマークに追加

SDPA と様々な BLAS その2

2012年04月29日 12時15分26秒 | Weblog
前回と同じ実験を SandyBridge-EP を用いて行ってみた。Intel MKL と ATLAS では随分と性能差があるという結果が。

○問題1:theta6.dat-s
SDPA 7.4.0 + Intel MKL 10.3.9-293 : 5.757秒
SDPA 7.4.0 + ATLAS 3.9.72 : 9.044秒

○問題2:FH2+.1A1.STO6G.pqgt1t2p.dat-s
SDPA 7.4.0 + Intel MKL 10.3.9-293 : 46.927秒
SDPA 7.4.0 + ATLAS 3.9.72 : 58.403秒

○問題3:nug12_r2.dat-s
SDPA 7.4.0 + Intel MKL 10.3.9-293 : 65.004秒
SDPA 7.4.0 + ATLAS 3.9.72 : 73.194秒

◯SandyBridge-EP マシン:Intel Xeon E5-2690 2.90GHz 8 Core 20M L3 cache x 2
CPU Fan INTEL 純正水冷クーラー x 2
Memory DDR 3 1600 ECC REG 256GB (16GB x 16)
SSD 120GB SSD(起動・OS用)
HDD Enterprize 1TB SATA HDD
DVD DVD-RAM
GPGPU NVIDIA GeForce 580搭載 3GB Memory
電源 850W 以上の80PLUS 高効率電源
OS : CentOS 6.2
コメント
この記事をはてなブックマークに追加

SDPA と様々な BLAS

2012年04月28日 02時55分08秒 | Weblog
GotoBLAS2, Intel MKL, ATLAS の最新版を用いて比較実験を行った。やはり最適化 BLAS と言っても以下のように性能差がある。

○問題1:theta6.dat-s
SDPA 7.4.0 + GotoBLAS2 : 8.469秒
SDPA 7.4.0 + Intel MKL 10.3.9-293 : 9.762秒
SDPA 7.4.0 + ATLAS 3.9.72 : 12.768秒

○問題2:FH2+.1A1.STO6G.pqgt1t2p.dat-s
SDPA 7.4.0 + GotoBLAS2 : 100.688秒
SDPA 7.4.0 + Intel MKL 10.3.9-293 : 103.783秒
SDPA 7.4.0 + ATLAS 3.9.72 : 109.285秒

○問題3:nug12_r2.dat-s
SDPA 7.4.0 + GotoBLAS2 : 110.258秒
SDPA 7.4.0 + Intel MKL 10.3.9-293 : 123.290秒
SDPA 7.4.0 + ATLAS 3.9.72 : 144.052秒

○計算サーバ (1 CPU x 4 コア = 4 コア)
CPU : Intel Corei7 2600K (3.50GHz / 8MB L3) x 2
Memory : 8GB (4 x 2GB)
OS : Fedora 16 for x86_64
コメント
この記事をはてなブックマークに追加

Mac OS X Lion 上での SDPA

2012年04月27日 02時21分18秒 | Weblog
Mac OS X Linux 上での SDPA の make 及び実行方法について

まずは XCode Tools のインストール。その後で HPC for Mac から gcc 最新版 4.8.0
をダウンロードして使用する。

HPC for Mac
http://hpc.sourceforge.net/

Mac Mini での実験結果。

SDPA start at [Fri Apr 27 02:09:17 2012]
param is ./param.sdpa
data is /Users/fujisawa/data/sdplib/mcp500-1.dat-s : sparse
out is out
NumThreads is set as 2
Schur computation : DENSE
mu thetaP thetaD objP objD alphaP alphaD beta
0 1.0e+04 1.0e+00 1.0e+00 -0.00e+00 +3.12e+04 1.0e+00 9.1e-01 2.00e-01
1 1.4e+03 0.0e+00 9.2e-02 +6.92e+04 +3.16e+03 9.9e-01 9.9e-01 2.00e-01
2 1.7e+02 0.0e+00 5.1e-04 +8.24e+04 +3.30e+02 1.1e+00 1.0e+00 2.00e-01
3 1.7e+01 0.0e+00 1.5e-17 +8.94e+03 +3.14e+02 9.5e-01 8.5e+00 1.00e-01
4 2.4e+00 0.0e+00 1.4e-16 +1.58e+03 +3.89e+02 7.9e-01 1.9e+00 1.00e-01
5 6.1e-01 2.2e-18 1.4e-16 +7.71e+02 +4.67e+02 6.1e-01 8.1e-01 1.00e-01
6 2.4e-01 4.3e-18 2.7e-17 +6.46e+02 +5.24e+02 7.3e-01 4.4e-01 1.00e-01
7 1.2e-01 6.5e-18 1.6e-17 +6.09e+02 +5.50e+02 1.0e+00 5.5e-01 1.00e-01
8 5.3e-02 6.5e-18 1.1e-17 +6.02e+02 +5.75e+02 9.4e-01 7.5e-01 1.00e-01
9 1.6e-02 8.7e-18 9.0e-18 +5.99e+02 +5.91e+02 9.2e-01 9.0e-01 1.00e-01
10 3.0e-03 1.1e-17 1.6e-17 +5.98e+02 +5.97e+02 9.1e-01 9.2e-01 1.00e-01
11 5.2e-04 1.1e-17 1.8e-17 +5.98e+02 +5.98e+02 9.1e-01 9.3e-01 1.00e-01
12 8.4e-05 1.1e-17 2.9e-17 +5.98e+02 +5.98e+02 9.2e-01 9.5e-01 1.00e-01
13 1.3e-05 1.3e-17 7.6e-17 +5.98e+02 +5.98e+02 9.4e-01 9.7e-01 1.00e-01
14 1.6e-06 1.5e-17 1.1e-16 +5.98e+02 +5.98e+02 9.4e-01 1.0e+00 1.00e-01
15 1.8e-07 1.5e-17 1.2e-16 +5.98e+02 +5.98e+02 9.4e-01 1.0e+00 1.00e-01
16 1.9e-08 1.5e-17 1.8e-16 +5.98e+02 +5.98e+02 9.4e-01 1.0e+00 1.00e-01

phase.value = pdOPT
Iteration = 16
mu = +1.8896923677402810e-08
relative gap = +1.5796179976243240e-08
gap = +9.4484615829060203e-06
digits = +7.8014479267053067e+00
objValPrimal = +5.9814851892931665e+02
objValDual = +5.9814850948085507e+02
p.feas.error = +1.5543122344752192e-15
d.feas.error = +1.7985612998927536e-14
total time = 9.425128
main loop time = 9.188883
total time = 9.425128
file check time = 0.000000
file change time = 0.030898
file read time = 0.205347
SDPA end at [Fri Apr 27 02:09:28 2012]
ALL TIME = 10.524502
コメント
この記事をはてなブックマークに追加

クラウド コンピューティングEXPO春とデータウェアハウス&CRM EXPO(D&C)

2012年04月26日 00時44分44秒 | Weblog
以下のクラウド コンピューティングEXPO春とデータウェアハウス&CRM EXPOは同時開催となっております。共同研究先が展示を行っている関係もありますので、両方とも(同じ場所ですので)参加する予定です。

クラウド コンピューティングEXPO春


第3回 クラウドコンピューティングEXPO【春】
【会期】2012年5月9日(水)~11日(金)
10:00~18:00 (11日(金)のみ17:00終了)
【会場】東京ビッグサイト

データウェアハウス&CRM EXPO(D&C)

第17回 データウェアハウス&CRM EXPO
【会期】2012年5月9日(水)~11日(金)
10:00~18:00 (11日(金)のみ17:00終了)
【会場】東京ビッグサイト

コメント
この記事をはてなブックマークに追加

TSUBAME 2.0 と SDPA, SDPARA その24

2012年04月25日 03時03分51秒 | Weblog
行列サイズを N とすると Linpack の計算量は
(2 / 3) * N * N * N + 2 * N * N
となる。
一方 Cholesky 分解の計算量は
N * (1/3 + N * (1/2 + N / 6)) + N * (N * N - 1) / 6
となる。
例えば N = 1484406 ときの計算量は以下の通り。
Linpack : 2.1806e+18 FLOP
Cholesky : 1.0903e+18 FLOP

つまり、Cholesky 分解の計算量は Linpack (LU分解)の約半分。

参考
◯ TSUBAME における Linpack 測定 (2010年10月18日): 1357 ノード, 4071 GPU
N = 2490368, 計算量 1.0297e+19 FLOP, 実行時間 8639.84秒, 1.1918e+15 FLOPS
◯ TSUBAME における Cholesky 測定 (2012年4月5日) : 1360 ノード, 4080 GPU
N = 1484406, 計算量 1.0903e+18 FLOP, 実行時間 2045.0秒, 5.3314e+14 FLOPS

◯東工大 TSUBAME 2.0
HP Proliant SL390s G7 1408台
HP Proliant SL390s G7
CPU: Intel Xeon 2.93GHz 6コア×2ソケット = 12コア(Hyperthreading時 = 24コア)
GPU: NVIDIA Tesla M2050 3GPU
Memory: 54GB (一部は96GB)
SSD: 120GB (一部は240GB)
ネットワーク: QDR InfiniBand x 2 = 80Gbps

◯1ノードあたりの性能(倍精度)
CPU 140GF(2.93GHz) + GPU 1545GF = 1685GF
CPU 153GF(3.2GHz : TB) + GPU 1545GF = 1698GF
コメント
この記事をはてなブックマークに追加

次の Graph500 の締切り: June 2012

2012年04月24日 00時31分43秒 | Weblog
次の Graph 500 の提出締切りが 5/15 に迫っております。前回は期日までに結果を提出した場合には1ヶ月の間に再提出が可能というルールが突然できましたが、今回も同じようなルールができることが予想されます。

Graph 500 Submissions June 2012 List

The submission deadline for the June list is May 15, 2012. To submit, please send the following information to submission@graph500.org:

Computer Information:
Manufacturer
Computer System/Type
Installation Site
Location
Year of Installation/Last Major Upgrade
Field of Use: government, university, industry, etc.
Field of Application: geophysics, automotive, etc.
Number of Processors
Main Memory Size
Contact Person
Benchmark Information:
Problem Size/Level Run
Timed Result
コメント
この記事をはてなブックマークに追加

TSUBAME 2.0 と SDPA, SDPARA その23

2012年04月23日 01時20分04秒 | Weblog
現在、TSUBAME 2.0 のインタラクティブノードのログインに失敗する現象が発生している。しばらく待ってからログインすれば成功することが多いので、深刻な問題ではないようだが、3月末のメンテナンス後にはこの現象の発生頻度が増えているとのこと。

ログイン(インタラクティブ)

2012.4.20 18:30 現在、利用できますが、インタラクティブノードの負荷高騰によってログインが失敗する事があります。

(new) 2012.4.20 18:30 負荷高騰によりインタラクティブノードへのログイン障害や計算ノードのハングアップに対応するためインタラクティブノードの緊急メンテナンスを行います。詳しくはこちらに。

実はグラチャレ実行中にも様々な障害が発生していたわけで。。。
http://mon.g.gsic.titech.ac.jp/trouble-list/index.htm
コメント
この記事をはてなブックマークに追加

CREST・さきがけ平成24年度研究提案募集

2012年04月22日 10時16分08秒 | Weblog
CREST・さきがけ平成24年度研究提案募集が現在行われています。個人的な経験から言いますと、いろいろな注意点やテクニックがあるのですが、それを公開して良いのかわかりませんので、知りたい方は直接連絡してください。

募集締切:
  CREST/ 平成24年5月15日(火)正午
  さきがけ/ 平成24年5月9日(水)正午
書類選考結果の通知: 平成24年6月下旬~7月中旬
面接選考期間: 平成24年6月下旬~8月上旬
研究開始: 平成24年10月以降

CRESTとさきがけはなかなか自分の専門分野に適合した領域募集が現れませんので、少しでも自分の専門に近い募集が出て来たら、迷わずに応募することをお勧めします。

我々の研究分野に近そうな募集は下記の2件
◯ポストペタスケール高性能計算に資するシステムソフトウェア技術の創出
◯分散協調型エネルギー管理システム構築のための理論及び基盤技術の創出と融合展開

コメント
この記事をはてなブックマークに追加

MVAPICH2 1.8rc1 と OpenMPI 1.5.5

2012年04月21日 03時01分34秒 | Weblog
MVAPICH2 の最新版 1.8rc1 と OpenMPI の最新版 1.5.5 の性能を比較してみた。あまり変わらないのだが、いつものように少しだけ MVAPICH2 の方が速い。

◯ソフトウェア SDPARA 7.5.0 RC2
◯問題 tai14a.dat-s
MVAPICH2 1.8rc1 : 107.22s
OpenMPI 1.5.5 : 108.82s

◯問題 tai16a.dat-s
MVAPICH2 1.8rc1 : 411.78s
OpenMPI 1.5.5 : 413.79s

○ OPT クラスタ
1:PowerEdge M1000e(ブレードエンクロージャー) x 1台
2:PowerEdge M710HD(ブレードサーバ) x 16台
ブレードサーバの仕様:
CPU : インテル(R) Xeon(R) プロセッサー X5670(2.93GHz、12MB キャッシュ、6.4 GT/s QPI) x 2個
メモリ: 128GB (16X8GB/2R/1333MHz/DDR3 RDIMM/CPUx2)
Disk : 73GB x 2(1台のみ 300GB x 2)
NIC : GbE x 1 & Inifiniband QDR(40Gbps) x 1
OS : CentOS 5.6 for x86_64
コメント
この記事をはてなブックマークに追加

CREST と研究室ホームページ

2012年04月20日 01時45分35秒 | Weblog
JST CREST プロジェクトのホームページと研究室のホームページはとりあえず以下のものを作成して公開を行っている。

JST CREST プロジェクトのホームページ : GraphCREST


研究室のホームページ

現在これらのホームページとは異なった新しいホームページを作成していて、近日中に公開予定となっている。
コメント
この記事をはてなブックマークに追加

MVAPICH2 1.8a2 と MVAPICH2 1.8rc1

2012年04月19日 01時43分16秒 | Weblog
MVAPICH2 1.8a2 と MVAPICH2 1.8rc1 の性能差を少しだけ比較を行ってみた。少しではあるが 1.8rc1 の方が高速となっている。

◯ソフトウェア SDPARA 7.5.0 RC2
◯問題 tai12a.dat-s
MVAPICH2 1.8a2 : 29.74s
MVAPICH2 1.8rc1 : 27.42s

◯問題 tai14a.dat-s
MVAPICH2 1.8a2 : 110.42s
MVAPICH2 1.8rc1 : 106.96s

○ OPT クラスタ
1:PowerEdge M1000e(ブレードエンクロージャー) x 1台
2:PowerEdge M710HD(ブレードサーバ) x 16台
ブレードサーバの仕様:
CPU : インテル(R) Xeon(R) プロセッサー X5670(2.93GHz、12MB キャッシュ、6.4 GT/s QPI) x 2個
メモリ: 128GB (16X8GB/2R/1333MHz/DDR3 RDIMM/CPUx2)
Disk : 73GB x 2(1台のみ 300GB x 2)
NIC : GbE x 1 & Inifiniband QDR(40Gbps) x 1
OS : CentOS 5.6 for x86_64
コメント
この記事をはてなブックマークに追加

サーバの仮想化

2012年04月18日 01時51分52秒 | Weblog
現在、最適化問題用の Online Solver を三つほど運用中である。

最短路問題 Online Solver
SDPA Online Solver 1
SDPA Online Solver 2

これらの目的と要求される性能を考慮すると、サーバ機能を実機で運用する必要性が低くなってきたので、これらの三つ(もしくは統合して二つ)を仮想マシンとして動作させる予定になっている(VMware Workstation 使用)。仮想マシンを動作させる実機は新規に調達予定。
コメント
この記事をはてなブックマークに追加

gcc 4.4.6 v.s. gcc 4.7.0

2012年04月17日 00時51分04秒 | Weblog
CentOS 6.2 標準装備の gcc 4.4.6 と最新の gcc 4.7.0 の性能を比較してみた。両者の速度がほぼ同じという問題もあるが、多くの場合では gcc 4.7.0 の方がやはり性能向上が大きい。

ソフトウェア SDPA 7.4.0
◯問題 LiH.1Sigma+.STO6G.pqgt1t2p.dat-s
gcc 4.4.6 : 9.00s
gcc 4.7.0 : 9.04s

◯問題 nug12_r2.dat-s
gcc 4.4.6 : 89.06s
gcc 4.7.0 : 83.95s

◯問題 theta6.dat-s
gcc 4.4.6 : 8.95s
gcc 4.7.0 : 7.95s

◯Westmere-EX マシン:Intel Xeon Westmere-EX 40 コアマシン
CPU Intel Xeon E7-4870 2.40GHz 30M L3 cache x 4
Memory ACTICA DDR3 1333 ECC REG 512GB( 16GB x 32)
HDD 3.5" Enterprize 1TB SATA HDD x 4 : RAID5構成
VGA GLADIAC GTX 580 1.5GB
Supermicro 4 way 4U Tower Server
1400W redundant 電源
OS : CentOS 6.2
コメント
この記事をはてなブックマークに追加

TSUBAME 2.0 と SDPA, SDPARA その22

2012年04月16日 00時57分09秒 | Weblog
前回の TSUBAME 2.0 での実験において別の大きな問題 Truss502_full.dat-s も 1360CPU, 2040 GPU で解いてみたので、その結果を簡単に記しておく。

◯SCM(Schur Complemet Matrix) の生成時間
1360CPU : 273.49s

◯SCM の Cholesky 分解の計算時間
2040 GPU : 1170.22s (318TFlops)

◯問題名 : Truss502_full.dat-s (Truss Topology Optimization)
mDIM = 1141303
nBLOCK = 2
bLOCKsTRUCT = 1509 -4556170


◯東工大 TSUBAME 2.0
HP Proliant SL390s G7 1408台
HP Proliant SL390s G7
CPU: Intel Xeon 2.93GHz 6コア×2ソケット = 12コア(Hyperthreading時 = 24コア)
GPU: NVIDIA Tesla M2050 3GPU
Memory: 54GB (一部は96GB)
SSD: 120GB (一部は240GB)
ネットワーク: QDR InfiniBand x 2 = 80Gbps

◯1ノードあたりの性能(倍精度)
CPU 140GF(2.93GHz) + GPU 1545GF = 1685GF
CPU 153GF(3.2GHz : TB) + GPU 1545GF = 1698GF
コメント
この記事をはてなブックマークに追加