2012年4月のブログ記事一覧-最適化問題に対する超高速＆安定計算

SDPA と様々な BLAS その３

2012年04月30日 00時26分46秒 | Weblog

研究室所有の PC と iMac が同じ以下の CPU だったので、SDPA 7.4.0 の性能比較を行った。今度は BLAS として ATLAS を加えて行ってみる予定。OS やコンパイラなどの環境が異なるので、ちょっとした参考まで。

CPU : Intel(R) Core(TM) i7-2600K CPU @ 3.40GHz
◯iMac
OS : Mac OS X 10.7 Lion
メモリ : 16GB
コンパイラ : gcc 4.8.0
◯PC
OS : CentOS 6.2
メモリ : 8GB
コンパイラ : gcc 4.4.6

○問題１：theta6.dat-s
iMac : 17.461s
PC : 8.499s

○問題２：FH2+.1A1.STO6G.pqgt1t2p.dat-s
iMac : 144.921s
PC : 106.297s

○問題３：nug12_r2.dat-s
iMac : 249.182s
PC : 191.934s

SDPA と様々な BLAS その２

2012年04月29日 12時15分26秒 | Weblog

前回と同じ実験を SandyBridge-EP を用いて行ってみた。Intel MKL と ATLAS では随分と性能差があるという結果が。

○問題１：theta6.dat-s
SDPA 7.4.0 + Intel MKL 10.3.9-293 : 5.757秒
SDPA 7.4.0 + ATLAS 3.9.72 : 9.044秒

○問題２：FH2+.1A1.STO6G.pqgt1t2p.dat-s
SDPA 7.4.0 + Intel MKL 10.3.9-293 : 46.927秒
SDPA 7.4.0 + ATLAS 3.9.72 : 58.403秒

○問題３：nug12_r2.dat-s
SDPA 7.4.0 + Intel MKL 10.3.9-293 : 65.004秒
SDPA 7.4.0 + ATLAS 3.9.72 : 73.194秒

◯SandyBridge-EP マシン：Intel Xeon E5-2690 2.90GHz 8 Core 20M L3 cache x 2
CPU Fan INTEL 純正水冷クーラー x 2
Memory DDR 3 1600 ECC REG 256GB (16GB x 16)
SSD 120GB SSD(起動・ＯＳ用)
HDD Enterprize 1TB SATA HDD
DVD DVD-RAM
GPGPU NVIDIA GeForce 580搭載 3GB Memory
電源 850W 以上の80PLUS 高効率電源
OS : CentOS 6.2

SDPA と様々な BLAS

2012年04月28日 02時55分08秒 | Weblog

GotoBLAS2, Intel MKL, ATLAS の最新版を用いて比較実験を行った。やはり最適化 BLAS と言っても以下のように性能差がある。

○問題１：theta6.dat-s
SDPA 7.4.0 + GotoBLAS2 : 8.469秒
SDPA 7.4.0 + Intel MKL 10.3.9-293 : 9.762秒
SDPA 7.4.0 + ATLAS 3.9.72 : 12.768秒

○問題２：FH2+.1A1.STO6G.pqgt1t2p.dat-s
SDPA 7.4.0 + GotoBLAS2 : 100.688秒
SDPA 7.4.0 + Intel MKL 10.3.9-293 : 103.783秒
SDPA 7.4.0 + ATLAS 3.9.72 : 109.285秒

○問題３：nug12_r2.dat-s
SDPA 7.4.0 + GotoBLAS2 : 110.258秒
SDPA 7.4.0 + Intel MKL 10.3.9-293 : 123.290秒
SDPA 7.4.0 + ATLAS 3.9.72 : 144.052秒

○計算サーバ (1 CPU x 4 コア = 4 コア)
CPU : Intel Corei7 2600K (3.50GHz / 8MB L3) x 2
Memory : 8GB (4 x 2GB)
OS : Fedora 16 for x86_64

Mac OS X Lion 上での SDPA

2012年04月27日 02時21分18秒 | Weblog

Mac OS X Linux 上での SDPA の make 及び実行方法について

まずは XCode Tools のインストール。その後で HPC for Mac から gcc 最新版 4.8.0
をダウンロードして使用する。

HPC for Mac
http://hpc.sourceforge.net/

Mac Mini での実験結果。

SDPA start at [Fri Apr 27 02:09:17 2012]
param is ./param.sdpa
data is /Users/fujisawa/data/sdplib/mcp500-1.dat-s : sparse
out is out
NumThreads is set as 2
Schur computation : DENSE
mu thetaP thetaD objP objD alphaP alphaD beta
0 1.0e+04 1.0e+00 1.0e+00 -0.00e+00 +3.12e+04 1.0e+00 9.1e-01 2.00e-01
1 1.4e+03 0.0e+00 9.2e-02 +6.92e+04 +3.16e+03 9.9e-01 9.9e-01 2.00e-01
2 1.7e+02 0.0e+00 5.1e-04 +8.24e+04 +3.30e+02 1.1e+00 1.0e+00 2.00e-01
3 1.7e+01 0.0e+00 1.5e-17 +8.94e+03 +3.14e+02 9.5e-01 8.5e+00 1.00e-01
4 2.4e+00 0.0e+00 1.4e-16 +1.58e+03 +3.89e+02 7.9e-01 1.9e+00 1.00e-01
5 6.1e-01 2.2e-18 1.4e-16 +7.71e+02 +4.67e+02 6.1e-01 8.1e-01 1.00e-01
6 2.4e-01 4.3e-18 2.7e-17 +6.46e+02 +5.24e+02 7.3e-01 4.4e-01 1.00e-01
7 1.2e-01 6.5e-18 1.6e-17 +6.09e+02 +5.50e+02 1.0e+00 5.5e-01 1.00e-01
8 5.3e-02 6.5e-18 1.1e-17 +6.02e+02 +5.75e+02 9.4e-01 7.5e-01 1.00e-01
9 1.6e-02 8.7e-18 9.0e-18 +5.99e+02 +5.91e+02 9.2e-01 9.0e-01 1.00e-01
10 3.0e-03 1.1e-17 1.6e-17 +5.98e+02 +5.97e+02 9.1e-01 9.2e-01 1.00e-01
11 5.2e-04 1.1e-17 1.8e-17 +5.98e+02 +5.98e+02 9.1e-01 9.3e-01 1.00e-01
12 8.4e-05 1.1e-17 2.9e-17 +5.98e+02 +5.98e+02 9.2e-01 9.5e-01 1.00e-01
13 1.3e-05 1.3e-17 7.6e-17 +5.98e+02 +5.98e+02 9.4e-01 9.7e-01 1.00e-01
14 1.6e-06 1.5e-17 1.1e-16 +5.98e+02 +5.98e+02 9.4e-01 1.0e+00 1.00e-01
15 1.8e-07 1.5e-17 1.2e-16 +5.98e+02 +5.98e+02 9.4e-01 1.0e+00 1.00e-01
16 1.9e-08 1.5e-17 1.8e-16 +5.98e+02 +5.98e+02 9.4e-01 1.0e+00 1.00e-01

phase.value = pdOPT
Iteration = 16
mu = +1.8896923677402810e-08
relative gap = +1.5796179976243240e-08
gap = +9.4484615829060203e-06
digits = +7.8014479267053067e+00
objValPrimal = +5.9814851892931665e+02
objValDual = +5.9814850948085507e+02
p.feas.error = +1.5543122344752192e-15
d.feas.error = +1.7985612998927536e-14
total time = 9.425128
main loop time = 9.188883
total time = 9.425128
file check time = 0.000000
file change time = 0.030898
file read time = 0.205347
SDPA end at [Fri Apr 27 02:09:28 2012]
ALL TIME = 10.524502

クラウドコンピューティングEXPO春とデータウェアハウス＆CRM EXPO（D&C）

2012年04月26日 00時44分44秒 | Weblog

以下のクラウドコンピューティングEXPO春とデータウェアハウス＆CRM EXPOは同時開催となっております。共同研究先が展示を行っている関係もありますので、両方とも（同じ場所ですので）参加する予定です。

クラウドコンピューティングEXPO春

第3回　クラウドコンピューティングEXPO【春】
【会期】2012年5月9日(水)～11日(金)
10:00～18:00 (11日(金)のみ17:00終了)
【会場】東京ビッグサイト

データウェアハウス＆CRM EXPO（D&C）

第17回　データウェアハウス＆CRM　EXPO
【会期】2012年5月9日(水)～11日(金)
10:00～18:00 (11日(金)のみ17:00終了)
【会場】東京ビッグサイト

TSUBAME 2.0 と SDPA, SDPARA　その２４

2012年04月25日 03時03分51秒 | Weblog

行列サイズを N とすると Linpack の計算量は
(2 / 3) * N * N * N + 2 * N * N
となる。
一方 Cholesky 分解の計算量は
N * (1/3 + N * (1/2 + N / 6)) + N * (N * N - 1) / 6
となる。
例えば N = 1484406 ときの計算量は以下の通り。
Linpack : 2.1806e+18 FLOP
Cholesky : 1.0903e+18 FLOP

つまり、Cholesky 分解の計算量は Linpack (LU分解)の約半分。

参考
◯ TSUBAME における Linpack 測定 (2010年10月18日）: 1357 ノード, 4071 GPU
N = 2490368, 計算量 1.0297e+19 FLOP, 実行時間 8639.84秒, 1.1918e+15 FLOPS
◯ TSUBAME における Cholesky 測定 (2012年4月5日) : 1360 ノード, 4080 GPU
N = 1484406, 計算量 1.0903e+18 FLOP, 実行時間 2045.0秒, 5.3314e+14 FLOPS

◯東工大 TSUBAME 2.0
HP Proliant SL390s G7 1408台
HP Proliant SL390s G7
CPU: Intel Xeon 2.93GHz 6コア×2ソケット = 12コア(Hyperthreading時 = 24コア)
GPU: NVIDIA Tesla M2050 3GPU
Memory: 54GB (一部は96GB)
SSD: 120GB (一部は240GB)
ネットワーク: QDR InfiniBand x 2 = 80Gbps

◯１ノードあたりの性能（倍精度)
CPU 140GF(2.93GHz) + GPU 1545GF = 1685GF
CPU 153GF(3.2GHz : TB) + GPU 1545GF = 1698GF

次の Graph500 の締切り: June 2012

2012年04月24日 00時31分43秒 | Weblog

次の Graph 500 の提出締切りが 5/15 に迫っております。前回は期日までに結果を提出した場合には１ヶ月の間に再提出が可能というルールが突然できましたが、今回も同じようなルールができることが予想されます。

Graph 500 Submissions June 2012 List

The submission deadline for the June list is May 15, 2012. To submit, please send the following information to submission@graph500.org:

Computer Information:
Manufacturer
Computer System/Type
Installation Site
Location
Year of Installation/Last Major Upgrade
Field of Use: government, university, industry, etc.
Field of Application: geophysics, automotive, etc.
Number of Processors
Main Memory Size
Contact Person
Benchmark Information:
Problem Size/Level Run
Timed Result

TSUBAME 2.0 と SDPA, SDPARA　その２３

2012年04月23日 01時20分04秒 | Weblog

現在、TSUBAME 2.0 のインタラクティブノードのログインに失敗する現象が発生している。しばらく待ってからログインすれば成功することが多いので、深刻な問題ではないようだが、３月末のメンテナンス後にはこの現象の発生頻度が増えているとのこと。

ログイン(インタラクティブ)

2012.4.20 18:30 現在、利用できますが、インタラクティブノードの負荷高騰によってログインが失敗する事があります。

(new) 2012.4.20 18:30　負荷高騰によりインタラクティブノードへのログイン障害や計算ノードのハングアップに対応するためインタラクティブノードの緊急メンテナンスを行います。詳しくはこちらに。

実はグラチャレ実行中にも様々な障害が発生していたわけで。。。
http://mon.g.gsic.titech.ac.jp/trouble-list/index.htm

CREST・さきがけ平成２４年度研究提案募集

2012年04月22日 10時16分08秒 | Weblog

CREST・さきがけ平成２４年度研究提案募集が現在行われています。個人的な経験から言いますと、いろいろな注意点やテクニックがあるのですが、それを公開して良いのかわかりませんので、知りたい方は直接連絡してください。

募集締切：
　　ＣＲＥＳＴ／平成２４年５月１５日（火）正午
　　さきがけ／平成２４年５月９日（水）正午
書類選考結果の通知：平成２４年６月下旬～７月中旬
面接選考期間：平成２４年６月下旬～８月上旬
研究開始：平成２４年１０月以降

CRESTとさきがけはなかなか自分の専門分野に適合した領域募集が現れませんので、少しでも自分の専門に近い募集が出て来たら、迷わずに応募することをお勧めします。

我々の研究分野に近そうな募集は下記の２件
◯ポストペタスケール高性能計算に資するシステムソフトウェア技術の創出
◯分散協調型エネルギー管理システム構築のための理論及び基盤技術の創出と融合展開

MVAPICH2 1.8rc1 と OpenMPI 1.5.5

2012年04月21日 03時01分34秒 | Weblog

MVAPICH2 の最新版 1.8rc1 と OpenMPI の最新版 1.5.5 の性能を比較してみた。あまり変わらないのだが、いつものように少しだけ MVAPICH2 の方が速い。

◯ソフトウェア SDPARA 7.5.0 RC2
◯問題 tai14a.dat-s
MVAPICH2 1.8rc1 : 107.22s
OpenMPI 1.5.5 : 108.82s

◯問題 tai16a.dat-s
MVAPICH2 1.8rc1 : 411.78s
OpenMPI 1.5.5 : 413.79s

○ OPT クラスタ
１：PowerEdge M1000e(ブレードエンクロージャー) x 1台
２：PowerEdge M710HD(ブレードサーバ) x 16台
ブレードサーバの仕様：
CPU : インテル(R) Xeon(R) プロセッサー X5670(2.93GHz、12MB キャッシュ、6.4 GT/s QPI) x 2個
メモリ： 128GB (16X8GB/2R/1333MHz/DDR3 RDIMM/CPUx2)
Disk : 73GB x 2(1台のみ 300GB x 2)
NIC : GbE x 1 & Inifiniband QDR(40Gbps) x 1
OS : CentOS 5.6 for x86_64

CREST と研究室ホームページ

2012年04月20日 01時45分35秒 | Weblog

JST CREST プロジェクトのホームページと研究室のホームページはとりあえず以下のものを作成して公開を行っている。

JST CREST プロジェクトのホームページ : GraphCREST

研究室のホームページ

現在これらのホームページとは異なった新しいホームページを作成していて、近日中に公開予定となっている。

MVAPICH2 1.8a2 と MVAPICH2 1.8rc1

2012年04月19日 01時43分16秒 | Weblog

MVAPICH2 1.8a2 と MVAPICH2 1.8rc1 の性能差を少しだけ比較を行ってみた。少しではあるが 1.8rc1 の方が高速となっている。

◯ソフトウェア SDPARA 7.5.0 RC2
◯問題 tai12a.dat-s
MVAPICH2 1.8a2 : 29.74s
MVAPICH2 1.8rc1 : 27.42s

◯問題 tai14a.dat-s
MVAPICH2 1.8a2 : 110.42s
MVAPICH2 1.8rc1 : 106.96s

○ OPT クラスタ
１：PowerEdge M1000e(ブレードエンクロージャー) x 1台
２：PowerEdge M710HD(ブレードサーバ) x 16台
ブレードサーバの仕様：
CPU : インテル(R) Xeon(R) プロセッサー X5670(2.93GHz、12MB キャッシュ、6.4 GT/s QPI) x 2個
メモリ： 128GB (16X8GB/2R/1333MHz/DDR3 RDIMM/CPUx2)
Disk : 73GB x 2(1台のみ 300GB x 2)
NIC : GbE x 1 & Inifiniband QDR(40Gbps) x 1
OS : CentOS 5.6 for x86_64

サーバの仮想化

2012年04月18日 01時51分52秒 | Weblog

現在、最適化問題用の Online Solver を三つほど運用中である。

◯最短路問題 Online Solver
◯SDPA Online Solver 1
◯SDPA Online Solver 2

これらの目的と要求される性能を考慮すると、サーバ機能を実機で運用する必要性が低くなってきたので、これらの三つ（もしくは統合して二つ）を仮想マシンとして動作させる予定になっている(VMware Workstation 使用)。仮想マシンを動作させる実機は新規に調達予定。

gcc 4.4.6 v.s. gcc 4.7.0

2012年04月17日 00時51分04秒 | Weblog

CentOS 6.2 標準装備の gcc 4.4.6 と最新の gcc 4.7.0 の性能を比較してみた。両者の速度がほぼ同じという問題もあるが、多くの場合では gcc 4.7.0 の方がやはり性能向上が大きい。

ソフトウェア SDPA 7.4.0
◯問題 LiH.1Sigma+.STO6G.pqgt1t2p.dat-s
gcc 4.4.6 : 9.00s
gcc 4.7.0 : 9.04s

◯問題 nug12_r2.dat-s
gcc 4.4.6 : 89.06s
gcc 4.7.0 : 83.95s

◯問題 theta6.dat-s
gcc 4.4.6 : 8.95s
gcc 4.7.0 : 7.95s

◯Westmere-EX マシン：Intel Xeon Westmere-EX 40 コアマシン
CPU Intel Xeon E7-4870 2.40GHz 30M L3 cache x 4
Memory ACTICA DDR3 1333 ECC REG 512GB( 16GB x 32)
HDD 3.5" Enterprize 1TB SATA HDD x 4 : RAID5構成
VGA GLADIAC GTX 580 1.5GB
Supermicro 4 way 4U Tower Server
1400W redundant 電源
OS : CentOS 6.2

TSUBAME 2.0 と SDPA, SDPARA　その２２

2012年04月16日 00時57分09秒 | Weblog

前回の TSUBAME 2.0 での実験において別の大きな問題 Truss502_full.dat-s も 1360CPU, 2040 GPU で解いてみたので、その結果を簡単に記しておく。

◯SCM(Schur Complemet Matrix) の生成時間
1360CPU : 273.49s

◯SCM の Cholesky 分解の計算時間
2040 GPU : 1170.22s (318TFlops)

◯問題名 : Truss502_full.dat-s (Truss Topology Optimization)
mDIM = 1141303
nBLOCK = 2
bLOCKsTRUCT = 1509 -4556170

◯東工大 TSUBAME 2.0
HP Proliant SL390s G7 1408台
HP Proliant SL390s G7
CPU: Intel Xeon 2.93GHz 6コア×2ソケット = 12コア(Hyperthreading時 = 24コア)
GPU: NVIDIA Tesla M2050 3GPU
Memory: 54GB (一部は96GB)
SSD: 120GB (一部は240GB)
ネットワーク: QDR InfiniBand x 2 = 80Gbps

◯１ノードあたりの性能（倍精度)
CPU 140GF(2.93GHz) + GPU 1545GF = 1685GF
CPU 153GF(3.2GHz : TB) + GPU 1545GF = 1698GF

アクセス
閲覧	222	PV
訪問者	189	IP
トータル
閲覧	4,997,599	PV
訪問者	1,258,463	IP

	goo blogは20周年を迎えました！
	訪問者数に応じてdポイント最大1,000pt当たる！
	皆さんにおすすめしたい人気ブログをご紹介
	今週のお題「#ガーデニング」をチェック

最適化問題に対する超高速＆安定計算

大規模最適化問題、グラフ探索、機械学習やデジタルツインなどの研究のお話が中心

SDPA と様々な BLAS その３

SDPA と様々な BLAS その２

SDPA と様々な BLAS

Mac OS X Lion 上での SDPA

クラウドコンピューティングEXPO春とデータウェアハウス＆CRM EXPO（D&C）

TSUBAME 2.0 と SDPA, SDPARA　その２４

次の Graph500 の締切り: June 2012

TSUBAME 2.0 と SDPA, SDPARA　その２３

CREST・さきがけ平成２４年度研究提案募集

MVAPICH2 1.8rc1 と OpenMPI 1.5.5

CREST と研究室ホームページ

MVAPICH2 1.8a2 と MVAPICH2 1.8rc1

サーバの仮想化

gcc 4.4.6 v.s. gcc 4.7.0

TSUBAME 2.0 と SDPA, SDPARA　その２２

カレンダー

Twitter

最新記事

検索

バックナンバー

ブックマーク

文字サイズ変更

アクセス状況

goo blog おすすめ

goo blog お知らせ

2012年4月
日	月	火	水	木	金	土
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30