最適化問題に対する超高速&安定計算

大規模最適化問題、グラフ探索、機械学習やデジタルツインなどの研究のお話が中心

gcc 対 Intel コンパイラ その2

2012年04月15日 02時50分15秒 | Weblog
Graph500 などの実装では、gcc の方が Intel コンパイラよりもはるかに実行速度が速くなっている。例えば OS として CentOS 6.2 を使うと gcc のバージョンも 4.4.6 とやや古いにも関わらず以下のように gcc の方がやはり速くなる。

◯問題 LiH.1Sigma+.STO6G.pqgt1t2p.dat-s
gcc 4.4.6 : 9.21s
icc 12.1.3 : 16.82s

ただし、以下の問題のように BLAS/LAPACK (正確には Cholesky 分解)の実行に律速されるときは、どちらのコンパイラでもあまり大きな差は見られない。
◯問題 nug12_r2.dat-s
gcc 4.4.6 : 104.36s
icc 12.1.3 : 104.18s


◯Westmere-EX マシン:Intel Xeon Westmere-EX 40 コアマシン
CPU Intel Xeon E7-4870 2.40GHz 30M L3 cache x 4
Memory ACTICA DDR3 1333 ECC REG 512GB( 16GB x 32)
HDD 3.5" Enterprize 1TB SATA HDD x 4 : RAID5構成
VGA GLADIAC GTX 580 1.5GB
Supermicro 4 way 4U Tower Server
1400W redundant 電源
OS : CentOS 6.2
コメント (3)
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

第24回 RAMP シンポジウム

2012年04月14日 02時54分27秒 | Weblog
まだ正式なホームページは無いのですが、以下の内容で第24回 RAMP シンポジウムを開催することになりました。

日時 : 2012年9月27日(木),28日(金)
会場 : 東北大学
実行委員長 : 村松正和(電気通信大学), 塩浦昭義(東北大学)

28日の午後に海外招待セッションを予定しています。
Robert Bixby (Gurobi)
Thorsten Koch (ZIB)
Ted Ralph (Lehigh Univ.)
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

gcc 対 Intel コンパイラ

2012年04月13日 01時05分50秒 | Weblog
SDPA 7.4.0 を用いて gcc 4.6.3 と icc 12.1.3 のコンパイラの性能比較を行った。やはり gcc の方が少しだけ性能が良いようだ。

◯問題 LiH.1Sigma+.STO6G.pqgt1t2p.dat-s
計算サーバ1 gcc 4.6.3 : 18.93s
計算サーバ1 icc 12.1.3 : 21.13s
計算サーバ2 gcc 4.6.3 : 15.76s
計算サーバ2 icc 12.1.3 : 26.98s

◯問題 nug12_r2.dat-s
計算サーバ1 gcc 4.6.3 : 141.44s
計算サーバ1 icc 12.1.3 : 144.98s
計算サーバ2 gcc 4.6.3 : 167.94s
計算サーバ2 icc 12.1.3 : 164.46s

◯計算サーバ1 (2 CPU x 4 コア = 8 コア)
CPU : Intel Xeon 5550 (2.66GHz / 8MB L3) x 2
Memory : 72GB (18 x 4GB / 800MHz)
OS : Fedora 16 for x86_64

◯計算サーバ2 (4 CPU x 12 コア = 48 コア)
CPU : AMD Opteron 6174 (2.20GHz / 12MB L3) x 4個
メモリ : 256GB (16 x 16GB / 1066MHz)
OS : Fedora 16 for x86_64

コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

Windows 8 Consumer Preview で最短路 Online Solver

2012年04月12日 08時12分04秒 | Weblog
Windows 8 Consumer Preview をWMware の仮想マシンのゲスト OS としてインストールした。

以下のように firefox も動作するが、その上で最短路 online solver も正常通りに動作した。




コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

ISMP 2012

2012年04月11日 00時23分15秒 | Weblog
数理計画や最適化等に関する最大の国際会議 ISMP が8月19日から24日の間にベルリンで開催されます。すでに Invited Session の Proposal は終了しておりますが、発表のアブストラクトの締切りが4月15日、早期レジストレーションの締切りが6月15日となっております。

The 21st International Symposium on Mathematical Programming (ISMP) will take place in Berlin, Germany, August 19 - 24, 2012.

ISMP is a scientific meeting held every 3 years on behalf of the Mathematical Optimization Society. It is the world congress of mathematical optimization where scientists as well as industrial users of mathematical optimization meet in order to present the most recent developments and results and to discuss new challenges from theory and practice.

Deadlines

April 15, 2012: Abstract submission deadline (abstracts at most 1200 characters)
June 15, 2012: Early registration deadline
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

SOTA つくば合宿一般講演募集中

2012年04月10日 01時29分06秒 | Weblog
SOTA つくば合宿では一般講演者を募集しています。通常では下は M1 (B4 も可) から上はポスドク、助教の方ぐらいまでが対象です。というわけですので、当然私は不可となります。通常のOR学会の発表会よりも聴衆が多いので、こちらでの発表はおすすめです。

最適化の理論と応用 -- 未来を担う若手研究者の集い2012 --
開催日 : 2012年6月30日(土), 7月1日(日)
会 場 : 筑波大学 筑波キャンパス 春日地区 講堂
参加費 : 無料(ただし,宿泊,懇親会への参加は有料)
事前登録 : 不要(ただし,筑波大学の宿泊施設利用希望の場合は必要)

【一般講演に関して】
現在,一般講演を募集中です.

一般講演者は「若手研究者」とさせていただきます.
特に,大学院等に在籍中の学生の発表を奨励いたします.
前年度に提出された卒論・修論・博論の発表も歓迎いたします.
もちろん,学生以外の若手研究者の方のお申込みも大いに歓迎いたします.
(ここで言う「若手」とは,自分で「若手」だと認識している人のことです.)

講演希望の方は,メールアドレス
kobayashi@ (←@の後に mist.i.u-tokyo.ac.jp を追加して下さい.)
まで,下記の要領でご連絡下さい.

メールのSubject: SOTAつくば発表申込
本文:
名前
所属(学校・学部(研究科)・学科(専攻)名)
連絡先メールアドレス
講演タイトル
講演概要(100字以内)

なお,講演申込の〆切は2012年5月25日(金) とさせていただきます.
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

iPad で Linpack

2012年04月09日 00時01分11秒 | Weblog
以前 iPad で TSPを紹介したのだが、iPad で Linpack を試してみることもできる(iPhone 版もある)。

Linpack

LINPACK Benchmark

こちらにもいろいろな情報がある。今から何か最適化ソフトのデモを作るのであれば、iOS で作るのも良い選択肢になる。
コメント (3)
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

TSUBAME 2.0 と SDPA, SDPARA その21

2012年04月08日 10時53分35秒 | Weblog
sko42 の問題に対する実験結果について。Cholesky 分解は行列サイズ n の3乗のオーダーだが、この計算の前に4乗オーダーの部分(SCM の生成)がある。ちなみに、この部分は疎性の利用と 2720 CPU の並列計算で 380 秒程度で通過できた。

◯SCM(Schur Complemet Matrix) の生成時間
1360CPU : 487.7s
2720CPU : 388.3s
◯SCM の Cholesky 分解の計算時間
2040 GPU : 3348.5s (343TFlops)
4080 GOU : 2045.0s (533TFlops)

◯問題名 : sko42.dat-s (QAP に対する DNN 緩和問題)
mDIM = 1484406
nBLOCK = 2
bLOCKsTRUCT = -1777522 1682

◯東工大 TSUBAME 2.0
HP Proliant SL390s G7 1408台
HP Proliant SL390s G7
CPU: Intel Xeon 2.93GHz 6コア×2ソケット = 12コア(Hyperthreading時 = 24コア)
GPU: NVIDIA Tesla M2050 3GPU
Memory: 54GB (一部は96GB)
SSD: 120GB (一部は240GB)
ネットワーク: QDR InfiniBand x 2 = 80Gbps

◯1ノードあたりの性能(倍精度)
CPU 140GF(2.93GHz) + GPU 1545GF = 1685GF
CPU 153GF(3.2GHz : TB) + GPU 1545GF = 1698GF
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

第12世代Dell PowerEdgeサーバ

2012年04月07日 01時54分52秒 | Weblog
第12世代Dell PowerEdgeサーバ

これまで Dell のサーバ(PowerEdge)を40 ~ 50 台ほど購入しましたが、おそらく二度と買わないと思います。Dell 側もアカデミック系はあまり重視していないようですし、そもそも全てのコアに高い負荷(浮動小数点)を掛けたときに長時間安定して動作する仕様になっていないのではないかと推測します(つまりHPC向けではない)。また明らかに性能低下が起きても、診断ツール等で異常が出ない限り修理等のサービスはありません。そんなわけですので現在稼働しているサーバが無くなればそれでおしまいです。
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

TSUBAME 2.0 と SDPA, SDPARA その20

2012年04月06日 00時51分27秒 | Weblog
結局以下の問題の結果ですが、行列サイズ n=1484406 の Cholesky 分解に要した時間は 2045 秒で性能は 約 533TFlops(4080 GPU を同時使用)となりました。

[gpdpotrf] ### END n=1484406, nb=1024 took 2045.108838sec --> 533114.411781GFlops ###

◯問題名 : sko42.dat-s (QAP に対する DNN 緩和問題)
mDIM = 1484406
nBLOCK = 2
bLOCKsTRUCT = -1777522 1682

◯東工大 TSUBAME 2.0
HP Proliant SL390s G7 1408台
HP Proliant SL390s G7
CPU: Intel Xeon 2.93GHz 6コア×2ソケット = 12コア(Hyperthreading時 = 24コア)
GPU: NVIDIA Tesla M2050 3GPU
Memory: 54GB (一部は96GB)
SSD: 120GB (一部は240GB)
ネットワーク: QDR InfiniBand x 2 = 80Gbps

◯1ノードあたりの性能(倍精度)
CPU 140GF(2.93GHz) + GPU 1545GF = 1685GF
CPU 153GF(3.2GHz : TB) + GPU 1545GF = 1698GF
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

TSUBAME 2.0 と SDPA, SDPARA その19

2012年04月05日 02時14分32秒 | Weblog
TSUBAME 2.0 での大規模実験に備えて、さらに大きな問題を用意した。制約数は 1484406 となっているので、Cholesky 分解には 1.0903e+18 FLOP を要する(つまりエクサFLOP級の問題)。2180秒以下で解ければ 500TFlops を越える計算となる。

◯問題名 : sko42.dat-s (QAP に対する DNN 緩和問題)
mDIM = 1484406
nBLOCK = 2
bLOCKsTRUCT = -1777522 1682

◯東工大 TSUBAME 2.0
HP Proliant SL390s G7 1408台
HP Proliant SL390s G7
CPU: Intel Xeon 2.93GHz 6コア×2ソケット = 12コア(Hyperthreading時 = 24コア)
GPU: NVIDIA Tesla M2050 3GPU
Memory: 54GB (一部は96GB)
SSD: 120GB (一部は240GB)
ネットワーク: QDR InfiniBand x 2 = 80Gbps

◯1ノードあたりの性能(倍精度)
CPU 140GF(2.93GHz) + GPU 1545GF = 1685GF
CPU 153GF(3.2GHz : TB) + GPU 1545GF = 1698G
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

HyperThreading (HT)

2012年04月04日 11時27分52秒 | Weblog
以下のように Westmere-EX の HyperThreading (HT)は場合によっては性能向上をもたらすことがあるが、SandyBridge-EP 方は HT を使ってもなかなか性能向上には結び付かない。HPC系のアプリでは性能が出ない方が普通なのでしょうが。

問題名 : H2O.1A1.DZ.pqgt1t2p.dat-s


○ Westmere-EX マシン(80 コア: HT)
○ELEMENTS : 84545.76秒
○CHOLESKY : 1855.99秒
○全体:87535.40秒

○ Westmere-EX マシン(40 コア)
○ELEMENTS : 95527.87秒
○CHOLESKY : 2007.12秒
○全体:98709.07秒

○ SandyBridge-EP マシン(32 コア: HT)
○ELEMENTS : 275011.47秒
○CHOLESKY : 1284.06秒
○全体:276957.23秒

○ SandyBridge-EP マシン(16 コア)
○ELEMENTS : 188014.74秒
○CHOLESKY : 1200.30秒
○全体:189856.20秒

◯Westmere-EX マシン:Intel Xeon Westmere-EX 40 コアマシン
CPU Intel Xeon E7-4870 2.40GHz 30M L3 cache x 4
Memory ACTICA DDR3 1333 ECC REG 512GB( 16GB x 32)
HDD 3.5" Enterprize 1TB SATA HDD x 4 : RAID5構成
VGA GLADIAC GTX 580 1.5GB
Supermicro 4 way 4U Tower Server
1400W redundant 電源
OS : CentOS 6.2

◯SandyBridge-EP マシン:Intel Xeon E5-2690 2.90GHz 8 Core 20M L3 cache x 2
CPU Fan INTEL 純正水冷クーラー x 2
Memory DDR 3 1600 ECC REG 256GB (16GB x 16)
SSD 120GB SSD(起動・OS用)
HDD Enterprize 1TB SATA HDD
DVD DVD-RAM
GPGPU NVIDIA GeForce 580搭載 3GB Memory
電源 850W 以上の80PLUS 高効率電源
OS : CentOS 6.2
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

「最適化の理論と応用」研究部会:つくば合宿

2012年04月03日 00時03分07秒 | Weblog
SCOPEの後継研究部会である SOTA でも以下のようにつくば合宿を予定しております。是非一般講演も含めて積極的にご参加ください。

-----------------------------------------------------------------------------------
「最適化の理論と応用」研究部会(SOTA)では,
昨年度までの「計算と最適化の新展開」研究部会(SCOPE)と同様に,
恒例の1泊2日の合宿形式の研究集会を以下の様に予定しております.
皆様のご参加をお待ちしております.

特に本研究集会は,未来を担うであろう若手研究者の交流を念頭において
企画されておりますので,周辺の学生にも参加を勧めていただきたく存じます.
また,本研究部会が最適化関連分野の研究者の交流の場になればと思いますので,
興味を持たれそうな方に広く周知していただけましたら幸いに存じます.

開催日 : 2012年6月30日(土), 7月1日(日)
会 場 : 筑波大学
参加費 : 無料(ただし, 宿泊, 懇親会への参加は有料)
事前登録:不要(ただし, 筑波大学の宿泊施設利用希望の場合は必要)

[主なプログラム]
・一般講演セッション (講演を募集しております。〆切:5月25日(金))
・特別講演(小島政和先生と藤重悟先生の講演を予定しております.)
・懇親会(第1日夜, 別会場)

プログラムや一般講演,宿泊などの各種申込の詳細につきましては,下記URLのHPをご覧ください:
http://www.misojiro.t.u-tokyo.ac.jp/~y-koba/SOTA/mirai12.html
※宿泊申込につきましては,数に限りがございます.利用希望の場合はお早めにお申し込みください.
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

JST CREST ポストペタ:平成24年度研究課題公募について

2012年04月02日 00時01分39秒 | Weblog
第3期(平成24年度)公募の要綱が発表されています。

JST CREST 「ポストペタスケール高性能計算に資する システムソフトウェア技術の創出」平成24年度研究課題公募について

http://www.jst.go.jp/kisoken/crest/ryoiki/bunyah22-2.html

公募期間は以下の間になります。
3/22(木)~5/15(火)正午

領域の概要
将来多用される、メニーコア化された汎用型プロセッサや専用プロセッサ(現在GPGPUを含む)を用いて構成されるスパコンの特徴を生かし、その上で実行されるアプリケーションを高効率・高信頼なものにするシステムソフトウェア等の実用性を見据えた研究開発を対象。

プログラミング言語、コンパイラ、ランタイムシステム、オペレーティングシステム、通信ミドルウェア、ファイルシステム、アプリケーション開発支援システム、超大規模データ処理システムソフトウェア等
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

TSUBAME 2.0 と SDPA, SDPARA その18

2012年04月01日 00時08分45秒 | Weblog
SDPARA の最新版(7.5.0.RC2) の最新の内容について。来週、超大規模に実行される予定となっている。

◯ ライブラリも含めた ILP64 完全対応
◯ Schur Complement Matrix(SCM)の生成時におけるメモリ使用量の大幅な減少
  副作用として SCM の生成時間の増加する場合があるが、SCM の Cholesky 分解がボトルネックとなる場合ではあまり影響は無い
◯ GPU による SCM の Cholesky 分解の高速化、及び計算と通信のオーバーラップ化 --> さらなる高速化(1.5倍)
◯ 計算量推定関数の並列化 (MPI + OpenMP による二段階並列)
◯ 各ノードでのデータ生成の高速化と通信量の削減 (ローカルストレージ SSD の有効利用)
◯ チェックポイント機能の強化

◯東工大 TSUBAME 2.0
HP Proliant SL390s G7 1408台
HP Proliant SL390s G7
CPU: Intel Xeon 2.93GHz 6コア×2ソケット = 12コア(Hyperthreading時 = 24コア)
GPU: NVIDIA Tesla M2050 3GPU
Memory: 54GB (一部は96GB)
SSD: 120GB (一部は240GB)
ネットワーク: QDR InfiniBand x 2 = 80Gbps

◯1ノードあたりの性能(倍精度)
CPU 140GF(2.93GHz) + GPU 1545GF = 1685GF
CPU 153GF(3.2GHz : TB) + GPU 1545GF = 1698G
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする