最適化問題に対する超高速&安定計算

大規模最適化問題、グラフ探索、機械学習やデジタルツインなどの研究のお話が中心

Gurobi 5.0.2 v.s. CPLEX 12.5 その3

2012年11月30日 02時30分45秒 | Weblog
以下の計算サーバでの MIPLIB2010 を用いた Gurobi 5.0.2 と CPLEX 12.5 の比較実験結果について。

○計算サーバ (4 CPU x 12 コア = 48 コア)
CPU : AMD Opteron 6174 (2.20GHz / 12MB L3) x 4
Memory : 256GB (16 x 16GB / 1066MHz)
OS : Fedora 17 for x86_64

-----------------------------------+---------------+---------------+
Name | CPLEX | Gurobi |
-----------------------------------+---------------+---------------+
30n20b8 40 12
acc-tight5 14 29
aflow40b 85 56
air04 7 24
app1-2 72 133
ash608gpia-3col 17 38
bab5 664 162
beasleyC3 14 26
biella1 146 288
bienst2 28 5
binkar10_1 3 4
bley_xl1 26 18
bnatt350 470 1312
core2536-691 53 72
cov1075 3 6
csched010 326 872
danoint 235 582
dfn-gwin-UUM 17 19
eil33-2 14 124
eilB101 15 83
enlight13 2143 3
enlight14 6 2
ex9 7 12
glass4 79 18
gmu-35-40 468 126
iis-100-0-cov 150 323
iis-bupa-cov 2038 745
iis-pima-cov 213 203
lectsched-4-obj 6 3
m100n500k4r1 timeout timeout
macrophage 221 166
map18 190 72
map20 121 54
mcsched 8 26
mik-250-1-100-1 5 7
mine-166-5 27 27
mine-90-10 74 1061
msc98-ip 1492 436
mspp16 1756 1123
mzzv11 24 30
n3div36 timeout 812
n3seq24 timeout 457
n4-3 96 206
neos-1109824 16 131
neos-1337307 timeout 145
neos-1396125 8 9
neos13 100 47
neos-1601936 143 187
neos18 10 35
neos-476283 146 192
neos-686190 10 29
neos-849702 17 154
neos-916792 116 160
neos-934278 485 80
net12 153 77
netdiversion 204 212
newdano 867 257
noswot 46 9
ns1208400 156 179
ns1688347 12 27
ns1758913 92 154
ns1766074 30 16
ns1830653 38 116
opm2-z7-s2 142 101
pg5_34 94 53
pigeon-10 165 42
pw-myciel4 7 164
qiu 4 8
rail507 107 283
ran16x16 28 13
reblock67 51 285
rmatr100-p10 11 11
rmatr100-p5 31 20
rmine6 241 198
rocII-4-11 47 137
rococoC10-001000 64 268
roll3000 53 31
satellites1-25 60 260
sp98ic 286 195
sp98ir 8 29
tanglegram1 23 11
tanglegram2 2 1
timtab1 120 93
triptim1 85 128
unitcal_7 134 243
vpphard timeout 843
zib54-UUE 500 265
-----------------------------------+---------------+---------------+
solved/stopped/failed | 82/5/0 | 86/1/0 |
timelimit [sec] | 3600 | 3600 |
-----------------------------------+---------------+---------------+
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

計算開始 その2

2012年11月29日 02時48分10秒 | Weblog
SDPARA では、チェックポイントとして1反復ごとに解を出力している。これらのファイルを初期点として使うことによって途中の解から再出発することができる。以下は現在解いている問題の初期点ファイルだが、ほぼ1時間で1反復が進んでいる。SDPARA では線形方程式系の解法が直接法なので、1反復の実行時間はかなり安定している。

1952778968 11月 29 02:28 sdpara.init
1952778968 11月 28 02:18 sdpara.init.1
1952778968 11月 28 11:23 sdpara.init.10
1952778968 11月 28 12:24 sdpara.init.11
1952778968 11月 28 13:24 sdpara.init.12
1952778968 11月 28 14:25 sdpara.init.13
1952778968 11月 28 15:25 sdpara.init.14
1952778968 11月 28 16:26 sdpara.init.15
1952778968 11月 28 17:26 sdpara.init.16
1952778968 11月 28 18:27 sdpara.init.17
1952778968 11月 28 19:27 sdpara.init.18
1952778968 11月 28 20:27 sdpara.init.19
1952778968 11月 28 03:18 sdpara.init.2
1952778968 11月 28 21:28 sdpara.init.20
1952778968 11月 28 22:28 sdpara.init.21
1952778968 11月 28 23:28 sdpara.init.22
1952778968 11月 29 00:29 sdpara.init.23
1952778968 11月 29 01:29 sdpara.init.24
1952778968 11月 29 02:29 sdpara.init.25
1952778968 11月 28 04:19 sdpara.init.3
1952778968 11月 28 05:20 sdpara.init.4
1952778968 11月 28 06:21 sdpara.init.5
1952778968 11月 28 07:21 sdpara.init.6
1952778968 11月 28 08:22 sdpara.init.7
1952778968 11月 28 09:23 sdpara.init.8
1952778968 11月 28 10:23 sdpara.init.9

◯解いている問題の大きさ
47688 = mDIM
22 = nBLOCK
16 16 16 16 120 120 256 120 120 256 512 256 256 560 1920 1920 560 6032 6032 1920 1920 -554 = bLOCKsTRUCT

◯ OPT クラスタ
1:PowerEdge M1000e(ブレードエンクロージャー) x 1台
2:PowerEdge M710HD(ブレードサーバ) x 16台
ブレードサーバの仕様:
CPU : インテル(R) Xeon(R) プロセッサー X5670(2.93GHz、12MB キャッシュ、6.4 GT/s QPI) x 2個
メモリ: 128GB (16X8GB/2R/1333MHz/DDR3 RDIMM/CPUx2)
Disk : 73GB x 2(1台のみ 300GB x 2)
NIC : GbE x 1 & Inifiniband QDR(40Gbps) x 1
OS : CentOS 5.6 for x86_64
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

計算開始

2012年11月28日 01時28分47秒 | Weblog
以下のブロック対角行列構造を持つ SDP に対する実験を開始した。問題数が多く、1問あたり何時間かかるのか、その時間がカギとなる。

47688 = mDIM
22 = nBLOCK
16 16 16 16 120 120 256 120 120 256 512 256 256 560 1920 1920 560 6032 6032 1920 1920 -554 = bLOCKsTRUCT

◯ OPT クラスタ
1:PowerEdge M1000e(ブレードエンクロージャー) x 1台
2:PowerEdge M710HD(ブレードサーバ) x 16台
ブレードサーバの仕様:
CPU : インテル(R) Xeon(R) プロセッサー X5670(2.93GHz、12MB キャッシュ、6.4 GT/s QPI) x 2個
メモリ: 128GB (16X8GB/2R/1333MHz/DDR3 RDIMM/CPUx2)
Disk : 73GB x 2(1台のみ 300GB x 2)
NIC : GbE x 1 & Inifiniband QDR(40Gbps) x 1
OS : CentOS 5.6 for x86_64

コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

ERATOセミナー

2012年11月27日 01時23分13秒 | Weblog
12月12日に以下のような ERATO セミナーが開催されます。

開催日 :2012年12月12日(水曜日) 15:00-15:30
発表者 :遠藤敏夫(東京工業大学 & JST CREST)
タイトル:ポストペタスケール時代のメモリ階層の深化に対応するソフトウェア技術
開催場所:北大工学部C304 ERATOセミナ室

概要:
メモリの速度性能・容量の伸びがメニーコア化するプロセッサの伸びに追いつ
かないという、メモリウォール問題は、今後のスパコンアーキテクチャにおい
て顕著となり、科学技術計算を現状よりもさらに大規模化・精緻化する上での
障害となると考えられています。その解決を目的として、2012年10月から開始
したJST-CRESTプロジェクト「ポストペタスケール時代のメモリ階層の深化に対
応するソフトウェア技術」の概要を説明します。本プロジェクトでは、不揮発
メモリも含めた異種のメモリを混在させたスパコンアーキテクチャを想定し、
それを有効活用するコンパイラ・メモリ管理技術・応用アルゴリズムなどにま
たがった新しいソフトウェア技術の研究開発を推進します。

------------------------------------------------------------------
開催日 :2012年12月12日(水曜日) 15:30-16:00
発表者 :佐藤仁(東京工業大学 & JST CREST)
タイトル:GPU MapReduceによる大規模グラフ処理
開催場所:北大工学部C304 ERATOセミナ室

概要:
MapReduceモデルに基づいたGIM-V(Generalized Iterative Matrix-Vector
multiplication)グラフ処理アルゴリズムを複数GPU環境へ適用した事例につい
て紹介する。東工大のTSUBAME2.0スーパーコンピュータの256ノード、768台の
GPUを用いて、2^30頂点、2^34辺のグラフに対するPageRank処理を行った結果、
87.04 ME/s (mega edges per second)を達成し、スケーラブルな性能を示すこ
とを確認した。

------------------------------------------------------------------
開催日 :2012年12月12日(水曜日) 16:00-16:45
発表者 :安井雄一郎(中央大学 & JST CREST)
タイトル:メモリ階層構造を考慮した大規模グラフ処理の高速化
開催場所:北大工学部C304 ERATOセミナ室

概要:
本発表では基本的なグラフ処理である幅優先探索, 最短路問題, 中心性指標計
算に焦点を当てて,メモリ階層構造を考慮した高速計算について述べていく. 我々
の実装 NETAL (NETwork Analysis Library) は,2400万点5800万枝からなる全米
道路ネットワークに対する各2点間の最短路長を7.75日で,377万点1652万枝から
なる特許引用ネットワークに対する中心性指標計算を2.52時間で, 厳密計算に
成功している. また,幅優先探索性能は最新の Graph500 List において, CPU
主体の単一計算機上で最も高速かつ, 消費電力あたりの性能が最も高い.これら
を実現するために必要な計算機の特徴を捉えたアルゴリズムとデータ構造、そ
の実装方法を紹介する.

------------------------------------------------------------------
開催日 :2012年12月12日(水曜日) 16:45-17:30
発表者 :藤澤克樹(中央大学 & JST CREST)
タイトル:大規模最適化問題に対するソフトウェア開発と高速&安定計算
--理論からスパコンまで--
開催場所:北大工学部C304 ERATOセミナ室

概要:
最適化手法とコンピュータが生まれてから60年以上の間、常に計算機、最適
化アルゴリズム共に進歩を遂げてきました。優れた理論から必ずしも優れたソ
フトウェアが生まれるとは限らないのですが、今回の講演では 1990年代半ばに
誕生した半正定値計画問題(SDP)に対する理論(主双対内点法)を題材に取って、
この理論がその後どのような経緯を辿って、ソフトウェア化 --> 一般公開
--> 高精度化 --> スパコン上で大規模並列計算へと進んで行ったのかについて
お話したいと思います。内容はSDP に関する最適化理論、定式化等から応用分
野、ソフトウェア化、大規模計算までと多岐に渡る予定です。
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

SDPA 7.4.0 と 7.3.6 その5

2012年11月26日 00時29分13秒 | Weblog
SDPA のホームページからは SDPA 7.3.6 の入手が可能となっている。

http://sdpa.sourceforge.net/download.html

以前も 7.3.6 と最新版 7.4.0 の比較を行ったが、以下の最新の環境下で再度実験を行った。

◯問題1:theta6.dat-s
sdpa 7.3.6 : 8.33s
sdpa 7.4.0 : 6.20s

◯問題2:FH2+.1A1.STO6G.pqgt1t2p.dat-s
sdpa 7.3.6 : 53.12s
sdpa 7.4.0 : 45.61s

◯問題3:nug12_r2.dat-s
sdpa 7.3.6 : 79.62s
sdpa 7.4.0 : 66.07s

◯コンパイラ : gcc(gfortran) 4.4.6
◯BLAS & LAPACK : OpenBLAS 0.2.4 & LAPACK 3.4.2
◯計算サーバ
SandyBridge-EP マシン:Intel Xeon E5-2650 2.00GHz : 8 Core 20M L3 cache x 2
Memory DDR 3 1600 ECC REG 256GB (16GB x 16)
OS : CentOS 6.3
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

Gurobi 5.0.2 v.s. CPLEX 12.5 その2

2012年11月25日 03時22分39秒 | Weblog
前回の続きで今度は SandyBridge-EP マシンでの比較結果。

◯問題 gmu-35-40.mps (MIPLIB2010) 最適解 -2.4065401670e+06
Gurobi 5.0.2 : 45.83秒
CPLEX 12.5 : 87.51秒

○問題 S-20-20-2-3.mps(ロットサイズ決定問題): 最適解 337697
Gurobi 5.0.2 : 42.33秒
CPLEX 12.5 : 81.96秒

○問題 gmpl-10-0.2.mps (仮想マシンマイグレーション問題):最適解 155
Gurobi 5.0.2 : 279.56秒
CPLEX 12.5 : 670.31秒

○問題 roll3000.mps (MIPLIB2003) : 最適解 12890
Gurobi 5.0.2 : 35.85秒
CPLEX 12.5 : 50.28秒

○問題 mod011.mps (MIPLIB2003) : 最適解 -5.4558535014e+07
Gurobi 5.0.2 : 24.12秒
CPLEX 12.5 : 17.26秒

◯計算サーバ
SandyBridge-EP マシン:Intel Xeon E5-2650 2.00GHz : 8 Core 20M L3 cache x 2
Memory DDR 3 1600 ECC REG 256GB (16GB x 16)
OS : CentOS 6.3
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

SDPA WIndows 版 その2

2012年11月24日 00時10分14秒 | Weblog
SDPA Windows 版に関する続きの話ですが、今は Windows 上でのコマンドプロンプトの扱いに慣れていない方も多いと想います。使い方は Linux 上の SDPA とも少しだけ異なります。

○まずはマルチスレッド計算のスレッド数の設定(以下の例では4スレッド)
>set OMP_NUM_THREADS=4

○ sdpa の実行。Linux のように ./sdpa と書いてはいけない
>sdpa QC.w.dat-s out
SDPA (Version 7.3.6) start at [Fri Nov 23 23:47:58 2012]
param is ./param.sdpa
data is QC.w.dat-s : sparse
out is out
NumThreads is set as 4
Schur computation : DENSE
Entering DMUMPS driver with JOB, N, NZ = -2 0 0
mu thetaP thetaD objP objD alphaP alphaD beta
0 1.0e+004 1.0e+000 1.0e+000 -0.00e+000 -1.75e+004 8.5e-001 1.0e+000 2.00e-001
1 2.2e+003 1.5e-001 4.9e-016 +9.97e+000 -3.00e+004 8.2e-001 8.2e-001 2.00e-001
2 5.4e+002 2.7e-002 1.8e-015 -9.88e+000 -3.86e+004 8.2e-001 8.2e-001 2.00e-001
3 1.6e+002 4.8e-003 1.1e-015 -8.95e+000 -4.38e+004 8.2e-001 1.2e+000 2.00e-001
4 4.8e+001 8.7e-004 2.1e-015 -8.62e+000 -2.81e+004 7.0e-001 1.2e+000 2.00e-001
5 7.8e+000 2.6e-004 3.2e-015 -8.63e+000 -4.36e+003 8.6e-001 1.0e+000 2.00e-001
6 1.6e+000 3.6e-005 1.9e-014 -8.60e+000 -1.09e+003 8.7e-001 1.1e+000 2.00e-001
7 2.3e-001 4.8e-006 2.4e-013 -8.71e+000 -1.57e+002 8.9e-001 1.0e+000 2.00e-001
8 4.9e-002 5.5e-007 2.5e-011 -9.59e+000 -4.49e+001 7.0e-001 9.6e-001 2.00e-001
9 1.4e-002 1.7e-007 5.3e-010 -1.20e+001 -2.15e+001 9.0e-001 6.2e-001 2.00e-001
10 5.5e-003 1.7e-008 2.2e-009 -1.35e+001 -1.79e+001 8.8e-001 8.8e-001 2.00e-001
11 1.6e-003 2.1e-009 6.3e-009 -1.41e+001 -1.53e+001 8.2e-001 8.0e-001 2.00e-001
12 5.4e-004 3.8e-010 2.5e-007 -1.43e+001 -1.47e+001 9.3e-001 1.0e+000 2.00e-001
13 1.3e-004 3.8e-010 4.7e-006 -1.45e+001 -1.46e+001 8.0e-001 6.9e-001 2.00e-001
14 5.0e-005 3.8e-010 1.8e-006 -1.45e+001 -1.46e+001 7.9e-001 7.2e-001 2.00e-001
15 2.0e-005 3.8e-010 5.4e-007 -1.45e+001 -1.46e+001 8.4e-001 7.5e-001 2.00e-001
16 7.5e-006 3.8e-010 1.3e-007 -1.46e+001 -1.46e+001 1.0e+000 9.1e-001 2.00e-001
17 1.8e-006 3.8e-010 1.4e-008 -1.46e+001 -1.46e+001 8.5e-001 7.7e-001 2.00e-001
18 6.5e-007 3.8e-010 3.2e-009 -1.46e+001 -1.46e+001 6.3e-001 6.0e-001 2.00e-001
19 3.3e-007 3.8e-010 1.3e-009 -1.46e+001 -1.46e+001 6.5e-001 5.5e-001 2.00e-001
20 1.8e-007 3.8e-010 5.7e-010 -1.46e+001 -1.46e+001 8.2e-001 5.2e-001 2.00e-001
21 9.0e-008 3.8e-010 2.7e-010 -1.46e+001 -1.46e+001 1.2e+000 5.7e-001 2.00e-001
22 4.0e-008 3.8e-010 1.2e-010 -1.46e+001 -1.46e+001 9.0e-001 7.2e-001 2.00e-001
23 1.7e-008 3.8e-010 3.2e-011 -1.46e+001 -1.46e+001 8.0e-001 8.0e-001 1.00e-001
24 4.7e-009 3.8e-010 6.6e-012 -1.46e+001 -1.46e+001 6.9e-001 6.3e-001 1.00e-001
25 2.0e-009 3.8e-010 2.4e-012 -1.46e+001 -1.46e+001 6.9e-001 6.3e-001 1.00e-001

phase.value = pdOPT
Iteration = 25
mu = +2.0036805206910541e-009
relative gap = +4.1260306487987379e-008
gap = +6.0058871831358829e-007
digits = +7.3844675503437855e+000
objValPrimal = -1.4556089303364914e+001
objValDual = -1.4556089903953632e+001
p.feas.error = +4.2592259511751964e-008
d.feas.error = +2.7126276641586955e-009
total time = 6.614009
main loop time = 6.473609
total time = 6.614009
file check time = 0.000000
file change time = 0.000000
file read time = 0.140400
SDPA end at [Fri Nov 23 23:48:04 2012]
ALL TIME = 6.813210
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

Gurobi 5.0.2 とマルチスレッドの効果

2012年11月23日 00時52分32秒 | Weblog


最新 Gurobi 5.0.2の実験結果(Intel Westmere-EX 2.4GHz x 4 = 40コア) 。問題が大きいとS-20-20-2-3 > roll3000 マルチスレッドの効果が高い。それでも 16 コア止まり。

◯計算サーバ:Intel Xeon Westmere-EX 40 コアマシン
CPU Intel Xeon E7-4870 2.40GHz 30M L3 cache x 4
Memory ACTICA DDR3 1333 ECC REG 512GB( 16GB x 32)
HDD 3.5" Enterprize 1TB SATA HDD x 4 : RAID5構成
VGA GLADIAC GTX 580 1.5GB
Supermicro 4 way 4U Tower Server
1400W redundant 電源
OS : CentOS 6.3
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

Gurobi 5.0.2 v.s. CPLEX 12.5

2012年11月22日 03時29分57秒 | Weblog
Gurobi 5.0.2 と CPLEX 12.5 がリリースされたので、以下の計算サーバ上で比較実験を行った。

◯問題 gmu-35-40.mps (MIPLIB2010) 最適解 -2.4065401670e+06
Gurobi 5.0.2 : 46.05秒
CPLEX 12.5 : 78.90秒

○問題 S-20-20-2-3.mps(ロットサイズ決定問題): 最適解 337697
Gurobi 5.0.2 : 48.87秒
CPLEX 12.5 : 89.60秒

○問題 gmpl-10-0.2.mps (仮想マシンマイグレーション問題):最適解 155
Gurobi 5.0.2 : 357.69秒
CPLEX 12.5 : 742.70秒

○問題 roll3000.mps (MIPLIB2003) : 最適解 12890
Gurobi 5.0.2 : 30.63秒
CPLEX 12.5 : 51.71秒

○問題 mod011.mps (MIPLIB2003) : 最適解 -5.4558535014e+07
Gurobi 5.0.2 : 24.86秒
CPLEX 12.5 : 24.23秒

○計算サーバ (4 CPU x 12 コア = 48 コア)
CPU : AMD Opteron 6174 (2.20GHz / 12MB L3) x 4
Memory : 256GB (16 x 16GB / 1066MHz)
OS : Fedora 16 or 17 for x86_64
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

SDPA WIndows 版

2012年11月21日 00時57分35秒 | Weblog
良く受ける質問ですが、SDPA の Windows 版 (64bit)は以下のサイトから入手可能です。しかしやはり最新版の使用等は Linux がお勧めです。

http://sdpa.sourceforge.net/download.html#sdpa-windows

SDPA 7.3.6 binary file for Windows
https://sourceforge.net/projects/sdpa/files/sdpa/windows/sdpa-7.3.6-windows.zip/download
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

今回の Graph500 & GreenGraph500 への提出結果:その2

2012年11月20日 01時32分39秒 | Weblog


現在では以下のマシンでは 11GTEPS に達しています。Intel Xeon E5-4640 Xeon (8-core 2.40GHz) 4-way マシンも調達予定ですが、このマシンでどれくらい TEPS 値が上がるのか、さらには以下の Westmere-EX 4-way マシンよりも高性能になるのか試してみる予定です。

◯計算サーバ:Intel Xeon Westmere-EX 40 コアマシン
CPU Intel Xeon E7-4870 2.40GHz 30M L3 cache x 4
Memory ACTICA DDR3 1333 ECC REG 512GB( 16GB x 32)
HDD 3.5" Enterprize 1TB SATA HDD x 4 : RAID5構成
VGA GLADIAC GTX 580 1.5GB
Supermicro 4 way 4U Tower Server
1400W redundant 電源
OS : CentOS 6.3
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

CUDA 4.2 と CUDA 5.0

2012年11月19日 00時25分23秒 | Weblog
CUDA 4.2 から CUDA 5.0 に少しずつ移行している。例えば Bandwidth テストでは、Device to Device はほぼ変わらないものの、Host to Device と Device to Host の値にはかなりの差が出ている。

◯ CUDA 4.2 : C2075 x 4
Device 0: Tesla C2075
Device 1: Tesla C2075
Device 2: Tesla C2075
Device 3: Tesla C2075
Quick Mode

Host to Device Bandwidth, 4 Device(s), Paged memory
Transfer Size (Bytes) Bandwidth(MB/s)
33554432  7130.1

Device to Host Bandwidth, 4 Device(s), Paged memory
Transfer Size (Bytes) Bandwidth(MB/s)
33554432  12251.7

Device to Device Bandwidth, 4 Device(s)
Transfer Size (Bytes) Bandwidth(MB/s)
33554432  409983.4

◯ CUDA 5.0 : C2075 x 4
Device 0: Tesla C2075
Device 1: Tesla C2075
Device 2: Tesla C2075
Device 3: Tesla C2075
Quick Mode

Host to Device Bandwidth, 4 Device(s), Paged memory
Transfer Size (Bytes) Bandwidth(MB/s)
33554432  11520.0

Device to Host Bandwidth, 4 Device(s), Paged memory
Transfer Size (Bytes) Bandwidth(MB/s)
33554432  15030.4

Device to Device Bandwidth, 4 Device(s)
Transfer Size (Bytes) Bandwidth(MB/s)
33554432  409882.2
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

SC12 終了

2012年11月18日 21時07分09秒 | Weblog
SC12終了直後(11月16日昼)のメインエントランス



来年の SC13 はデンバーで開催


コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

Intel MIC (Xeon Phi)について

2012年11月17日 01時00分50秒 | Weblog
SC12 で展示されていた Colfax 社の Intel MIC 8枚搭載可能マシン



Intel MIC で動作可能なコードを作るためには、基本的には Intel コンパイラで -mmic を付ければ良い
-mmic build an application that runs natively on Intel(R) MIC Architecture
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

今回の Graph500 & GreenGraph500 への提出結果

2012年11月16日 01時08分08秒 | Weblog
我々の JST CREST チームで今回の The 5th Graph500 & The 1st GreenGraph 500 に提出した結果です。



さらに The 1st Green Graph500 List が公表されなかったので、Graph500 の公開情報から List を作成してみました。

http://t.co/nZ6yuPan

スパコンと1ノードマシンは単純に比較できないので、1ノードだけで比べると我々のチームと Convey 社との戦いのようになってます。
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする