最適化問題に対する超高速&安定計算

クラスタ計算機やスーパーコンピュータ上での大規模最適化問題やグラフ探索などの研究のお話が中心

分散協調型エネルギー管理システム構築のための理論及び基盤技術の創出と融合展開」領域

2012年03月31日 01時21分30秒 | Weblog
以下の公募が開始されています。参考まで。

『公募開始のご案内 JST-CREST「分散協調型エネルギー管理システム構築のための理論及び基盤技術の創出と融合展開」領域』

本研究領域では、エネルギーシステムの最適化という社会が抱える大きな課題の解決に向かって、
システム、制御、情報、通信、エネルギー、社会科学など様々な分野の研究者と
一体となって立ち向かえるよう、従来のCRESTとは異なるユニークな領域運営を行います。
ご関心のある多くの方々の応募を期待しております。

公募期間:3/22(木)~5/15(火)正午
<研究提案募集ホームページ>http://www.senryaku.jst.go.jp/teian.html

また、4/16(月)に公募説明会を予定しておりますので、多数のご参加をお待ちしております。
http://www.senryaku.jst.go.jp/teian/koubo/ems.pdf

<領域概要>
本研究領域では 再生可能エネルギーをはじめとした多様なエネルギー源と様々な利用者を
つなぐエネルギー管理システムにおいて、エネルギー需給を最適制御するための理論、数理モ
デル及び基盤技術の創出を目的とします。
具体的には、エネルギーと情報を双方向かつリアルタイムで処理し、分散して存在する需要
と供給間の状況把握や協調制御を可能とする理論及び基盤技術の研究を推進します。また、需
要と供給それぞれの利己的意思決定をエネルギーシステム全体の社会的利益につなげるため
に、人間行動や社会的合理性を組み込んだ理論及び基盤技術の研究を推進します。さらには、
再生可能エネルギーの需給を気象や地理的条件、過去の実績等を考慮して予測する理論及び基
盤技術の研究を推進します。
これらの研究を推進するにあたり、分散協調型エネルギー管理システムの構築という出口を
見据え、システム、制御、情報、通信、エネルギー、社会科学など様々な研究分野をつないだ
連携や融合に取り組みます。
コメント

Westmere-EX マシンと H2O 問題 その3

2012年03月30日 04時18分16秒 | Weblog
SandyBridge-EP マシンは 16 コアにも関わらず、相当速いという印象を受ける。このマシンも Hyper-Threading で動作するので 32 スレッドでの動作も確認してみる予定。

問題名 : H2O.1A1.DZ.pqgt1t2p.dat-s


○ Westmere-EX マシン(80 コア)
○ELEMENTS : 84545.76秒
○CHOLESKY : 1855.99秒
○全体:87535.40秒

○ Westmere-EX マシン(40 コア)
○ELEMENTS : 95527.87秒
○CHOLESKY : 2007.12秒
○全体:98709.07秒

○ SandyBridge-EP マシン(16 コア)
○ELEMENTS : 188014.74秒
○CHOLESKY : 1200.30秒
○全体:189856.20秒

◯Westmere-EX マシン:Intel Xeon Westmere-EX 40 コアマシン
CPU Intel Xeon E7-4870 2.40GHz 30M L3 cache x 4
Memory ACTICA DDR3 1333 ECC REG 512GB( 16GB x 32)
HDD 3.5" Enterprize 1TB SATA HDD x 4 : RAID5構成
VGA GLADIAC GTX 580 1.5GB
Supermicro 4 way 4U Tower Server
1400W redundant 電源
OS : CentOS 6.2

◯SandyBridge-EP マシン:Intel Xeon E5-2690 2.90GHz 8 Core 20M L3 cache x 2
CPU Fan INTEL 純正水冷クーラー x 2
Memory DDR 3 1600 ECC REG 256GB (16GB x 16)
SSD 120GB SSD(起動・OS用)
HDD Enterprize 1TB SATA HDD
DVD DVD-RAM
GPGPU NVIDIA GeForce 580搭載 3GB Memory
電源 850W 以上の80PLUS 高効率電源
OS : CentOS 6.2
コメント

Westmere-EX マシンと H2O 問題 その2

2012年03月29日 00時40分05秒 | Weblog
以下の Westmere-EX マシンの CPU は実コア数が 10 だが、 Hyper-Threading(HT) によって 20 コア存在するように見える。HPC 系の多くのアプリでは HT 機能は off にしておく方が良いと言われている。しかし、以下の問題ではコア内部の計算(アドレス計算)等がボトルネックとなるため、HT で少しだけ高速化される現象も出てくる。

問題名 : H2O.1A1.DZ.pqgt1t2p.dat-s


○ Westmere-EX マシン(80 コア)
○ELEMENTS : 84545.76秒
○CHOLESKY : 1855.99秒
○全体:87535.40秒

○ Westmere-EX マシン(40 コア)
○ELEMENTS : 95527.87秒
○CHOLESKY : 2007.12秒
○全体:98709.07秒


◯Westmere-EX マシン:Intel Xeon Westmere-EX 40 コアマシン
CPU Intel Xeon E7-4870 2.40GHz 30M L3 cache x 4
Memory ACTICA DDR3 1333 ECC REG 512GB( 16GB x 32)
HDD 3.5" Enterprize 1TB SATA HDD x 4 : RAID5構成
VGA GLADIAC GTX 580 1.5GB
Supermicro 4 way 4U Tower Server
1400W redundant 電源
OS : CentOS 6.2
コメント

Westmere-EX マシンと H2O 問題

2012年03月28日 01時13分20秒 | Weblog
以下の H2O の問題を Westmere-EX 40 コアマシンでも解いてみた。40 コアというコア数を考慮するとやはり速い。

問題名 : H2O.1A1.DZ.pqgt1t2p.dat-s


○ Westmere-EX マシン(40 コア)
○ELEMENTS : 95527.87秒
○CHOLESKY : 2007.12秒
○全体:98709.07秒

○ 京大 T2K スパコン(2048コア)
○ELEMENTS : 25198.24秒
○CHOLESKY : 284.34秒
○全体:27523.88秒

○ OPT クラスタ(192コア)
○ELEMENTS : 21582.47秒
○CHOLESKY : 370.74秒
○全体:22988.00秒


◯Westmere-EX マシン:Intel Xeon Westmere-EX 40 コアマシン
CPU Intel Xeon E7-4870 2.40GHz 30M L3 cache x 4
Memory ACTICA DDR3 1333 ECC REG 512GB( 16GB x 32)
HDD 3.5" Enterprize 1TB SATA HDD x 4 : RAID5構成
VGA GLADIAC GTX 580 1.5GB
Supermicro 4 way 4U Tower Server
1400W redundant 電源
OS : CentOS 6.2

○ OPT クラスタ
1:PowerEdge M1000e(ブレードエンクロージャー) x 1台
2:PowerEdge M710HD(ブレードサーバ) x 16台
ブレードサーバの仕様:
CPU : インテル(R) Xeon(R) プロセッサー X5670(2.93GHz、12MB キャッシュ、6.4 GT/s QPI) x 2個
メモリ: 128GB (16X8GB/2R/1333MHz/DDR3 RDIMM/CPUx2)
Disk : 73GB x 2(1台のみ 300GB x 2)
NIC : GbE x 1 & Inifiniband QDR(40Gbps) x 1
OS : CentOS 5.6 for x86_64

○ 京大 T2K スパコン
128 Nodes, 512 CPUs, 2048 CPU cores; (今回使用した分のみ)
CPU : AMD Opteron 8356 2.3GHz (quad cores) x 4 / node
Memory 32GB / node
NIC : GbE x 2 and Infiniband x 4 / node
OS : RHEL 4.x for x86_64
コメント

SandyBridge-EP 16 コアマシンでの SDPA

2012年03月27日 00時08分03秒 | Weblog
SandyBridge-EP 16 コアマシンでの SDPA 7.4.0 の性能比較を行った。SandyBridge-EP 用の GotoBLAS が無いので、SandyBridge 用の GotoBLAS を使用する。比較相手は Intel MKL 10.3-9 である。

◯問題 theta6.dat-s
GotoBLAS2 : 8.41s
Intel MKL : 6.49s

◯問題 nug12_r2.dat-s
GotoBLAS2 : 111.33s
Intel MKL : 66.81s

◯問題 D512.dat
GotoBLAS2 : 132.85s
Intel MKL : 116.06s

◯サーバ:Intel Xeon E5-2690 2.90GHz 8 Core 20M L3 cache x 2
CPU Fan INTEL 純正水冷クーラー x 2
Memory DDR 3 1600 ECC REG 256GB (16GB x 16)
SSD 120GB SSD(起動・OS用)
HDD Enterprize 1TB SATA HDD
DVD DVD-RAM
GPGPU NVIDIA GeForce 580搭載 3GB Memory
電源 850W 以上の80PLUS 高効率電源
OS : CentOS 6.2
コメント

TSUBAME 2.0 と SDPA, SDPARA その17

2012年03月26日 01時26分08秒 | Weblog
TSUBAME 2.0 での Cholesky 分解の結果(1回分)についての前回の補足。実際には Cholesky 分解の処理だけでなく他の処理も内点法の1反復に含まれるので、1反復の計算時間は約 4620 秒となっている。最適解を得るためには 30 回程度反復を繰り返す必要があるが、1 反復には CHolesky 分解などの線形方程式系の計算を含むため、結局 Linpack 測定を 30 回連続行うことに近い負荷がシステム全体にかかることになる。

◯ 使用計算資源: 1260 GPU (420 ノード, 840 CPU)
◯ 行列サイズ: 1218400 x 1218400
◯ 理論計算量: 6.0291e+17 FLOP
◯ 計算時間: 3763.83 秒(Cholesky のみ)
◯ 計算性能: 1.6019e+14 FLOPS = 約 160 TFLOPS



◯東工大 TSUBAME 2.0
HP Proliant SL390s G7 1408台
HP Proliant SL390s G7
CPU: Intel Xeon 2.93GHz 6コア×2ソケット = 12コア(Hyperthreading時 = 24コア)
GPU: NVIDIA Tesla M2050 3GPU
Memory: 54GB (一部は96GB)
SSD: 120GB (一部は240GB)
ネットワーク: QDR InfiniBand x 2 = 80Gbps

◯1ノードあたりの性能(倍精度)
CPU 140GF(2.93GHz) + GPU 1545GF = 1685GF
CPU 153GF(3.2GHz : TB) + GPU 1545GF = 1698GF
コメント

第133回ハイパフォーマンスコンピューティング研究発表会

2012年03月25日 03時10分34秒 | Weblog
以下の第133回ハイパフォーマンスコンピューティング研究発表会ですが、個人的には26日は別の用事があるために27日のみの参加となります。

◆第133回 ハイパフォーマンスコンピューティング研究発表会

■議題:一般
■日時:2012年3月26日(月)~2012年3月27日(火)
■場所:有馬ビューホテルうらら

3 月 26 日
09:00 - 10:40 4 性能解析・モデリング
10:50 - 12:30 4 システム評価
13:30 - 15:10 4 プログラミングモデルと処理系
15:20 - 17:00 4 通信ライブラリ
17:10 - 18:50 4 ストレージ・クラウド

3 月 27 日
09:00 - 10:40 4 数値計算
10:50 - 12:30 4 四倍精度・多倍長
13:30 - 14:45 3 共役勾配法
14:55 - 16:10 3 カーネルチューニング
16:20 - 18:00 4 アプリチューニング
コメント

シンポジウム「数理最適化の40年と今後の展開」

2012年03月24日 01時33分09秒 | Weblog
以下のシンポジウムの開催が本日となりました。懇親会の参加はすでに締め切っておりますが、シンポジウムの参加は事前登録無しで可能です。

シンポジウム「数理最適化の40年と今後の展開」
日時 2012年3月24日(土) 10:30-17:00
   シンポジウム終了後に懇親会 (18:00-20:00) を予定しております。
場所 東京工業大学 大岡山キャンパス
地図  http://www.titech.ac.jp/about/campus/o_map.html?id=03
シンポジウム会場 西9号館3階W933(上記地図の28の建物です)
   懇親会会場 百年記念館4階角笛(上記地図の9の建物です)
コメント

第1回 Graph CREST シンポジウム:最終更新

2012年03月23日 00時26分09秒 | Weblog
いよいよ Graph CREST シンポジウムは本日開催となりました。皆様の参加をお待ちしております。

Title: The First Workshop on Computational Aspects of Solving Large-scale Optimization Problems
Date: March 23, 2012
Place: Room 6301, 6th building, 3rd floor, Korakuen Campus, Chuo University
http://global.chuo-u.ac.jp/english/visit/index.php
http://global.chuo-u.ac.jp/english/visit/korakuen.php


◯9:45 - 10:00 Katsuki Fujisawa (Chuo University)
Title: Introduction : CREST project and Workshops on Computational Aspects for Solving Large Scale Optimization Problems

◯10:00 - 10:30 Toyotaro Suzumura (Tokyo Institute of Technology)
Title: Performance Evaluation of Graph500 on Large-Scale Distributed Environment

◯10:30 - 11:00 Hans Mittelmann (Arizona State University, USA)
Title: Benchmarks for Optimization Software

Abstract: Under the title "Benchmarks for Optimization Software" we maintain extensive
evaluations of a large selection of optimization software. In this talk we
will report on the benchmarks in discrete optimization including those
based on MIPLIB 2010 as well as selected ones in continuous optimization.

[1] Benchmarks for Optimization Software, http://plato.asu.edu/bench.html
[2] MIPLIB 2010, http://miplib.zib.de, Math Prog Comp 3, 103-163 (2011)

◯11:00 - 11:15 Break

◯11:15 - 11:45 Toh Kim Chuan (National University of Singapore)
Title: Computational experience in solving large scale semidefinite programming.


Abstract: In this talk, we will report our computational experience
in solving large scale semidefinite programming based on two classes of methods.
The first class consists of inexact primal-dual interior-point methods for which
the linear system in each iteration is solved by a preconditioned Krylov subspace method.
The second class are nonlinear programming based
methods such as proximal-point method, alternating direction method of multiplier,
inexact accelerated proximal gradient method.
We will discuss the merits of the two classes of methods and present some
computational results.

◯11:45 - 12:15 Yasuaki Matsukawa and *Akiko Yoshise (University of Tsukuba)
Title: A Primal Barrier Function Phase I Algorithm for Nonsymmetric Conic Optimization Problems

Abstract: We call a positive semidefinite matrix whose elements are nonnegative a
{\em doubly nonnegative matrix}, and the set of those matrices the {\em
doubly nonnegative cone} (DNN cone).
The DNN cone is not symmetric but can be represented as the projection of
a symmetric cone embedded in a higher dimension.
In a previous paper, the authors demonstrated the efficiency of the DNN
relaxation using the symmetric cone representation of the DNN cone.
They showed that the DNN relaxation gives significantly tight bounds for a
class of quadratic assignment problems, but the computational time is not
affordable as long as we employ the symmetric cone representation.
They then suggested a primal barrier function approach for solving the DNN
optimization problem directly, instead of using the symmetric cone
representation.
However, most of existing studies on the primal barrier function approach
assume the availability of a feasible interior point.
This fact means that those studies are not inextricably tied to the
practical usage.
Motivated by these observations, we propose a primal barrier function
Phase I algorithm for solving conic optimization problems over the closed
convex cone $K$ having the following properties:
(a) $K$ is not necessarily symmetric, (b) a self-concordant function $f$
is defined over $\inter K$, and (c) its dual cone $K^*$ is not explicit or
is intractable, all of which are observed when $K$ is the DNN cone.
We analyze the algorithm and provide a sufficient condition for finite
termination.

◯12:15 - 13:30 Lunch

◯13:30 - 15:00 Tutorial Session 1
◎Timo Berthold (Zuse Institute Berlin, Germany)
Title: What is Linear and Mixed Integer Programming(LP/MIP)

Abstract: Linear programming (LP) means the optimization of a linear function
subject to a set of linear constraints. In mixed-integer programming
(MIP), additionally, some of the variables are required to take integer
values. Linear and mixed-integer programming are two of the most essential
techniques in theory and practice of mathematical optimization.
Nowadays, linear programs with hundreds of thousands of variables and
constraints can be solved efficiently. Although this is not generally true
for mixed-integer programming - which is NP-hard -, state-of-the-art
software often is able to solve large, practically relevant problems.
This talk is supposed to be an introduction to the computational aspects
of LP and MIP. We present three commonly used algorithms to solve
large-scale, practically relevant problems of these types: the simplex algorithm for
LPs, the general cutting plane method and the branch-and-bound algorithm
for IPs. We discuss some of their pitfalls and ruses and showcase a few
algorithmic enhancements the today's MIP solvers are equipped with.

◎Ambros Gleixner and Stefan Heinz (Zuse Institute Berlin, Germany)
Title: First steps with Zimpl and SCIP

Abstract: In this tutorial, we demonstrate the usage of the modeling language Zimpl
and the mixed integer programming solver SCIP. We show how to model two
different formulations for the well-known binpacking problem and discuss
their limitations. Feeding them into SCIP we compare their computational
performance within a standalone branch-and-cut solver.
Zimpl is an algebraic modeling language featuring exact arithmetic. SCIP is
branch-cut-and-price framework targeted towards the need of researchers. It
allows total control of the solution process and the access of detailed
information down to the guts of the solver. Both tools are part of the ZIB
Optimization Suite (http://zibopt.zib.de), which is free for academic use
and available in source code.

◎Stefan Heinz (Zuse Institute Berlin, Germany)
Title: Using SCIP as a branch-and-price framework

Abstract: Column generation is a technique to handle large-scale linear programs
efficiently. In practice, it is widely used to solve real world problems
within a branch-and-price approach. Examples are rolling stock roster
planning, duty scheduling, and vehicle scheduling.
In this talk we are focusing on the branch-and-price feature of SCIP. We
illustrate using the steel mill slab problem, how the framework SCIP is
easily customized for all needs of branch-and-price approach.
We first present the basic idea of column generation and
branch-and-price. Second, we show step-by-step, how the framework SCIP can
be applied as a branch-and-price framework. Finally, we discuss some
pitfalls of the branch-and-price method which are easily avoidable within
the SCIP framework.

◯15:30 - 15:45 Break

◯15:45 - 16:45 Tutorial Session 2
◎ Ambros Gleixner (Zuse Institute Berlin, Germany)
Title: Improving the accuracy of LP solvers

Abstract: We describe an iterative refinement procedure for computing extended precision or exact solutions
to linear programming problems (LPs). Arbitrarily precise solutions can be computed by solving a
sequence of closely related LPs with limited precision arithmetic. The LPs solved at iterations of
this algorithm share the same constraint matrix as the original problem instance and are transformed
only by modification of the objective function, right-hand side, and variable bounds.
Exact computation is used to compute and store the exact representation of the transformed
problems, while numeric computation is used for computing approximate LP solutions and applying
iterations of the simplex algorithm. At all steps of the algorithm the LP bases encountered in the
transformed problems correspond directly to LP bases in the original problem description.
We demonstrate that this algorithm is effective in practice for computing extended precision
solutions and that this leads to direct improvement of the best known methods for solving LPs
exactly over the rational numbers. A proof-of-concept implementation is done within the SoPlex LP
solver.

◎ Timo Berthold (Zuse Institute Berlin, Germany)
Title: Primal Heuristics for MIP

Abstract: In modern MIP-solvers like the state-of-the-art
branch-cut-and-price-framework SCIP, primal heuristics play a major role
in finding and improving feasible solutions at the early steps of the
solution process.
Primal heuristics in SCIP can be categorized in three groups:
* rounding and propagation heuristics
* diving and objective diving heuristics
* large neighborhood search heuristics
We give examples for each of these classes, concentrating on recently
propsed algorithms. Further, we discuss the question of how the quality of
a primal heuristic should be evaluated and introduce a new a new
performance measure, the "primal integral". It assess the impact of these
primal heuristics on the ability to find feasible solutions, in
particular early during search. Finally, we discuss some computational results.

◯16:45 - 17:00 Break

◯17:00 - 17:30 Domenico Salvagnin (University of Padova, Italy)
Title: Three ideas for the Quadratic Assignment Problem

Abstract: We address the exact solution of the famous esc instances of the quadratic assignment problem. These
are extremely hard instances that remained unsolved―even allowing for a tremendous computing
power―by using all previous techniques from the literature. During this challenging task we found
that three ideas were particularly useful, and qualified as a breakthrough for our approach. The
present talk is about describing these ideas and their impact in solving esc instances. Our method
was able to solve, in a matter of seconds or minutes on a single PC, all easy cases (all esc16* plus
esc32e and esc32g). The three very hard instances esc32c, esc32d and esc64a were solved in less than
half an hour, in total, on a single PC. We also report the solution, in about 5 hours, of tai64c. By
using a facility-flow splitting procedure, we were also able to solve to proven optimality, for the
first time, esc32h (in about 2 hours) as well as “the big fish” esc128 (to our great surprise, the
solution of the latter required just a few seconds on a single PC).

◯17:30 - 18:00 *Shunji Umetani (Osaka University), Masanao Arakawa (Fujitsu Limited) and Mutsunori Yagiura (Nagoya University)
Title: A heuristic algorithm for the set multicover problem with generalized upper bound constraints

Abstract: The set covering problem (SCP) is one of representative combinatorial
optimization problem, which has many practical applications, e.g.,
crew scheduling, vehicle routing, facility location and data analysis.
In this talk, we consider an extension of SCP introducing (i)
multicover and (ii) generalized upper bound (GUB) constraints, which
substantially extend the variety of its applications.
For the conventional SCP, it has been known that relaxed problems
give us a good device called the pricing method to reduce the number of
variables, and several efficient heuristic algorithms utilizing this
idea have been developed to solve very large-scale instances with up
to 5000 constraints and 1,000,000 variables.
However, GUB constraints often make the standard pricing method less
effective, because they prevent solutions from having highly evaluated
variables simultaneously.
To overcome this, we develop a hybrid approach of metaheuristics and
the pricing method, in which we propose an evaluation scheme of
variables based on penalty weights that are adaptively controlled
during the search of metaheuristic algorithm.
Another feature of our algorithm is an efficient implementation of
local search with the 2-flip neighborhood.
According to computational comparison on benchmark instances with the
latest MIP solvers, our algorithm performs quite efficiently for
various types of problem instances, especially for very large-scale
instances.
コメント

Westmere-EX 40コア v.s. SandyBrige-EP 16 コア

2012年03月22日 00時05分59秒 | Weblog
コア数が 40 と 16 で全く異なるので、比較にどれだけの意味があるのかわからないが、Westmere-EX 40コアマシン(サーバ1)と SandyBrige-EP 16 コアマシン(サーバ2)の両者を MIP ソルバー(Gurobi と CPLEX)を用いて性能比較を行ってみた。両者には意外と差がないというか、問題によっては SandyBridge-EP の方が速いこともある。

◎問題 gmu-35-40.mps (MIPLIB2010) 最適解 -2.4065401670e+06
◯サーバ1:Westmere-EX 40コア
Gurobi 4.6.1 : 43.55秒
CPLEX 12.4 : 21.22秒
◯サーバ2:SandyBrige-EP 16 コア
Gurobi 4.6.1 : 21.44秒
CPLEX 12.4 : 22.06秒

○問題 S-20-20-2-3.mps(ロットサイズ決定問題): 最適解 337697
◯サーバ1:Westmere-EX 40コア
Gurobi 4.6.1 : 43.25秒
CPLEX 12.4 : 51.05秒
◯サーバ2:SandyBrige-EP 16 コア
Gurobi 4.6.1 : 34.45秒
CPLEX 12.4 : 57.66秒

○問題 gmpl-10-0.2.mps (仮想マシンマイグレーション問題):最適解 155
◯サーバ1:Westmere-EX 40コア
Gurobi 4.6.1 : 141.85秒
CPLEX 12.4 : 272.83秒
◯サーバ2:SandyBrige-EP 16 コア
Gurobi 4.6.1 : 165.73秒
CPLEX 12.4 : 253.12秒

○問題 roll3000.mps (MIPLIB2003) : 最適解 12890
◯サーバ1:Westmere-EX 40コア
Gurobi 4.6.1 : 18.21秒
CPLEX 12.4 : 23.92秒
◯サーバ2:SandyBrige-EP 16 コア
Gurobi 4.6.1 : 32.91秒
CPLEX 12.4 : 31.61秒

◯サーバ1:Intel Xeon Westmere-EX 40 コアマシン
CPU Intel Xeon E7-4870 2.40GHz 30M L3 cache x 4
Memory ACTICA DDR3 1333 ECC REG 512GB( 16GB x 32)
HDD 3.5" Enterprize 1TB SATA HDD x 4 : RAID5構成
VGA GLADIAC GTX 580 1.5GB
Supermicro 4 way 4U Tower Server
1400W redundant 電源
OS : CentOS 6.2

◯サーバ2:Intel Xeon E5-2690 2.90GHz 8 Core 20M L3 cache x 2
CPU Fan INTEL 純正水冷クーラー x 2
Memory DDR 3 1600 ECC REG 256GB (16GB x 16)
SSD 120GB SSD(起動・OS用)
HDD Enterprize 1TB SATA HDD
DVD DVD-RAM
GPGPU NVIDIA GeForce 580搭載 3GB Memory
電源 850W 以上の80PLUS 高効率電源
OS : CentOS 6.2
コメント

TSUBAME 2.0 と SDPA, SDPARA その16

2012年03月21日 00時12分47秒 | Weblog
TSUBAME 2.0 での Cholesky 分解の結果(1回分)について。実際には Cholesky 分解の処理だけでなく他の処理も内点法の1反復に含まれる。

◯ 使用計算資源: 1260 GPU (420 ノード, 840 CPU)
◯ 行列サイズ: 1218400 x 1218400
◯ 理論計算量: 6.0291e+17 FLOP
◯ 計算時間: 3763.83 秒
◯ 計算性能: 1.6019e+14 FLOPS = 約 160 TFLOPS



◯東工大 TSUBAME 2.0
HP Proliant SL390s G7 1408台
HP Proliant SL390s G7
CPU: Intel Xeon 2.93GHz 6コア×2ソケット = 12コア(Hyperthreading時 = 24コア)
GPU: NVIDIA Tesla M2050 3GPU
Memory: 54GB (一部は96GB)
SSD: 120GB (一部は240GB)
ネットワーク: QDR InfiniBand x 2 = 80Gbps

◯1ノードあたりの性能(倍精度)
CPU 140GF(2.93GHz) + GPU 1545GF = 1685GF
CPU 153GF(3.2GHz : TB) + GPU 1545GF = 1698GF
コメント

TSUBAME 2.0 と SDPA, SDPARA その15

2012年03月20日 00時17分20秒 | Weblog
以下のように、さらに幾つかの改良を追加した。現在、TSUBAME 2.0 (420 ノード, 840 CPU, 1260 GPU) で大規模計算中である。

◯ ライブラリも含めた ILP64 完全対応
◯ Schur Complement Matrix(SCM)の生成時におけるメモリ使用量の大幅な減少
  副作用として SCM の生成時間の増加
◯ GPU による SCM の Cholesky 分解の高速化、及び計算と通信のオーバーラップ化
◯ 計算量推定関数の並列化
◯ 各ノードでのデータ生成の高速化と通信量の削減
◯ チェックポイント機能の強化

◯東工大 TSUBAME 2.0
HP Proliant SL390s G7 1408台
HP Proliant SL390s G7
CPU: Intel Xeon 2.93GHz 6コア×2ソケット = 12コア(Hyperthreading時 = 24コア)
GPU: NVIDIA Tesla M2050 3GPU
Memory: 54GB (一部は96GB)
SSD: 120GB (一部は240GB)
ネットワーク: QDR InfiniBand x 2 = 80Gbps

◯1ノードあたりの性能(倍精度)
CPU 140GF(2.93GHz) + GPU 1545GF = 1685GF
CPU 153GF(3.2GHz : TB) + GPU 1545GF = 1698G
コメント

TSUBAME 2.0 と SDPA, SDPARA その14

2012年03月19日 00時02分34秒 | Weblog
TSUBAME 2.0 で大規模投入用のバイナリがほぼ完成した(7.5.0RC2)。以下のように速度は同じくらいだが、メモリ使用量が半分程度になっている。さらに GPU 搭載マシンでは Cholesky 分解の部分も数倍程度に高速化される。

◯問題 tai18a.dat-s
◯SDPARA 7.4.0 : 1448.10s (メモリ 2.2GB/node)
◯SDPARA 7.5.0RC2 : 1438.17s (メモリ 1.1GB/node)

○ OPT クラスタ
1:PowerEdge M1000e(ブレードエンクロージャー) x 1台
2:PowerEdge M710HD(ブレードサーバ) x 16台
ブレードサーバの仕様:
CPU : インテル(R) Xeon(R) プロセッサー X5670(2.93GHz、12MB キャッシュ、6.4 GT/s QPI) x 2個
メモリ: 128GB (16X8GB/2R/1333MHz/DDR3 RDIMM/CPUx2)
Disk : 73GB x 2(1台のみ 300GB x 2)
NIC : GbE x 1 & Inifiniband QDR(40Gbps) x 1
OS : CentOS 5.8
コメント

TSUBAME 2.0 と SDPA, SDPARA その13

2012年03月18日 02時18分02秒 | Weblog
昨日の続きだが、OPTクラスタで残りの反復を解いて tai30a.dat-s の実行が終了した。結果や最適解は以下の通り。

SDPA start at [Sat Mar 17 02:13:48 2012]
param is param.sdpa
data is /home/fujisawa/data/QAP/sdpaDats/tai30a.dat-s : sparse
init is sdpara.init : dense
out is out.tai30a.new.1
NumNodes is set as 16
NumThreads is set as 12
Schur computation : DENSE
mu thetaP thetaD objP objD alphaP alphaD beta
0 1.0e-10 6.1e-10 1.6e-12 +7.68e-01 +7.68e-01 7.2e-01 6.4e-01 1.00e-01
1 4.1e-11 6.1e-10 1.3e-12 +7.68e-01 +7.68e-01 3.7e-01 3.9e-01 1.00e-01
2 2.7e-11 6.1e-10 1.7e-12 +7.68e-01 +7.68e-01 3.7e-01 3.9e-01 1.00e-01

phase.value = pdOPT
Iteration = 2
mu = +2.6913706244321440e-11
relative gap = +2.3314683517128287e-15
gap = -2.3314683517128287e-15
digits = +1.4517488664107686e+01
objValPrimal = +7.6757034709425243e-01
objValDual = +7.6757034709425476e-01
p.feas.error = +6.1755702214103371e-08
d.feas.error = +1.6964332316512850e-10
total time = 27933.224124
main loop time = 27918.027919
total time = 27933.224124
file check time = 0.000000
file change time = 0.014087
file read time = 15.182118
SDPA end at [Sat Mar 17 10:44:00 2012]
ALL TIME = 30612.099358


◯QAPLIB (tai30a.dat-s) の DNN 緩和問題
mDIM = 379350
nBLOCK = 2
bLOCKsTRUCT = -485758 842

○ OPT クラスタ
1:PowerEdge M1000e(ブレードエンクロージャー) x 1台
2:PowerEdge M710HD(ブレードサーバ) x 16台
ブレードサーバの仕様:
CPU : インテル(R) Xeon(R) プロセッサー X5670(2.93GHz、12MB キャッシュ、6.4 GT/s QPI) x 2個
メモリ: 128GB (16X8GB/2R/1333MHz/DDR3 RDIMM/CPUx2)
Disk : 73GB x 2(1台のみ 300GB x 2)
NIC : GbE x 1 & Inifiniband QDR(40Gbps) x 1
OS : CentOS 5.8
コメント

TSUBAME 2.0 と SDPA, SDPARA その12

2012年03月17日 02時07分56秒 | Weblog
2月に TSUBAME 2.0 の 410 ノードで解いた以下の問題だが SDPARA 改良の結果、16 ノードの OPT クラスタでも計算が出来るようになった。総メモリ量は 68Gbytes x 16 ノードとなっている。

◯QAPLIB (tai30a.dat-s) の DNN 緩和問題
mDIM = 379350
nBLOCK = 2
bLOCKsTRUCT = -485758 842

○ OPT クラスタ
1:PowerEdge M1000e(ブレードエンクロージャー) x 1台
2:PowerEdge M710HD(ブレードサーバ) x 16台
ブレードサーバの仕様:
CPU : インテル(R) Xeon(R) プロセッサー X5670(2.93GHz、12MB キャッシュ、6.4 GT/s QPI) x 2個
メモリ: 128GB (16X8GB/2R/1333MHz/DDR3 RDIMM/CPUx2)
Disk : 73GB x 2(1台のみ 300GB x 2)
NIC : GbE x 1 & Inifiniband QDR(40Gbps) x 1
OS : CentOS 5.8
コメント