2012年7月のブログ記事一覧-最適化問題に対する超高速＆安定計算

2012年第1回ＯＲセミナー

2012年07月31日 01時11分12秒 | Weblog

すでにOR学会のメーリングリストに流れておりますが、以下のように今年も（３年連続）ORセミナーを担当することになりました。現在、セミナーの準備を進めております。

--------------------------------------------------
2012年第1回ＯＲセミナー『Excelで学ぶOR』のご案内

開催趣旨：
基礎からOR を学びたい受講者を対象とする。Excel を用いて実際にデータを入力して、
ソルバーを用いて問題を解くことによって、ORの基本(モデリングや定式化)から様々な応用分野を
具体的な問題例を通じて学習することを目的とする。
参加者は予めExcel(2003以降可、2010推奨)をインストールしたノートパソコンを持参することによって
講義及び演習形式でセミナーを行っていく。

日時： 2012年9月21日（金）　10:00～17:40
会場： (株)構造計画研究所本所新館
（地下１階レクチャールーム）　
〒164-0011　東京都中野区中央4-5-3
Tel.03(5342)1065
≪交通≫　東京メトロ丸の内線「新中野」駅 1番出口徒歩約1分
≪地図のURL≫ http://www.kke.co.jp/corporate/profile/map/tokyo.html

コーディネーター、司会： (株)構造計画研究所　斉藤努

プログラム：（敬称略）
10：00～10：05　開会挨拶

10：05～12：05
講演１（途中休憩あり）
題目：「基本編(モデリングと定式化及び Excel ソルバーの使い方)」
講師：中央大学藤澤克樹
概要：ORの基本ツールである数理計画問題を使うためのモデリングや定式化の方法を学習する。
さらに代表的な数理計画問題やシミュレーションの紹介を行い、Excel ソルバーを用いて実際に
これらの例題を解きながら問題解決の方法も同時に学習していく。

12:05～13:15 昼休み

13:15～15:15　講演２（途中休憩あり）
題目：「応用編１(不確実性下の意思決定と評価のための方法論)」
講師：中央大学後藤順哉
概要：前半ではExcelソルバーの応用として、２次計画として記述されるポートフォリオ最適化問題を
中心に学習する。後半ではLPを用いた評価法として知られるDEA(包絡分析法)について学習する。

15:30～17:30　講演３（途中休憩あり）
題目：「応用編２(都市・交通のデザインと計画・運用のための最適化手法)」
講師：中央大学吉良知文
概要：前半は交通網のデザインやソーシャルネットワークの解析など様々な応用をもつ最短路問題と
最大流問題を中心に、後半はExcelソルバーを用いながら乗務員の最適な割り当てや顧客への商品の
配送などに用いられる「効率よいスケジュール」を作成する手法を学習する。

17:30～17:40　まとめ

*詳しくは、OR学会WEB
http://www.orsj.or.jp/activity/seminar.html をご覧ください。

テキスト：当日会場にて配布　

参加費（テキスト代込み）：
正・賛助会員（協賛学会員を含む）10,000円，
学生会員 2,000円，
非会員 20,000円
たくさんの方に参加して頂けるように参加費を下げております。
是非、ご参加ください。

申込先：日本OR学会事務局　 E-mail: jimukyoku@orsj.or.jp　
(お名前、ご所属先、正会員/学生会員/賛助会員/協賛学会員/非会員、お支払予定日を記入して
メールにてお申込みください。）

申込締切：2012年9月14日（金）

協賛学会（交渉予定)：情報処理学会、経営情報学会、電子情報通信学会、日本経営工学会
定員：50名.定員になり次第締め切らせていただきます。

第7回戦略的高性能計算システム開発に関するワークショップ：

2012年07月30日 00時54分26秒 | Weblog

第7回戦略的高性能計算システム開発に関するワークショップが 7月31日に鳥取市で開催されます。将来の HPCI システムに関する調査研究に関する公募で以下の４件が採択されて、今後の調査研究の目標や進め方等について話し合うそうですが、関係者では無いので詳細は何も知りません（噂だけ）。知らないので調査研究の調査のため、私も参加する予定です。

日時： 2012年7月31日 (火) 9:00～18:00（予定）
会場：とりぎん文化会館　第1会議室
http://cms.sanin.jp/p/torikenmin/10/
参加登録事前登録は締め切りました（7月23日（月）正午まで）

概要：
文部科学省「将来のHPCIシステムに関する調査研究」に関する公募があり、本年6月15日づけで、アプリケーションチーム1件、アーキテクチャチーム3件が採択された。採択された機関から調査研究の目標および進め方の紹介をいただき、皆様と今後の高性能計算システム開発について議論をしていきます。。

アーキテクチャチーム１：「高バンド幅アプリケーションに適した将来のHPCIシステムのあり方に関する調査研究」
アーキテクチャチーム２：「演算加速機構を持つ将来のHPCIシステムのあり方に関する調査研究」
アーキテクチャチーム３：「レイテンシコアの高度化・高効率化による将来のHPCIシステムに関する調査研究」
アプリケーションチーム：「アプリケーション分野からみた将来のHPCIシステムのあり方の調査研究」

SDPARA 7.5.0-G と対応GPU

2012年07月29日 01時59分51秒 | Weblog

各 GPU についての Compute Capability の一覧表はこちら。
SDPARA の最新版 7.5.0-G については、現在の実装では以下の GPU のように Tesla での実行にのみ対応している。ただし C1060 でも動作するように Fermi 世代のコアでなくても(つまり Compute Capability のメジャーバージョンが 1 でも）動作する。ただし、C1060 では倍精度演算性能の不足によって、CPU のみの実行速度に劣る。

確認済み動作環境
◯Tesla C2075
◯Tesla M2050
◯Tesla C1060

確認済み非動作環境
◯GeForce GTX 580
◯GeForce GTX 460 と 480
◯GeForce GT 520

CUDA ディベロッパー入門キット

2012年07月28日 14時51分56秒 | Weblog

２６日開催の GTC Japan 2012 でポスターセッションに参加したので、以下のCUDA ディベロッパー入門キットを頂いた。

同封のビデオカードは GeForce GTX 480 となっている。SDPARA の最新版 7.5.0-G は、Telsa 系でないと動作しないので、こちらの開発と実行は以下の Tesla C2075 x 4 マシンで実行を行っている。こちらのクラスタは４台(GPU は 16枚）に拡張予定。

Graph500 と TEPS/kW

2012年07月27日 02時22分43秒 | Weblog

Cenvey 社 Graph500 White Paper が公開されている。

◯Big Data とGraph500 や今後要求＆想定されるアーキテクチャについての記述。自社技術の省電力性を強調して、今後の Green Graph500 に意欲。

◯我々は今回の１ノード版の Hybrid 探索も実装。性能は以下の通りで Scale25 くらいが最速になる。このときの Green Graph500 測定値。ちなみに現在の実装では5GTEPS / kW となっている。

◯ Green Graph500 提出に向けての電力測定：
　

SDPA と様々な BLAS その８

2012年07月26日 00時23分51秒 | Weblog

以下の Westmere-EX 上で GotoBLAS2 と OpenBLAS の性能を比較してみました。意外と問題や環境によって大きな差が付いてます。

○問題１：theta6.dat-s
1: gcc 4.4.6
SDPA 7.4.0 + OpenBLAS 0.2.2 : 9.50秒
SDPA 7.4.0 + GotoBLAS2 1.13 : 10.87秒
2: Intel Compiler 12.1.5
SDPA 7.4.0 + OpenBLAS 0.2.2 : 9.65秒
SDPA 7.4.0 + GotoBLAS2 1.13 : 12.27秒

○問題２：FH2+.1A1.STO6G.pqgt1t2p.dat-s
1: gcc 4.4.6
SDPA 7.4.0 + OpenBLAS 0.2.2 : 41.80秒
SDPA 7.4.0 + GotoBLAS2 1.13 : 31.23秒
2: Intel Compiler 12.1.5
SDPA 7.4.0 + OpenBLAS 0.2.2 : 42.17秒
SDPA 7.4.0 + GotoBLAS2 1.13 : 33.62秒

○問題３：nug12_r2.dat-s
1: gcc 4.4.6
SDPA 7.4.0 + OpenBLAS 0.2.2 : 66.88秒
SDPA 7.4.0 + GotoBLAS2 1.13 : 101.30秒
2: Intel Compiler 12.1.5
SDPA 7.4.0 + OpenBLAS 0.2.2 : 95.78秒
SDPA 7.4.0 + GotoBLAS2 1.13 : 112.48秒

◯サーバ：Intel Xeon Westmere-EX 40 コアマシン
CPU Intel Xeon E7-4870 2.40GHz 30M L3 cache x 4
Memory ACTICA DDR3 1333 ECC REG 512GB( 16GB x 32)
HDD 3.5" Enterprize 1TB SATA HDD x 4 : RAID5構成
VGA GLADIAC GTX 580 1.5GB
Supermicro 4 way 4U Tower Server
1400W redundant 電源
OS : CentOS 6.3

GTC Japan 2012 : ポスター発表：情報更新

2012年07月25日 03時10分39秒 | Weblog

開催が２６日と迫った GTC Japan 2012 ですが、ポスター発表の最新内容は以下の通りです。

Advanced Computing & Optimization Infrastructure for Extremely Large-Scale Graphs on Post Peta-Scale Supercomputers

◯ Graph500 on TSUBAME 2.0
◯ Actor/GPU: Bringing Flexibility and Simplicity to GPGPU
◯ A Multi GPU Implementation of Generalized Graph Processing Algorithm GIM-V with Data Transfer
◯ High-Performance General Solver for Extremely Large-scale Semidefinite Programming Problems

タイトル: GTC Japan 2012
主催: エヌビディアジャパン
会期: 2012年7月26日(木）10：00開場(9：30～受付)
申込: 無料 (※Webサイトからの事前登録制)
会場: 東京ミッドタウンホール＆カンファレンス (六本木)

eComStation2

2012年07月24日 01時32分55秒 | Weblog

◯ Runs your OS/2 applications up to 10 times faster
Due to its improved filesystem eCS2 runs your applications up to 10 times faster than OS/2 Warp.

というわけで OS/2 のアプリを現在の環境で動作させるための OS : eComStation2 が現在も発売されています。OS/2 アプリを動作させている企業は現在でも多いようなので、ビジネス的にもこれらの需要はあります(今でも見かけます）。ちなみに今年で OS/2 v1.0 が登場してから２５年になります。個人的には 1989 年に IBM PS/55 (CPU 80386 20MHz, メモリ 16MB) という当時のハイエンドマシンで OS/2 v1.1 with PM (プレゼンテーションマネージャー)を使ってました。DOS モードに移行するときに CPU がリアルモードに変わり、DOS 上でアプリが暴走すると OS/2 本体も終わりというスリル満点の OS。反対にリアルモードからプロテクトモードに戻る命令が 80286 に無かったので、一回リセット命令が発行されるという派手な立ち回りで見ていて大変楽しかったですが、数年すると Windows 3.x に押されてマイナー OS になってました。

SDPA と様々な BLAS その７

2012年07月23日 13時12分05秒 | Weblog

今度は SandyBridge-EP 搭載の計算サーバで OpenBLAS と Intel MKL の性能を比較してみた。一部の問題(BLAS 性能依存の問題)ではかなりの差が付いている。

○問題１：theta6.dat-s
16コア
SDPA 7.4.0 + OpenBLAS 0.2.2 : 5.618秒
SDPA 7.4.0 + Intel MKL 10.3.11-339 : 11.488秒
32コア
SDPA 7.4.0 + OpenBLAS 0.2.2 : 7.641秒
SDPA 7.4.0 + Intel MKL 10.3.11-339 : 11.847秒

○問題２：FH2+.1A1.STO6G.pqgt1t2p.dat-s
16コア
SDPA 7.4.0 + OpenBLAS 0.2.2 : 35.965秒
SDPA 7.4.0 + Intel MKL 10.3.11-339 : 34.844秒
32コア
SDPA 7.4.0 + OpenBLAS 0.2.2 : 40.050秒
SDPA 7.4.0 + Intel MKL 10.3.11-339 : 42.630秒

○問題３：nug12_r2.dat-s
16コア
SDPA 7.4.0 + OpenBLAS 0.2.2 : 58.188秒
SDPA 7.4.0 + Intel MKL 10.3.11-339 : 115.178秒
32コア
SDPA 7.4.0 + OpenBLAS 0.2.2 : 67.745秒
SDPA 7.4.0 + Intel MKL 10.3.11-339 : 128.341秒

◯SandyBridge-EP マシン：Intel Xeon E5-2690 2.90GHz 8 Core 20M L3 cache x 2
CPU Fan INTEL 純正水冷クーラー x 2
Memory DDR 3 1600 ECC REG 256GB (16GB x 16)
SSD 120GB SSD(起動・ＯＳ用)
HDD Enterprize 1TB SATA HDD
DVD DVD-RAM
GPGPU NVIDIA GeForce 580搭載 3GB Memory
電源 850W 以上の80PLUS 高効率電源
OS : CentOS 6.3

SDPA と様々な BLAS その６

2012年07月22日 02時40分22秒 | Weblog

昨日の結果に OpenBLASも加えてみました。OpenBLAS は SandyBridge 対応済みです。

○問題１：theta6.dat-s
SDPA 7.4.0 + GotoBLAS2 for Sandy Bridge : 8.865秒
SDPA 7.4.0 + OpenBLAS 0.2.2 : 8.941秒
SDPA 7.4.0 + Intel MKL 10.3.11-339 : 9.396秒
SDPA 7.4.0 + ATLAS 3.9.72 : 12.768秒

○問題２：FH2+.1A1.STO6G.pqgt1t2p.dat-s
SDPA 7.4.0 + GotoBLAS2 for Sandy Bridge : 100.630秒
SDPA 7.4.0 + OpenBLAS 0.2.2 : 103.686秒
SDPA 7.4.0 + Intel MKL 10.3.11-339 : 106.628秒
SDPA 7.4.0 + ATLAS 3.9.72 : 109.285秒

○問題３：nug12_r2.dat-s
SDPA 7.4.0 + GotoBLAS2 for Sandy Bridge : 110.980秒
SDPA 7.4.0 + OpenBLAS 0.2.2 : 113.575秒
SDPA 7.4.0 + Intel MKL 10.3.11-339 : 124.913秒
SDPA 7.4.0 + ATLAS 3.9.72 : 144.052秒

○計算サーバ (1 CPU x 4 コア = 4 コア)
CPU : Intel Corei7 2600K (3.50GHz / 8MB L3) x 2
Memory : 8GB (4 x 2GB)
OS : Fedora 17 for x86_64

SDPA と様々な BLAS その５

2012年07月21日 03時38分53秒 | Weblog

新しい Intel MKL (10.3.11-339)がリリースされたので、GotoBLAS2, Intel MKL, ATLAS の最新版を用いて比較実験を行った。

○問題１：theta6.dat-s
SDPA 7.4.0 + GotoBLAS2 for Sandy Bridge : 8.865秒
SDPA 7.4.0 + Intel MKL 10.3.11-339 : 9.396秒
SDPA 7.4.0 + ATLAS 3.9.72 : 12.768秒

○問題２：FH2+.1A1.STO6G.pqgt1t2p.dat-s
SDPA 7.4.0 + GotoBLAS2 for Sandy Bridge : 100.630秒
SDPA 7.4.0 + Intel MKL 10.3.11-339 : 106.628秒
SDPA 7.4.0 + ATLAS 3.9.72 : 109.285秒

○問題３：nug12_r2.dat-s
SDPA 7.4.0 + GotoBLAS2 for Sandy Bridge : 110.980秒
SDPA 7.4.0 + Intel MKL 10.3.11-339 : 124.913秒
SDPA 7.4.0 + ATLAS 3.9.72 : 144.052秒

○計算サーバ (1 CPU x 4 コア = 4 コア)
CPU : Intel Corei7 2600K (3.50GHz / 8MB L3) x 2
Memory : 8GB (4 x 2GB)
OS : Fedora 17 for x86_64

Tesla C2070 x 4 枚

2012年07月20日 01時58分17秒 | Weblog

先日も書きましたように、以下の GPU 計算サーバ (Tesla C2070 x 4枚)の購入を検討中です。
現在所有している GPU 計算サーバは C2075 x 4 枚となりますが、それ以外の仕様はほぼ同じです。Infiniband のカードは別に購入したものを追加して設定します。

Case+M/B Supermicro M/B and Case
CPU Xeon X5690 3.46GHz 12M QPI6.40GT LGA1366
CPU Fan 空冷CPUクーラー
Memory ACTICA DDR3 1333 ECC 192GB ( ECC 16GB x 12)
HDD 1TB SATA HDD　RAID5構成
DVD DVD
GPGPU NVIDIA Tesla C2070 6GB GDDR5 SDRAM 6.0GHz
GPU:1.15GHz　CUDAコア448基
単精度：1.03TFLOPS　　倍精度：515GFLOPS
電源高負荷用1400W 専用電源
周辺機器マウス・キーボード
OS Linux

GTC Japan 2012 : テクニカル・セッション　プログラム

2012年07月19日 01時02分56秒 | Weblog

当CRESTチームでは GTC Japan 2012 でのポスター発表だけでなく、テクニカル・セッション　プログラムにおいても以下の Graph500 に関する講演を行います。ちなみにポスター作成の作業はほぼ完成しつつあります。

17:20 - 17:50
Graph500 への挑戦 - GPU を用いた大規模グラフ処理
鈴村　豊太郎（東京工業大学 / IBM 東京基礎研究所）
大規模グラフ処理はWebページのリンク解析, タンパク質間の相互作用解析, 道路網,送電網の最適化など様々な応用分野があり,近年盛んに研究されている．そのような中,スーパーコンピュータのグラフ処理性能を測る Graph500 という新しいベンチマークが登場し，注目を集めている．2012年6月に発表された最新のランキングでは,東京工業大学学術国際情報センターのスーパーコンピュータ TSUBAME 2.0 の1366ノードに搭載される合計4096個の GPUを活用し, 世界4位を獲得した. 大規模に GPU を活用してグラフ探索を実行させた例は世界初である. 本講演では Graph500 の概要及び GPU を用いたスケーラブルなグラフ探索手法に関して述べる.

GTC Japan 2012 キャンペーン

2012年07月18日 02時37分31秒 | Weblog

もともとの値段が高いので、キャンペーンと言ってもどれだけ得なのかわかりませんが、以下のキャンペーンで NVIDIA Tesla C2070 が 99,800円 / 枚で一人４枚まで購入ができるそうです。Kepler2 は当分一般ユーザは手に入りませんので、今年度 C2070 を選ぶのことは一つの選択肢になると思います。C2070 と C2075 は性能面では同じで、後者の方が省電力性が良いと言われています。

GTC Japan 2012 キャンペーン

GTC JAPAN 2012 （7月26日開催）に登録すると NVIDIA Tesla C2070を特別価格でご購入可能なキャンペーンも同時開催!
Teslaの購入を検討しているお客様におすすめなイベント限定の超特価で購入が出来ますので、この機会をお見逃しなく！
Tesla C2070 特別価格 99,800円(税別)

研究室にある C2075 x 4 枚搭載のマシン。オープンキャンパスでも公開予定。

最大カット問題と SDPA　その３

2012年07月17日 00時17分00秒 | Weblog

ものすごい昔に書いた記事のデータを更新して再掲載します。最大カット問題と SDPA　その２

------------------------------------------------------------------------------------
以下には 1996 年にリリースされた SDPA 2.0.1 用いてmcp500-1.dat-s(ベンチマーク問題集 SDPLIBに収録されている) という SDP を解いた場合の結果が含まれているが(この問題の大きさは n(行列の大きさ) = m (制約式の数) = 500)である), 当時ワークステーション(SONY NEWS)で 133,892.5秒(およそ 37.2時間)の時間を要した. また SDPA 2.0.1 を現在のワークステーション(Intel Xeon Westmere-EX 4870)で実行して mcp500-1.dat-s を解いた場合には 373.7 秒で解いている. よって粗く計算すれば 1996 年から 2012 年にかけて計算機の進歩によりソフトウェアが 133,892.5 / 373.7 ≈ 358.3 倍高速化されていることがわかる. また最新の SDPA 7.4.0 で mcp500-1.dat-s を解いた場合で 0.8 秒で解くことができるので,アルゴリズムによる高速化も同様に計算すると 358.3 / 0.8 ≈ 447.9 倍高速化されていることになるので計算機の高速化だけでなくアルゴリズム等の高速化も主因の一つであると考えることができる. このようにソフトウェアの高速化には計算機やアルゴリズムの高速化など様々な要因が関係していることがわかる.

1: 1996年; 133,892.5 秒; SDPA 2.01
(マシン: SONY NEWS-5000WI, CPU MIPS R4400 133MHz, メモリ 128MB)
2: 2012年; 373.7秒; SDPA 2.01
2012年; 0.8秒; SDPA 7.4.0
(マシン: CPU Intel Xeon 4870 2.40GHz x 4個, メモリ 512GB)

今度は同じ大きさの問題(点数 500)を用いて、昔のマシン、現在のマシン、それに SDPA 2.01 と 7.4.0 を用いて比べてみると、非常に大雑把な高速化比率は以下のようになる。

全体の高速化 : 133,892.5 / 0.8 = 167365.6倍
コンピュータによる高速化：133,892.5 / 373.7 = 358.3 倍
アルゴリズムや実装上の工夫による高速化： 358.3 / 0.8 = 447.9 倍

アクセス
閲覧	214	PV
訪問者	167	IP
トータル
閲覧	5,136,419	PV
訪問者	1,340,275	IP

	【PR】プロ直伝・dポイントをザクザクためる術
	【PR】安い＆大量の「訳あり商品」がヤバい!
	【コメント募集中】「食パン」に何をつけて食べますか？
	訪問者数に応じてdポイント最大1,000pt当たる！
	dポイントが当たる！無料『毎日くじ』

最適化問題に対する超高速＆安定計算

大規模最適化問題、グラフ探索、機械学習やデジタルツインなどの研究のお話が中心