最適化問題に対する超高速&安定計算

クラスタ計算機やスーパーコンピュータ上での大規模最適化問題やグラフ探索などの研究のお話が中心

Petascale General Solver for Semidefinite Programming Problems with over Two Million Constraints

2014年01月31日 01時35分22秒 | Weblog
アブストラクトの英文を少し変えてみました。

K. Fujisawa, T. Endo, Y. Yasui, H. Sato, N. Matsuzawa, S. Matsuoka and H. Waki,
Petascale General Solver for Semidefinite Programming Problems with over Two Million Constraints, The 28th IEEE International Parallel & Distributed Processing Symposium

Abstract―The semidefinite programming (SDP) problem is one of the central problems in mathematical optimization. The primal-dual interior-point method (PDIPM) is one of the most powerful algorithms for solving SDP problems, and many research groups have employed it for developing software packages. However, two well-known major bottlenecks i.e., the generation of the Schur complement matrix (SCM) and its Cholesky factorization, exist in the algorithmic framework of the PDIPM. We have developed a new version of the semidefinite programming algorithm parallel version (SDPARA), which is a parallel implementation on multiple CPUs and GPUs for solving extremely large-scale SDP problems with over a million constraints. SDPARA can automatically extract the unique characteristics from an SDP problem and identify the bottleneck. When the generation of the SCM becomes a bottleneck, SDPARA can attain high scalability using a large quantity of CPU cores and some processor affinity and memory interleaving techniques. SDPARA can also perform parallel Cholesky factorization using thousands of GPUs and techniques for overlaping computation and communication if an SDP problem has over two million constraints and Cholesky factorization constitutes a bottleneck. We demonstrate that SDPARA is a high-performance general solver for SDPs in various application fields through numerical experiments conducted on the TSUBAME 2.5 supercomputer, and we solved the largest SDP problem (which has over 2.33 million constraints), thereby creating a new world record. Our implementation also achieved 1.713 PFlops in double precision for large-scale Cholesky factorization using 2,720 CPUs and 4,080 GPUs.
コメント
この記事をはてなブックマークに追加

移動準備 その3

2014年01月30日 00時12分57秒 | Weblog
3月末に移動するサーバと移動しないでそのまま停止するサーバの2種類があります。というわけですので、現在の Web サーバは一旦全て停止します。
移動しないで残していくサーバに関しては

dd if=/dev/zero of=/dev/sda1

などで、ゼロ書き込みして HDD をゼロクリアしています(ひたすら作業中)。後者のサーバに関してはただ残していくだけで実際には今後、誰も使わないとは思います。
サーバの新設置場所に関しては、42Uのラックを3台設置して、サーバ類を収容する予定です。
コメント
この記事をはてなブックマークに追加

Ncpol2sdpa

2014年01月29日 00時44分04秒 | Weblog
こんな論文が発表されていた。今、どこかで査読中だと思います。github 使ってソフトウェアも公開中です。

Ncpol2sdpa -- Sparse Semidefinite Programming Relaxations for Polynomial Optimization Problems of Noncommuting Variables
Peter Wittek

(Submitted on 28 Aug 2013)

A hierarchy of semidefinite programming (SDP) relaxations approximates the global optimum of polynomial optimization problems of noncommuting variables. Generating the relaxation, however, is a computationally demanding task, and only problems of commuting variables have efficient generators. We develop an implementation for problems of noncommuting problems that creates the relaxation to be solved by SDPA -- a high-performance solver that runs in a distributed environment. We further exploit the inherent sparsity of optimization problems in quantum physics to reduce the complexity of resulting relaxation. Constrained problems with a relaxation of order two may contain up to a hundred variables. The implementation is available in C++ and Python. The tool helps solve problems such as finding the ground state energy or testing quantum correlations.
コメント (2)
この記事をはてなブックマークに追加

九州最適化研究集会「モビリティの数理」

2014年01月28日 01時25分49秒 | Weblog
九州最適化研究集会「モビリティの数理」

日時
平成26年2月20日および21日
場所
九州大学 伊都キャンパス 数理学研究教育棟 大講義室1
主催
九州大学 マス・フォア・インダストリ研究所
共催
平成25年度革新的イノベーション創出プログラム
「共進化社会システム創成拠点:ヒト/モノ・エネルギー・情報のモビリティ による多様で持続的な社会の構築」
世話人
穴井宏和 (富士通研究所)
神山直之 (九州大学マス・フォア・インダストリ研究所)
脇隼人(九州大学マス・フォア・インダストリ研究所)
目的
豊かな社会の実現のためにはヒト/モノ・エネルギー・情報の「モビリティ」に対する技術革新が必要となる
だが技術革新においては個人的合理性と社会的最適性といった相反する価値基準を同時に満たす必要がある
この様な問題を解決するための数理モデル・技術を若手研究者に講演をして頂き新たな展開を目指す
本研究集会は上記革新的イノベーション創出プログラム課題の一環として行われる
プログラム

2月20日 (木)
12:50 -- 13:00
開会挨拶及び趣旨説明
13:00 -- 13:50
大堀耕太郎(富士通研究所)
14:00 -- 14:50
蓮池隆(大阪大学)
15:10 -- 16:00
西遼佑(国立情報学研究所・JST ERATO)
16:10 -- 17:00
濱田尚希(富士通研究所)
2月21日(金)
10:00 -- 10:50
安井雄一郎(中央大学・JST CREST)
11:00 -- 11:50
TBA
コメント
この記事をはてなブックマークに追加

博士課程教育リーディングプログラム

2014年01月27日 00時29分42秒 | Weblog
博士課程教育リーディングプログラムは採択率が平均して20から25%ぐらいですので、応募している大学のレベルを考えても採択はかなり難しいと言われるプログラムです。しかし、私立大学ですとさらに大変なことになります。

博士課程教育リーディングプログラム

 「博士課程教育リーディングプログラム」は、優秀な学生を俯瞰力と独創力を備え広く産学官にわたりグローバルに活躍するリーダーへと導くため、国内外の第一級の教員・学生を結集し、産・学・官の参画を得つつ、専門分野の枠を超えて博士課程前期・後期一貫した世界に通用する質の保証された学位プログラムを構築・展開する大学院教育の抜本的改革を支援し、最高学府に相応しい大学院の形成を推進する事業です。
 本会では、博士課程教育リーディングプログラム委員会を設け、本事業に関する審査・評価を実施しています。
コメント
この記事をはてなブックマークに追加

CREST 研究の概要と25年度までの進捗状況

2014年01月26日 01時38分26秒 | Weblog
CREST 研究の概要と25年度までの進捗状況

次世代ポストペタスパコンにおけるアルゴリズム的及びシステム的に解決すべき課題の特定と解決策の提案を目的とする。本研究で重点的に取り組む課題は以下の二つとなる
1:並列数の爆発的増大、不均質化、高密度化
2:記憶装置の多階層化・大容量化

25年度を含む、これまでの主な研究成果は以下の通りである

1:アクセラレータ等による大規模かつヘテロな環境下における世界最高性能の大規模グラフ解析及び数理最適化システムの開発と評価  
◯Graph500 ベンチマーク (巨大グラフと並列BFS)
国際会議ISC12 : 358GTEPS (世界3位) , 8.15GTEPS (1ノード世界1位)
国際会議SC12 : 5524GTEPS(世界4位), 10.495GTEPS(1ノード世界1位)
◯Green Graph500 ベンチマーク (省電力グラフ探索性能)
国際会議ISC13 : 61.19GTEPS/kW (Small Data世界1位)
国際会議SC13 : 6.72GTEPS/kW (Big Data 世界1位), 153.17GTEPS/kW (Small Data 世界1位)
◯数理最適化問題(SDP:半正定値計画問題):
(世界記録更新:233万制約 ; 1.713PFlops) 東工大スパコン TSUBAME 2.0 & 2.5 における疎&密データ複合並列計算(24,480CPUコア & 4080GPU) SC12(Tech. paper) , IPDPS14 (Paper)での採択及び、日本オペレーションズリサーチ学会研究賞、NVIDIA GTC Japan 最優秀ポスター発表賞

2:他のプロジェクトとの連携等によるグラフ関係のアプリ推進

3:各種グラフや最適化アルゴリズムのライブラリ化
 最適化とHPC系研究者のポストペタスパコン上での Co-design による解決及びポストペタスパコン上での基盤ソフトの整備に貢献すると共に安心安全な社会の実現を目指す
コメント
この記事をはてなブックマークに追加

Fedora 10 から 20 へ その2

2014年01月25日 01時03分37秒 | Weblog
10回の連続の upgrade に成功した以下のマシンですが、移転に関する作業のため昨日停止して解体しました。upgrade に関するトラブルは全く無かったので、まだまだ upgrade できるとは思いますが、仕方なく停止しました。

-----------------------------------------------
2008年12月に購入した CPU Core i7 のマシンに当時 Fedora 10 をインストールして運用していた。その後 10 --> 11 --> 12 --> 13 --> 14 --> 15 --> 16 --> 17 --> 18 --> 19 --> 20 と10回の連続の upgrade に成功して、2014年1月現在は Fedora 20 が動作している。

◯CPU : Intel Core i7 940 2.93GHz : 4 コア
◯メモリ : 6GB
コメント
この記事をはてなブックマークに追加

「将来のHPCIシステムに関する調査研究」の最終報告会(3月10日@秋葉原)

2014年01月24日 00時39分19秒 | Weblog
「将来のHPCIシステムに関する調査研究」の最終報告会(3月10日@秋葉原)

日時:2014年3月10日(月)13:00~18:05
会場:秋葉原UDX Gallery Next 1 (2F)
http://udx.jp/next/access.html
参加登録: http://goo.gl/gDtYDI (2014年2月28日(金)17:00まで)
参加費: 無料 (ただし懇親会に参加される場合は4,000円(予定)を頂戴致します)

主催: 将来のHPCIシステムに関する調査研究 研究チーム
「アプリケーション分野からみた将来のHPCIシステムのあり方の調査研究」
「高バンド幅アプリケーションに適した将来のHPCIシステムのあり方に関する調査研究」
「演算加速機構を持つ将来のHPCIシステムのあり方に関する調査研究」
「レイテンシコアの高度化・高効率化による将来のHPCIシステムに関する調査研究」

協賛:
戦略的高性能計算システム開発に関するワークショップ (SDHPC)
コメント
この記事をはてなブックマークに追加

TSUBAME-KFC 上での Graph500 その3

2014年01月23日 00時38分42秒 | Weblog
前回と同じ 32ノード, 64 GPU での Graph500 の実行。64GPU でホストメモリの負担が減ったために Scale 29 でも動作した。また TEPS 値が上がりましたが、Scale 30 はメモリ不足で実行は無理でした。

◯ Graph500 & Scale 28
median_TEPS: 1.15001e+10

◯ Graph500 & Scale 29
median_TEPS: 1.2173e+10

============= Result ==============
SCALE: 29
edgefactor: 16
NBFS: 64
graph_generation: 33.4577598572
num_mpi_processes: 64
construction_time: 52.3046398163
redistribution_time: 5.70524597168
min_time: 0.661997
firstquartile_time: 0.68565
median_time: 0.705649
thirdquartile_time: 0.729336
max_time: 0.834971
mean_time: 0.711857
stddev_time: 0.0367017
min_nedge: 8589858508
firstquartile_nedge: 8589858508
median_nedge: 8589858508
thirdquartile_nedge: 8589858508
max_nedge: 8589858508
mean_nedge: 8589858508
stddev_nedge: 0
min_TEPS: 1.02876e+10
firstquartile_TEPS: 1.17776e+10
median_TEPS: 1.2173e+10
thirdquartile_TEPS: 1.25281e+10
max_TEPS: 1.29757e+10
harmonic_mean_TEPS: 1.20668e+10
harmonic_stddev_TEPS: 7.83821e+07
min_validate: 8.90402
firstquartile_validate: 9.08575
median_validate: 9.19315
thirdquartile_validate: 9.3226
max_validate: 10.2834
mean_validate: 9.22924
stddev_validate: 0.240041

TSUBAME-KFC - LX 1U-4GPU/104Re-1G Cluster, Intel Xeon E5-2620v2 6C 2.100GHz, Infiniband FDR, NVIDIA K20x
コメント
この記事をはてなブックマークに追加

TSUBAME-KFC 上での Graph500 その2

2014年01月22日 00時20分48秒 | Weblog
前回は Scale 28 で 32ノード, 128GPU だったが、今回は 32ノード, 64 GPU に変更。しかし、今回の方が性能が高い。。。

◯ Graph500 & Scale 28
median_TEPS: 1.15001e+10

============= Result ==============
SCALE: 28
edgefactor: 16
NBFS: 64
graph_generation: 17.0261831284
num_mpi_processes: 64
construction_time: 25.7171049118
redistribution_time: 2.76876497269
min_time: 0.332682
firstquartile_time: 0.354009
median_time: 0.373469
thirdquartile_time: 0.394995
max_time: 0.4714
mean_time: 0.374731
stddev_time: 0.0268339
min_nedge: 4294927670
firstquartile_nedge: 4294927670
median_nedge: 4294927670
thirdquartile_nedge: 4294927670
max_nedge: 4294927670
mean_nedge: 4294927670
stddev_nedge: 0
min_TEPS: 9.111e+09
firstquartile_TEPS: 1.08734e+10
median_TEPS: 1.15001e+10
thirdquartile_TEPS: 1.21323e+10
max_TEPS: 1.291e+10
harmonic_mean_TEPS: 1.14614e+10
harmonic_stddev_TEPS: 1.03402e+08
min_validate: 4.44144
firstquartile_validate: 4.60263
median_validate: 4.76156
thirdquartile_validate: 5.0697
max_validate: 6.86868
mean_validate: 4.90372
stddev_validate: 0.427448


TSUBAME-KFC - LX 1U-4GPU/104Re-1G Cluster, Intel Xeon E5-2620v2 6C 2.100GHz, Infiniband FDR, NVIDIA K20x
コメント
この記事をはてなブックマークに追加

平成26年度共同利用研究計画公募要領

2014年01月21日 00時20分41秒 | Weblog
以下の平成26年度共同利用研究計画公募ですが、1月31日締切りになっています。

平成26年度 九州大学マス・フォア・インダストリ研究所共同利用研究計画公募要領

平成26年度共同利用研究計画公募要領(Word形式:42KB / PDF形式:163KB)
(公募開始11月29日(金),応募締切平成26年1月31日(金),採否の通知は平成26年2月末までに行います.)

コメント
この記事をはてなブックマークに追加

TSUBAME-KFC 上での Graph500

2014年01月20日 00時17分37秒 | Weblog
TSUBAME-KFC 上で 128GPU を用いて Graph500 の実行(大規模実行用のプログラム)を行ってみた。とりあえずは 9.5GTEPS ぐらいの性能。

◯ Graph500 & Scale 28
median_TEPS: 9.52748e+09

============= Result ==============
SCALE: 28
edgefactor: 16
NBFS: 64
graph_generation: 15.6297609806
num_mpi_processes: 128
construction_time: 22.2543370724
redistribution_time: 2.67794203758
min_time: 0.36158
firstquartile_time: 0.404948
median_time: 0.450794
thirdquartile_time: 0.484442
max_time: 0.674164
mean_time: 0.452209
stddev_time: 0.0611282
min_nedge: 4294927670
firstquartile_nedge: 4294927670
median_nedge: 4294927670
thirdquartile_nedge: 4294927670
max_nedge: 4294927670
mean_nedge: 4294927670
stddev_nedge: 0
min_TEPS: 6.37075e+09
firstquartile_TEPS: 8.86572e+09
median_TEPS: 9.52748e+09
thirdquartile_TEPS: 1.06061e+10
max_TEPS: 1.18782e+10
harmonic_mean_TEPS: 9.49766e+09
harmonic_stddev_TEPS: 1.61751e+08
min_validate: 4.47244
firstquartile_validate: 4.82371
median_validate: 4.94657
thirdquartile_validate: 5.06717
max_validate: 5.94372
mean_validate: 4.96742
stddev_validate: 0.250875

TSUBAME-KFC - LX 1U-4GPU/104Re-1G Cluster, Intel Xeon E5-2620v2 6C 2.100GHz, Infiniband FDR, NVIDIA K20x
コメント
この記事をはてなブックマークに追加

GPU クラスタで Graph500 その3

2014年01月19日 02時56分24秒 | Weblog
パラメータをいろいろと変えてみまして、少しだけ性能が上がりました。

Scale 28
パラメータチューニング前
median_TEPS: 3.05506e+09

パラメータチューニング後
median_TEPS: 3.28337e+09


◯最適化問題(SDP)用 GPU 計算クラスタ
Intel Xeon + 4 GPU マシン(4台)
CPU:Xeon X5690(3.46GHz,6コア)×2
メモリ:192GB(16GB×12)
HDD:SATA500GB×2(システム、システムバックアップ)
NIC : GbE x 1 & Inifiniband(FDR) x 1
GPGPU:Tesla C2075(C2070)×4
OS:CentOS 6.3 for x86_64

============= Result ==============
SCALE: 28
edgefactor: 16
NBFS: 64
graph_generation: 55.1255221367
num_mpi_processes: 16
construction_time: 186.369210958
redistribution_time: 23.5255258083
min_time: 1.25778
firstquartile_time: 1.2882
median_time: 1.30809
thirdquartile_time: 1.33682
max_time: 1.45938
mean_time: 1.31452
stddev_time: 0.0387928
min_nedge: 4294927670
firstquartile_nedge: 4294927670
median_nedge: 4294927670
thirdquartile_nedge: 4294927670
max_nedge: 4294927670
mean_nedge: 4294927670
stddev_nedge: 0
min_TEPS: 2.94298e+09
firstquartile_TEPS: 3.2128e+09
median_TEPS: 3.28337e+09
thirdquartile_TEPS: 3.33406e+09
max_TEPS: 3.41469e+09
harmonic_mean_TEPS: 3.26731e+09
harmonic_stddev_TEPS: 1.2148e+07
min_validate: 35.9675
firstquartile_validate: 36.4028
median_validate: 37.0046
thirdquartile_validate: 37.4558
max_validate: 38.138
mean_validate: 36.9744
stddev_validate: 0.578955
コメント
この記事をはてなブックマークに追加

情報処理学会アルゴリズム研究会のご案内 締切り延長

2014年01月18日 01時13分07秒 | Weblog
2014年3月の第147回アルゴリズム研究会の申し込み締め切りを延長いたします.
新しい締切は,1月23日(木)となります.
※原稿締切の延長はありません.

現在のところ,登録システムでは申込みの受付を閉じておりますが,
週明けに受付を再開する予定です.いましばらくお待ちください.


日程 : 2014年 3月 3日(月), 4日(火)
会場 : 中央大学後楽園キャンパス6号館3階6301室,6302室
住所 : 〒112-8551 東京都文京区春日1-13-27
交通案内 : http://www.chuo-u.ac.jp/access/
発表申込締切: 2013年 1月 23日(木)23時59分
原稿提出締切 : 2014年 2月 6日(木)23時59分締切厳守
※23時59分を過ぎるとシステムに投稿できなくなります.
締切に遅れると発表キャンセルとなりますのでご注意ください.
また,フォントの埋め込みがされていないとエラーとなり投稿できませんので,

お早目にご投稿いただきますようお願い致します.


発表申込方法 :
以下のURLの「発表申込(仮申込)」メニューよりお申込ください.
https://ipsj1.i-product.biz/ipsjsig/AL/
ショートトーク(15分程度)も受け付けております.

※申込みフォームの「研究会への連絡事項欄」に以下についてご入力ください.
(1)生年月:19__年__月
 * 発表者生年月は受賞候補者選考等に必要な場合がありますのでご協力願います.
(2)ショートトークを希望:する/しない
(3)発表にOHPを使用:する/しない
 * 申請がない場合,基本的にOHPは用意しません.プロジェクタは用意します.
(4)発表時間に特別のご希望があれば明記下さい.
コメント
この記事をはてなブックマークに追加

NVIDIA Manufacturing Day 2014 開催

2014年01月17日 01時05分07秒 | Weblog
NVIDIA Manufacturing Day 2014 が今日開催されます。事前登録制なので、すでに登録は締め切られているようです。

開催概要
主催 エヌビディア ジャパン
協賛 アルテアエンジニアリング、エルザジャパン、G-DEP、デル、日本ヒューレット・パッカード、レノボ・ジャパン、RTT、菱洋エレクトロ
日時 2014年 1月17日(金)10:00 - 17:00(受付開始: 9:30)
会場 JP Tower Hall & Conference
東京都千代田区東京都千代田区丸の内二丁目7番2号JPタワー 4階
●JR東京駅より徒歩1分
●丸の内線東京駅より地下道直結

アジェンダ

10:00 - 10:50 「エヌビディア最新情報」
エヌビディア マーケティング本部 部長 林 憲一
[概要]
Green 500のTop10を独占したエヌビディアの最新テクノロジー、Tegra, Quadro, Tesla, GRID製品に広がるエヌビディアの包括的な製造業向けソリューションなどをご紹介します。また東京工業大学の遠藤敏夫准教授をゲストにお招きし、世界一電力効率の良いスパコン TSUBAME-KFC についてご紹介頂きます。

10:50 - 11:30 基調講演「日本自動車工業会による GPU コンピューティングへの取組みのご紹介(仮)」
日本自動車工業会様

菱洋エレクトロ株式会社ご提供ランチセッション(お弁当をご用意しています)

13:00 - 15:00 「エヌビディアビジュアリゼーションソリューション」
エヌビディア エンタープライズソリューションプロダクト事業部 澤井 理紀
[概要]
Quadro Kepler製品ラインナップ、対応するアプリケーション状況、ハイエンド4K/8Kグラフィックスの対応状況、一新したMaximusテクノロジーのご紹介、次世代のグラフィックスを実現する NVIDIA GRID vGPUテクノロジーの最新情報などを多数のデモでご紹介します。

15:30 - 17:00 「エヌビディア HPC ソリューション」
エヌビディア エンタープライズソリューションプロダクト事業部 事業部長 杉本 博史

[概要]
世界最速、最高の電力効率を誇る最新のTesla K40製品のご紹介、CUDA、OpenACC、CAEアプリケーションのGPU対応状況など、最新情報をご紹介します。

また午後1時から3時にチュートリアルも実施します。

13:00 - 15:00 チュートリアル「画像処理のためのCUDA」
エヌビディア CUDA エンジニア 森野 慎也
[概要]
画像処理におけるCUDAの利用法について、開発環境(Nsight Visual Studio Edition)の紹介や、他のデバイス(CPU、FPGA)との対比を行います。さらにフィルタ処理、テンプレートマッチングなど、汎用的に用いられる処理においても、高い性能が得られることを実測により示し、最適化のポイントについても解説します。
-----------------------------------------------------------------------------------
コメント
この記事をはてなブックマークに追加