最適化問題に対する超高速&安定計算

大規模最適化問題、グラフ探索、機械学習やデジタルツインなどの研究のお話が中心

CX400 での SDPARA その7

2015年02月28日 03時56分26秒 | Weblog
前回に引き続いて、連続5回の実行を行ってみました。同じパラメータで同じ問題を扱っているにも関わらず、結構大きな値のばらつきがあることがわかります。

◯384GPU

問題2
[gpdpotrf] ### END n=1484406, nb=1024, 16x24 procs, ver 50: 3785.917sec --> 287982.261GFlops ###
[gpdpotrf] ### END n=1484406, nb=1024, 16x24 procs, ver 50: 3844.550sec --> 283590.257GFlops ###
[gpdpotrf] ### END n=1484406, nb=1024, 16x24 procs, ver 50: 3763.697sec --> 289682.437GFlops ###
[gpdpotrf] ### END n=1484406, nb=1024, 16x24 procs, ver 50: 3732.305sec --> 292118.976GFlops ###
[gpdpotrf] ### END n=1484406, nb=1024, 16x24 procs, ver 50: 3793.094sec --> 287437.412GFlops ###

問題2のサイズ
1484406 = mDIM
2 = nBLOCK
-1777522 1682 = bLOCKsTRUCT

高性能演算サーバシステム (Fujitsu PRIMERGY CX400)
演算ノード 理論演算性能 345.6GFLOPS
主記憶容量 128GB
メモリバンド幅 102.4GB/s
総ノード数 1476ノード
総プロセッサ (コア) 数 2952プロセッサ (23616コア)
理論演算性能(倍精度実数)の総和 966.2TFLOPS
(CPU: 510.1TF, GPGPU[K20m&K20Xm]: 456.1TF)
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

CX400 での SDPARA その6

2015年02月27日 00時54分45秒 | Weblog
別の問題にて SDPARA の実行を行ってみました。問題サイズがやや小さくなることありまして、性能は問題2ではわずかながら低下しています。

◯384GPU
問題1
[gpdpotrf] ### END n=1495602, nb=1024, 16x24 procs, ver 50: 3796.980sec --> 293689.593GFlops ###
[gpdpotrf] ### END n=1495602, nb=1024, 16x24 procs, ver 50: 3790.625sec --> 294181.923GFlops ###

問題1のサイズ
1495602 = mDIM
1 = nBLOCK
3069 = bLOCKsTRUCT

問題2
[gpdpotrf] ### END n=1484406, nb=1024, 16x24 procs, ver 50: 3785.917sec --> 287982.261GFlops ###
[gpdpotrf] ### END n=1484406, nb=1024, 16x24 procs, ver 50: 3844.550sec --> 283590.257GFlops ###

問題2のサイズ
1484406 = mDIM
2 = nBLOCK
-1777522 1682 = bLOCKsTRUCT

高性能演算サーバシステム (Fujitsu PRIMERGY CX400)
演算ノード 理論演算性能 345.6GFLOPS
主記憶容量 128GB
メモリバンド幅 102.4GB/s
総ノード数 1476ノード
総プロセッサ (コア) 数 2952プロセッサ (23616コア)
理論演算性能(倍精度実数)の総和 966.2TFLOPS
(CPU: 510.1TF, GPGPU[K20m&K20Xm]: 456.1TF)
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

CHOLMOD のデモ CPU & GPU

2015年02月26日 01時36分40秒 | Weblog
CHOLMOD のデモを実行してみました。
上が GPU 使用時、下が CPU のみ使用時の実行結果です。GPU の方が相当速くなってます。

◯実行マシンのスペック
Intel(R) Core(TM) i7-3930K CPU @ 3.20GHz + GeForce GTX TITAN x 2 + メモリ 12GB + CentOS 6.5 + CUDA 6.5 + Intel Compiler 15.0.1

---------------------------------- cholmod_l_demo:
cholmod version 3.0.4
SuiteSparse version 4.4.3
norm (A,inf) = 46501
norm (A,1) = 93000
CHOLMOD sparse: A: 46500-by-46500, nz 139498, up/lo. OK
CHOLMOD dense: B: 46500-by-1, OK
bnorm 1.99998
Analyze: flop 3.3516e+13 lnz 1.08115e+09
Factorizing A*A'+beta*I
CHOLMOD factor: L: 46500-by-46500 supernodal, LL'. nz 1081148250 OK
nmethods: 1
Ordering: AMD fl/lnz 31000.3 lnz/anz 1.0
ints in L: 657282, doubles in L: 1158546991
factor flops 3.3516e+13 nnz(L) 1081148250 (w/no amalgamation)
nnz(A): 1081148250
flops / nnz(L): 31000.3
nnz(L) / nnz(A): 1.0
analyze cputime: 9.5953
factor cputime: 1977.0997 mflop: 16952.1
solve cputime: 1.9630 mflop: 2203.0
overall cputime: 1988.6580 mflop: 16855.7
solve cputime: 1.9520 mflop: 2215.5 (100 trials)
solve2 cputime: 0.0000 mflop: 0.0 (100 trials)
peak memory usage: 24755 (MB)
residual (|Ax-b|/(|A||x|+|b|)): 8.92e-16 2.91e-16
rcond 2.2e-05


CHOLMOD GPU/CPU statistics:
SYRK CPU calls 25 time 7.2210e+02
GPU calls 146 time 6.8896e+00
GEMM CPU calls 22 time 1.1814e+03
GPU calls 146 time 3.6609e-03
POTRF CPU calls 1 time 3.3205e-01
GPU calls 18 time 8.0352e-01
TRSM CPU calls 1 time 4.6794e+01
GPU calls 17 time 3.3027e+00
time in the BLAS: CPU 1.9506e+03 GPU 1.1000e+01 total: 1.9616e+03
assembly time 0.0000e+00 0.0000e+00

---------------------------------- cholmod_l_demo:
cholmod version 3.0.4
SuiteSparse version 4.4.3
norm (A,inf) = 46501
norm (A,1) = 93000
CHOLMOD sparse: A: 46500-by-46500, nz 139498, up/lo. OK
CHOLMOD dense: B: 46500-by-1, OK
bnorm 1.99998
Analyze: flop 3.3516e+13 lnz 1.08115e+09
Factorizing A*A'+beta*I
CHOLMOD factor: L: 46500-by-46500 supernodal, LL'. nz 1081148250 OK
nmethods: 1
Ordering: AMD fl/lnz 31000.3 lnz/anz 1.0
ints in L: 139506, doubles in L: 2162250000
factor flops 3.3516e+13 nnz(L) 1081148250 (w/no amalgamation)
nnz(A): 1081148250
flops / nnz(L): 31000.3
nnz(L) / nnz(A): 1.0
analyze cputime: 6.3093
factor cputime: 14772.4020 mflop: 2268.8
solve cputime: 1.9933 mflop: 2169.6
overall cputime: 14780.7046 mflop: 2267.8
solve cputime: 1.9520 mflop: 2215.5 (100 trials)
solve2 cputime: 0.0000 mflop: 0.0 (100 trials)
peak memory usage: 24755 (MB)
residual (|Ax-b|/(|A||x|+|b|)): 2.30e-16 1.25e-15
rcond 2.2e-05


CHOLMOD GPU/CPU statistics:
SYRK CPU calls 0 time 0.0000e+00
GPU calls 0 time 0.0000e+00
GEMM CPU calls 0 time 0.0000e+00
GPU calls 0 time 0.0000e+00
POTRF CPU calls 1 time 1.4767e+04
GPU calls 0 time 0.0000e+00
TRSM CPU calls 0 time 0.0000e+00
GPU calls 0 time 0.0000e+00
time in the BLAS: CPU 1.4767e+04 GPU 0.0000e+00 total: 1.4767e+04
assembly time 0.0000e+00 0.0000e+00
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

総合研究棟(理学系) 2月下旬

2015年02月25日 09時44分34秒 | Weblog
外装はほぼ完成したようです。

















コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

JST CREST 平成26年度の主要な研究成果

2015年02月24日 01時11分40秒 | Weblog
平成26年度は以下の研究成果を達成した。

1:アクセラレータ等から構成される不均質な大規模並列環境における超大規模並列グラフ探索。データ構造の工夫とグラフの特性を考慮した探索アルゴリズムの開発により、計算量と通信データ量の削減に成功し、第8回 Graph500 ベンチマークにおいて世界1位を達成した (京コンピュータを使用) 。 またメモリの多階層化を考慮することによって、高速性と省電力性を両立したアルゴリズムに提案と評価を行った(第3回 Green Graph 500 ベンチマークにおいて世界1位を達成した)。
2:大規模な数理最適化問題 (半正定値計画問題: SDP) に対する並列ソルバの開発と評価。SDPは現在最も注目されている数理最適化問題の一つであり、組合せ最適化、データマイニング、量子化学,制御分野など非常に幅広い応用を持っている。今回、計算量とデータ移動量の正確な推定、疎性やサイズなどのデータ特性と性能値の見極め等のアルゴリズムを開発することによって、世界最高性能の並列ソルバの開発に成功し、東工大スパコン TSUBAME2.5上で 1.73PFlops(4080GPU)を達成した。
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

スパコン「京」に迫る危機

2015年02月23日 01時54分44秒 | Weblog
次のスパコン(ポスト京)にも影響を与えそうな事態になっている。

スパコン「京」に迫る危機…電気代高騰、STAP余波など難題が直撃

日本が世界に誇るスーパーコンピューター「京(けい)」が思わぬ難題に直面している。淡路島の4割強の世帯の消費量に匹敵する電力が必要だが、関西電力の度重なる電気料金値上げが直撃。さらに京を運営する計算科学研究機構(神戸市中央区)を傘下に持つ理化学研究所が、STAP問題に伴う予算削減危機に直面している。研究面では世界的成果を順調に挙げている京だが、先行きに暗雲が漂う。

コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

Graph Analysis and Mathematical Optimization Techniques for Realizing Urban OS

2015年02月22日 02時27分31秒 | Weblog
以下の講演を ISC15 で行う予定です。

Graph Analysis and Mathematical Optimization Techniques for Realizing Urban OS

We have started the research project for developing the Urban OS (Operating System) and implementing it on a large city (Fukuoka) from 2013. The Urban OS gathers big data sets of people and transportation movements by utilizing different sensor technologies and storing them to the cloud storage system. We have another research project whose objective is to develop advanced computing and optimization infrastructures for extremely large-scale graphs on post peta-scale supercomputers. The Urban OS employs the graph analysis system developed by this research project and provides a feedback to a predicting and controlling center to optimize many social systems and services. In this talk, we briefly explain our ongoing research project for realizing the Urban OS.
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

NTT R&D フォーラム 2015

2015年02月21日 01時55分45秒 | Weblog
2月20日は以下のNTT R&D フォーラム 2015に参加してきました。

NTT R & D フォーラム 2015

日時:2015年2月19日(木曜)・20日(金曜)10時から17時
会場:NTT武蔵野研究開発センター

2020に向けたチャレンジ

バリューパートナーと拓く未来
ネットワークサービスの未来
グローバルクラウドの未来
ネットワークサービスの未来
未来を見据えた基礎研究
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

ウェスト1号館と2号館

2015年02月20日 00時59分47秒 | Weblog
九州大学伊都キャンパス1号館(建設中:左)と2号館(右)


1号館と2号館の接続工事が進んでいます




コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

IMPORTANT DATES of ISMP2015

2015年02月19日 01時02分20秒 | Weblog
The International Symposium on Optimization 2015(ISMP2015)

IMPORTANT DATES

March 2 – Abstract Submission Deadline
March 27 – Notification of Acceptance
April 15 – Registration Deadline for Presenting Authors & Early Registration Deadline
June 8 – Hotel Reservation Deadline
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

2月 IMI Colloquium

2015年02月18日 01時00分10秒 | Weblog
2月 IMI Colloquium

日時:2015年2月18日(水)
16:45-17:45
場所:九州大学 マス・フォア・インダストリ研究所
大講義室1(数理・IMI図書館棟3F)
講師:加藤 公一氏(シルバーエッグテクノロジー株式会社)

講演タイトル:レコメンデーションシステム -- 理論と実践

講演要旨:
インターネットのショッピングサイトで使われるレコメンデーションシステム(自動推薦システム)について紹介する。これは機械学習の問題として考えられており、様々な数学的モデルやアルゴリズムが提案されてきた。ここでは、それらに共通する基本的な考え方について概観する。また、実用的なシステムとアカデミックな論文の違いについても言及する。論文の中には巨大な計算リソースを仮定するものがあるが、実際のシステムでは現実的なコストで提供しなければならないという制約があり、計算時間とメモリ消費について強く意識する必要がある。
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

総合研究棟(理学系) 2月中旬

2015年02月17日 02時08分33秒 | Weblog
今回はいつもの異なる南(南東)側から撮影してみました。









コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

ウィンタースクール 「数学ソフトウェア・チュートリアル」開催

2015年02月16日 03時38分09秒 | Weblog
ウィンタースクール「数学ソフトウェア・チュートリアル」

下記の要領で, 数学ソフトウェアに関するチュートリアルを開催します. 主に九大数理で利用出来るソフトウェア(商用でないものを含む)を中心として

初めて利用しようと考えている方
別のソフトウェアを利用していたが, 乗り換え・併用を考えている方
講義・授業等での利用を検討されている方
就職後を見越したスキルアップを希望する方

開催期間 2015年2月18日(水) ~ 2月20日(金)

開催場所 〒819-0395 福岡市西区元岡744番地
九州大学・伊都キャンパス・数理学研究教育棟 (伊都図書館)
3階 大講義室1, 中セミナー室7 (2/20)
アクセス

参加方法 参加には特に事前登録など必要ありません.気軽にご参加下さい.



2日目:2月19日(木)
14:00-14:40 ハイパフォーマンス・コンピューティング チュートリアルA 「最適化問題と計算の今後 -- 大規模問題をどこまで解決できるのか? --」

藤澤 克樹(九州大学マス・フォア・インダストリ研究所 / JST CREST)
近年, アルゴリズムサイエンス分野における基礎理論の探求は飛躍的に進んでおり, 以前のような理論的計算量を重視する立場から, ソフトウェア実装面を意識して実際にどのような構造や特性を持つ場合において, 高速かつ省電力で解くことができるのかといった研究に移行しつつある. 一方,コンピュータのハードウェア&ソフトウェア面での研究の進展も著しく, 近年ではスーパーコンピュータ等を中心とした並列計算技術だけでなく, 汎用的なマルチコア上の並列計算から大規模環境下でのクラスタやクラウド計算まで新世代の実装方式が開発されている. そのため, これからの研究においては最先端理論 (Algorithm Theory) + 大規模実データ (Data) + 最新計算技術 (Computation) の三つを有機的に組み合わせることによって, 実用に耐え得る解決策の提示と大規模最適化問題を扱う際の先例となることが求められている. 本講演では最適化と計算に関する最新の傾向に触れると共に, 今後の大規模計算による解決の見通しについて説明を行う.
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

CPLEX 12.6.1

2015年02月15日 00時35分24秒 | Weblog
IBM Academic Initiative プログラムに参加している人限定ですが、CPLEX 12.6.1 が以下から入手可能です。Linux, Mac OSX, Windows 版などが用意されています。

IBM Academic Initiative

IBM ILOG CPLEX Optimization Studio V12.6.1 Multiplatform Multilingual eAssembly (CRU6CML)
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

日本オペレーションズ・リサーチ学会 2015年春季研究発表会 プログラム発表

2015年02月14日 10時14分59秒 | Weblog
2015年春季研究発表会
日本OR学会 統一テーマ「オリンピック・パラリンピックとOR」

日程
2015年3月26日(木),27日(金)

会場
東京理科大学神楽坂キャンパス

プログラム
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする